Mental Damage: Caption Poisoning Attacks on Retrieval-Augmented Text-to-Music Generation
📄 Mental Damage: Caption Poisoning Attacks on Retrieval-Augmented Text-to-Music Generation #音乐生成 #多模态模型 #数据增强 #自监督学习 📝 5.6/10 | 前50% | #音乐生成 | #数据增强 | #多模态模型 #自监督学习 | arxiv 学术质量 3.3/7 | 影响力 1/2 | 可复现性 1.3/2 👥 作者与机构 Yizhu Wen, Shuhao Zhang, Nan Zhang, Long Cheng, Hanqing Guo 其中 Yizhu Wen 和 Shuhao Zhang 贡献相同(贡献者排序已标明)。 💡 毒舌点评 这篇论文提出了一个重要但略显初步的攻击向量。其核心思想——利用高级语义锚点和低级声学载荷的“分层注入”来同时实现检索隐蔽性和生成引导——思路清晰且具有启发性。然而,作为一篇旨在投递顶级会议的工作,其“新颖性”的成色不足。将PoisonedRAG等文本/图像领域的攻击范式迁移到音乐RAG,本身并非重大技术突破。更关键的是,论文的“技术深度”明显欠缺:公式(2)提出的优化目标,其核心函数 \(\mathcal{R}(\cdot)\) 和 \(\mathcal{S}(\cdot)\) 如何定义、如何优化,在文中仅被笼统地描述为依赖LLM生成,这使得整个“方法”部分更像是一个工程化的prompt设计流程,而非一个严谨的算法框架。实验部分,仅在一个高度特定的“CLAP + MusicGen”组合上进行验证,结论的普适性大打折扣。评估仅依赖CLAP相似度这一单一自动指标,缺乏人类感知评估(如用户研究)来验证攻击是否真的能造成“心理伤害(Mental Damage)”或“功能偏离”,这使得其影响力和危害性声明显得空泛。总体而言,这是一篇合格的探索性工作,提出的问题值得研究,但若想跻身顶会,需要在方法严谨性、实验广度与深度、以及对“危害”的实证评估上进行大幅加强。 📌 核心摘要 本文研究了检索增强文本到音乐生成(RAG-TTM)系统面临的一种新型完整性攻击:标题污染攻击。攻击者通过向知识库注入少量精心构造的音乐标题,可在不修改用户提示、检索器或生成器的情况下,操纵系统检索到恶意标题,并偏置提示增强过程,最终使生成的音乐偏离用户原始意图,转向攻击者选定的目标类别。论文提出的“双层标题污染攻击”策略包含三个组件:1)锚点保留,以维持检索可行性;2)高级功能对立目标生成,以控制语义冲突;3)低级语义载荷注入,以增强生成引导强度。在基于MusicCaps、CLAP检索器和MusicGen的实验管道中,攻击使生成音乐与目标类别的CLAP相似度提升近一倍(从约0.21-0.28升至0.41-0.48),同时与用户查询的相似度保持稳定(约0.30),证实了攻击的有效性和隐蔽性。该工作揭示了RAG系统在创意AI领域面临的实际安全风险。 🔗 开源详情 代码:论文中未提供攻击生成流程本身的代码仓库链接。但论文明确使用了Meta的开源库AudioCraft来运行MusicGen模型,并给出了其GitHub仓库链接:https://github.com/facebookresearch/audiocraft。 模型权重:论文中未提及该研究独有的模型权重链接。论文使用的MusicGen (musicgen-small) 模型权重可通过上述AudioCraft项目获取。 数据集:使用了 MusicCaps 数据集。论文中未提供该数据集的直接下载链接,但因其是公开数据集,通常可通过官方渠道(如Google Research项目页或HuggingFace Datasets)获取。 Demo:提供了在线演示链接:https://yizhu-wen.github.io/Mental-Damage/。 复现材料:论文附录(Appendix A)提供了详细的攻击示例(图3)和用于生成攻击载荷数据的数据生成提示模板(图4),这些材料对于复现攻击流程至关重要。 论文中引用的开源项目: MusicGen (通过AudioCraft):Meta的文本到音乐生成模型。链接:https://github.com/facebookresearch/audiocraft。 CLAP:一个连接文本和音频的对比学习模型,用作检索器。论文未提供其具体仓库链接。 Sonnet 4.6:论文中提到用于生成目标类别和推理的LLM(具体模型版本),未提供链接。 🏗️ 方法概述和架构 本文的攻击针对一个典型的检索增强文本到音乐生成管道。该管道由三个核心部分组成:1)知识库,存储音乐标题-音频对;2)检索器,使用CLAP等模型将用户查询和知识库标题嵌入到共享表示空间,通过余弦相似度检索最相关的标题;3)生成器,如MusicGen,基于检索到的标题(可能经过LLM重写或直接拼接)生成音乐。 ...