Probing Token Spaces under Generator Shift in AI-Generated Music Detection
📄 Probing Token Spaces under Generator Shift in AI-Generated Music Detection #自监督学习 #音频编码 #对比学习 9/10 | 创新 1.4/2 | 严谨 1.2/1.5 | 实验 1/1.5 | 清晰 1/1 | 影响 1.2/1.5 | 开源 1.5/1.5 | 复现 0.5/0.5 | 工程 1.2/1.5 🔥 9/10 | 前10% | #音频编码 | #自监督学习 | #对比学习 | arxiv 👥 作者与机构 作者:Joonyong Park, Jungwoo Kim, Junyoung Koh, Yuki Saito。论文中未明确说明作者所属的具体机构。 💡 毒舌点评 这篇论文像一份精心设计的实验报告,而非一篇突破性的研究。其最大的亮点在于实验设计的“控制变量”思想——用一个固定的CoMoE分类器来孤立Token空间的影响,这确实是一个聪明的实验设置。然而,这恰恰也暴露了其核心弱点:论文本质上是在验证一个相对直觉性的假设(即不同的音频表示会影响检测器的泛化能力),并提供了一个实验框架。其最大的问题在于“为什么”层面的解释极其匮乏。我们观察到X-Codec在Udio上好,MERT在Suno上好,但论文对此提供的解释几乎为零。是Token的离散化粒度?是训练数据的重叠?是音频编解码器的重建特性?作者只停留在现象描述。此外,CoMoE的四流设计动机略显模糊,特别是对不同Token空间(如EnCodec的8层RVQ)进行截取的规则(q=0,1 vs q=6,7)是否公平且最优,并未给出令人信服的讨论。整篇论文感觉是在用复杂的实验设置来包装一个简单的核心观点,理论深度和机制创新是其明显的短板。 📌 核心摘要 本文研究了AI生成音乐检测器在面对生成器偏移(即处理训练时未见过的生成器输出)时的鲁棒性问题。为公平评估不同音频表示(Token空间)的影响,作者提出了CoMoE(Codec-Mixture-of-Experts),一个固定的四流探测分类器。通过在MoM-open(一个使用FMA和MTG-Jamendo真实音频、并保留原MoM-CLAM生成器协议的开源数据集)上进行源受限评估,研究发现标准评估已饱和,而虚假音频源受限评估能有效区分不同Token空间的迁移性能。核心结论是,在生成器偏移条件下,音频Token空间(如EnCodec、DAC、X-Codec、MERT离散化单元)的选择本身应成为一个关键的实验变量。 🔗 开源详情 代码:https://github.com/MAAP-LAB/CoMoE (论文明确提供) 模型权重: EnCodec 24 kHz: https://huggingface.co/facebook/encodec_24khz (论文明确提供) DAC 44 kHz: https://github.com/descriptinc/descript-audio-codec (论文明确提供) X-Codec mini: https://huggingface.co/m-a-p/xcodec_mini_infer (论文明确提供) MERT-v0-public: https://huggingface.co/m-a-p/MERT-v0-public (论文明确提供) 数据集: MoM-open:论文构建的数据集,基于FMA-medium和MTG-Jamendo。具体获取链接未在论文中直接给出,但与代码仓库(https://github.com/MAAP-LAB/CoMoE)关联。 真实音频原始数据集:FMA (https://github.com/mdeff/fma), MTG-Jamendo (https://github.com/MTG/mtg-jamendo-dataset)。 Demo:未提及。 复现材料:论文提供了训练配置(12 epochs, AdamW, lr=2e-4, label smoothing 0.05, seed 42, single H100 GPU),代码仓库应包含相关脚本。 论文中引用的开源项目:DiffRhythm (https://github.com/AIFSH/DiffRhythm), Riffusion (https://github.com/riffusion/riffusion), YuE (https://github.com/yue-genesis/yue)。 🏗️ 方法概述和架构 本文提出的核心方法是CoMoE,一个用于公平比较异质离散音频Token空间的固定分类器探针。其设计原则是:保持下游分类器架构、训练流程和评估协议完全一致,仅替换输入的Token空间,从而将性能差异完全归因于Token表示本身。 ...