公平比较 | 语音/音乐/音频论文速递

📄 Academic Text-to-Music Grand Challenge: Datasets, Baselines, and Evaluation Methods #文本到音乐生成 #基准挑战赛 #公平比较 #评估指标 #音乐信息检索 🔥 9.9/10 | 前10% | #音乐生成 | #基准测试 | #文本到音乐生成 #基准挑战赛 | arxiv 学术质量 6.3/7 | 影响力 1.7/2 | 可复现性 1.9/2 | 置信度 0.9 👥 作者与机构作者：Fang-Chih Hsieh, Wei-Jaw Lee, Chun-Ping Wang, Hung-yi Lee, Hao-Wen Dong, and Yi-Hsuan Yang 机构：未在论文标题及摘要中明确列出。论文脚注提到网站地址（https://ntu-musicailab.github.io/ICME26-ATTM-Grand-Challenge/），表明与NTU-MusicaILab相关。 💡 毒舌点评这篇论文与其说是提出一个新方法，不如说是精心策划了一场“学术界的音乐AI奥运会”。它精准地戳中了当前领域的痛点：工业巨头用海量数据和算力筑起高墙，让学术界只能在墙边“精装修”（微调）。论文的亮点在于其极强的“公平性”设计哲学和开源执行力：从强制从零训练、数据清洗到评估流水线，一条龙服务，试图把所有参赛者拉回同一起跑线。CCS指标的想法不错，用大模型当“裁判”来细粒度地检查音乐概念是否生成，比单一的CLAP分数更有解释性。但问题也很明显：1.5亿参数的基线模型在10秒片段生成上的表现，能否真实反映架构潜力，很可疑；主观评估只有35人，且未明确分布，说服力打折扣。最终，这更像一篇出色的挑战赛报告，而非方法论突破，其价值在于为社区提供了一套“游戏规则”和基础设施。 📌 核心摘要本文介绍了ICME 2026“学术文本到音乐生成”挑战赛（ATTM）的技术框架与概览。该挑战赛旨在解决当前文本到音乐生成领域被工业界大规模数据与计算资源主导，从而阻碍学术研究公平对比与创新的问题。其核心设计原则是要求所有参赛模型必须在标准化的、仅含乐器的MTG-Jamendo数据子集上从零开始训练。挑战赛分为效率赛道（核心模型参数≤5亿）和性能赛道（无参数限制）。评估采用多阶段流程：首先使用客观指标（FAD, CLAP, 以及新颖的基于大语言模型的CCS）进行筛选，随后对顶尖系统进行主观MOS测试。论文开源了数据预处理管道、基线模型FluxAudio-S以及评估代码，旨在促进透明、可复现的学术研究。 🔗 开源详情代码：预处理管道（人声分离）： https://github.com/ntu-musicailab/ICME26-ATTM-GC-Preprocessing 音频字幕生成管道： https://github.comntu-musicailab/ICME26-ATTM-GC-ALM-captioning 官方基线模型（FluxAudio-S）： https://github.com/ntu-musicailab/ICME26-ATTM-GC-FluxAudio 评估代码（用于计算FAD和CLAP）： https://github.com/ntu-musicailab/ICME26-ATTM-GC-Evaluation 模型权重：论文明确提供了官方基线模型FluxAudio-S的代码库（包含训练脚本），模型权重可由代码从零训练得到。对于Topline模型（Stable Audio Open, MusicGen, MeanAudio），论文使用了其官方发布的检查点，但未提供额外的下载链接。用于CCS评估的Qwen3-Omni模型亦未提供直接链接。数据集：使用MTG-Jamendo数据集的raw_30s子集。论文未提供直接下载链接，但明确说明了数据源（Jamendo平台，CC许可）及预处理方式（人声分离）。 Demo：未提及。复现材料：论文提供了详细的基线模型训练配置：使用单卡NVIDIA RTX A6000 (48GB VRAM)，训练200，000步，批大小128，总训练时间约2天4小时。提供了人声分离和字幕生成的具体代码和依赖的模型检查点名称（如melband-roformer-kim-vocals）。提供了生成官方参考字幕所使用的具体提示词（Table I）。提供了评估方法中Borda计数的具体公式和流程。论文中引用的开源项目： MTG-Jamendo：原始开源数据集。 Mel-Band Roformer：用于人声分离的模型。 Qwen2-Audio-7B-Instruct：用于字幕生成（Pipeline A）。 Music Flamingo：用于字幕生成（Pipeline B第一阶段）。 Qwen3-4B-Instruct：用于字幕优化和测试提示词合成。 EnCodec：作为辅助音频解码器。 LAION-CLAP-Music (music_audioset_epoch_15_esc_90.14)：用于FAD和CLAP评分的特征提取器。 Qwen3-Omni：用于评估指标CCS的大语言模型。 T5：用作文本编码器。 FluxAudio：作为基线模型的原始架构。 Stable Audio Open, MusicGen, MeanAudio：作为Topline的预训练模型。 🏗️ 方法概述和架构本挑战赛的方法论核心是建立一个标准化的、公平的基准测试框架，其架构与流程可分为以下几个相互关联的模块： ...