Academic Text-to-Music Grand Challenge: Datasets, Baselines, and Evaluation Methods

📄 Academic Text-to-Music Grand Challenge: Datasets, Baselines, and Evaluation Methods #文本到音乐生成 #基准挑战赛 #公平比较 #评估指标 #音乐信息检索 🔥 9.9/10 | 前10% | #音乐生成 | #基准测试 | #文本到音乐生成 #基准挑战赛 | arxiv 学术质量 6.3/7 | 影响力 1.7/2 | 可复现性 1.9/2 | 置信度 0.9 👥 作者与机构 作者:Fang-Chih Hsieh, Wei-Jaw Lee, Chun-Ping Wang, Hung-yi Lee, Hao-Wen Dong, and Yi-Hsuan Yang 机构:未在论文标题及摘要中明确列出。论文脚注提到网站地址(https://ntu-musicailab.github.io/ICME26-ATTM-Grand-Challenge/),表明与NTU-MusicaILab相关。 💡 毒舌点评 这篇论文与其说是提出一个新方法,不如说是精心策划了一场“学术界的音乐AI奥运会”。它精准地戳中了当前领域的痛点:工业巨头用海量数据和算力筑起高墙,让学术界只能在墙边“精装修”(微调)。论文的亮点在于其极强的“公平性”设计哲学和开源执行力:从强制从零训练、数据清洗到评估流水线,一条龙服务,试图把所有参赛者拉回同一起跑线。CCS指标的想法不错,用大模型当“裁判”来细粒度地检查音乐概念是否生成,比单一的CLAP分数更有解释性。但问题也很明显:1.5亿参数的基线模型在10秒片段生成上的表现,能否真实反映架构潜力,很可疑;主观评估只有35人,且未明确分布,说服力打折扣。最终,这更像一篇出色的挑战赛报告,而非方法论突破,其价值在于为社区提供了一套“游戏规则”和基础设施。 📌 核心摘要 本文介绍了ICME 2026“学术文本到音乐生成”挑战赛(ATTM)的技术框架与概览。该挑战赛旨在解决当前文本到音乐生成领域被工业界大规模数据与计算资源主导,从而阻碍学术研究公平对比与创新的问题。其核心设计原则是要求所有参赛模型必须在标准化的、仅含乐器的MTG-Jamendo数据子集上从零开始训练。挑战赛分为效率赛道(核心模型参数≤5亿)和性能赛道(无参数限制)。评估采用多阶段流程:首先使用客观指标(FAD, CLAP, 以及新颖的基于大语言模型的CCS)进行筛选,随后对顶尖系统进行主观MOS测试。论文开源了数据预处理管道、基线模型FluxAudio-S以及评估代码,旨在促进透明、可复现的学术研究。 🔗 开源详情 代码: 预处理管道(人声分离): https://github.com/ntu-musicailab/ICME26-ATTM-GC-Preprocessing 音频字幕生成管道: https://github.comntu-musicailab/ICME26-ATTM-GC-ALM-captioning 官方基线模型(FluxAudio-S): https://github.com/ntu-musicailab/ICME26-ATTM-GC-FluxAudio 评估代码(用于计算FAD和CLAP): https://github.com/ntu-musicailab/ICME26-ATTM-GC-Evaluation 模型权重:论文明确提供了官方基线模型FluxAudio-S的代码库(包含训练脚本),模型权重可由代码从零训练得到。对于Topline模型(Stable Audio Open, MusicGen, MeanAudio),论文使用了其官方发布的检查点,但未提供额外的下载链接。用于CCS评估的Qwen3-Omni模型亦未提供直接链接。 数据集:使用MTG-Jamendo数据集的raw_30s子集。论文未提供直接下载链接,但明确说明了数据源(Jamendo平台,CC许可)及预处理方式(人声分离)。 Demo:未提及。 复现材料: 论文提供了详细的基线模型训练配置:使用单卡NVIDIA RTX A6000 (48GB VRAM),训练200,000步,批大小128,总训练时间约2天4小时。 提供了人声分离和字幕生成的具体代码和依赖的模型检查点名称(如melband-roformer-kim-vocals)。 提供了生成官方参考字幕所使用的具体提示词(Table I)。 提供了评估方法中Borda计数的具体公式和流程。 论文中引用的开源项目: MTG-Jamendo:原始开源数据集。 Mel-Band Roformer:用于人声分离的模型。 Qwen2-Audio-7B-Instruct:用于字幕生成(Pipeline A)。 Music Flamingo:用于字幕生成(Pipeline B第一阶段)。 Qwen3-4B-Instruct:用于字幕优化和测试提示词合成。 EnCodec:作为辅助音频解码器。 LAION-CLAP-Music (music_audioset_epoch_15_esc_90.14):用于FAD和CLAP评分的特征提取器。 Qwen3-Omni:用于评估指标CCS的大语言模型。 T5:用作文本编码器。 FluxAudio:作为基线模型的原始架构。 Stable Audio Open, MusicGen, MeanAudio:作为Topline的预训练模型。 🏗️ 方法概述和架构 本挑战赛的方法论核心是建立一个标准化的、公平的基准测试框架,其架构与流程可分为以下几个相互关联的模块: ...

2026-05-22 · 更新于 2026-06-12 · 2 min · 372 words

Evaluating Speech Articulation Synthesis with Articulatory Phoneme Recognition

📄 Evaluating Speech Articulation Synthesis with Articulatory Phoneme Recognition #语音质量评估 #音素识别 #语音合成 #发声特征 #模型评估 #数据集 #评估指标 🔥 8.2/10 | 前25% | #语音质量评估 | #音素识别 | #语音合成 #发声特征 | arxiv 学术质量 5.2/7 | 影响力 1.3/2 | 可复现性 1.7/2 | 置信度 高 👥 作者与机构 第一作者:Vinicius Ribeiro 通讯作者:未说明 作者列表:Vinicius Ribeiro†, Yves Laprie 机构信息:根据论文脚注,此项工作是在作者于“相关实验室”攻读博士学位期间完成的。论文本身未提供更具体的大学或研究所名称。 💡 毒舌点评 本文将语音识别(ASR)的角色从“任务执行者”巧妙转变为“质量裁判”,为发声合成评估提供了一种新颖且信息丰富的客观度量方法。这比传统的点距离或声道变量测量更具物理意义和语音学洞察力。然而,这项工作的验证严格局限于单说话人的法语数据集,这在一定程度上限制了其结论的普适性。未来在多说话人、多语言场景下的验证是其能否成为领域标准工具的关键。此外,论文在部分关键训练细节和方法实现上的描述不够具体,影响了完全的可复现性。 📌 核心摘要 解决什么问题:发声合成领域缺乏一种既能客观量化合成质量,又能捕捉发音关键语音学细节(如发音位置)且不依赖主观感受或复杂声学仿真的通用评估指标。 方法核心:提出使用一个在真实发声特征(来自RT-MRI)和声学特征上训练的“发声音素识别器”作为评估代理。通过计算不同合成发声特征输入该识别器后得到的音素错误率(PER),来量化合成特征中保留的语音学信息量,与下游可理解性目标直接挂钩。 新在哪里:与传统的点对点距离或发声参数测量不同,此方法从信息保留的角度进行评估,将评估问题转化为识别任务。它提供了一个端到端的、与人类语音学知识相符的评估信号,且不依赖复杂的声学解算。 主要实验结果: 主要实验结果见下表。 特征集 声带编码 PER 声学特征 - 23.30 真实发声特征 无 23.65 音素平均轮廓 无 47.22 无模型方法 无 24.34 自编码器方法 无 38.85 真实发声特征 有 21.66 音素平均轮廓 有 43.18 无模型方法 有 20.59 自编码器方法 有 31.69 添加声带编码后,所有基于真实和合成发声特征的识别性能均得到提升(例如,真实特征PER从23.65降至21.66)。 无模型发声合成器在加入声带编码后,取得了最低PER(20.59),甚至略优于使用训练集相同真实特征(有编码)得到的PER(21.66)。论文推测这可能是由于合成器过滤了真实特征中的噪声。 自编码器方法的PER(31.69)显著高于无模型方法,但优于基线的平均轮廓方法。 混淆矩阵和t-SNE可视化显示,该评估指标能有效区分模型在语音学类别(如发音位置)上的表现差异,且无模型方法生成的特征在表示空间中与真实特征结构更相似。 实际意义:为发声合成领域提供了一种新颖、客观且与语音学理解强相关的评估工具,有助于指导和区分不同合成模型的优劣,特别是捕捉传统指标遗漏的语音学信息维度。 ...

2026-05-21 · 更新于 2026-06-12 · 2 min · 353 words

SCRIBE: Diagnostic Evaluation and Rich Transcription Models for Indic ASR

📄 SCRIBE: Diagnostic Evaluation and Rich Transcription Models for Indic ASR #语音识别 #评估指标 #沙地对齐 #印地语 #马拉雅拉姆语 #卡纳达语 #富文本转录 #开源基准 #诊断分析 🔥 8.3/10 | 前25% | #语音识别 | #评估指标 | #沙地对齐 #印地语 | arxiv 学术质量 5.8/7 | 影响力 1.5/2 | 可复现性 1.0/2 👥 作者与机构 Kavya, Arghya, Kush, Kumarmanas, Manohar, Bhattacharya, Juvekar, Nethil (注意:论文作者列表较长,此处列出前8位,完整列表见原文) 机构:Adalat AI, India 💡 毒舌点评 这篇论文的核心贡献是评估指标SCRIBE,而非一个达到新SOTA的模型。SCRIBE确实解决了WER在评估印度语言富文本转录时的一个真实痛点(沙地融合导致的错误率虚高),并通过分类分解提供了更精细的诊断。然而,论文的“完整系统”贡献(数据整理流水线、基准、模型)略显拼凑,且开源严重不完整,极大地削弱了其可复现性和实际影响力。模型部分(SCRIBE-ASR)的改进更像“应用SCRIBE指导训练的副产品”,而非核心创新。实验设计合理,但与人类专家的相关性分析局限于单一法律数据集,结论的普适性有待检验。评分受限于开源缺失和影响力声明(为印地语ASR系统开发提供工具)与实际可获取资源之间的差距。 📌 核心摘要 针对标准WER在评估印度语言富文本转录(含标点、数字、专有名词的文本)时存在的错误类型混淆和对黏着语言(如马拉雅拉姆语)的结构性惩罚,本文提出了SCRIBE诊断评估框架。SCRIBE的核心是一个三阶段流程:(1)令牌化与领域屏蔽:将参考文本和假设文本转换为带类型的令牌(词汇、数字、标点、领域实体);(2)沙地感知对齐引擎:采用扩展的动态规划算法,支持标准编辑操作以及针对沙地(词边界音变融合)的1:2(分裂)和2:1(合并)映射,通过语音学合理性验证;(3)分类错误聚合:计算各类型的错误率向量 E。人工评估证实SCRIBE的分类错误率与人类专家判断的相关性(|ρ|=0.36-0.92)显著高于WER(|ρ|≤0.49),尤其在数字准确性上表现突出。论文还贡献了基于Gemini 2.5 Pro的数据整理流水线、两个新基准(FLEURS-RO通用域,IN22-Legal法律领域)和三种语言(印地语、卡纳达语、马拉雅拉姆语)的开源富文本转录模型(SCRIBE-ASR)。 🔗 开源详情 代码:论文中声明“released as an open-source evaluation tool”,但未提供任何GitHub、Gitee等代码仓库链接。具体实现不可用。 模型权重:论文中声明“released open-weight rich transcription models”,但未提供HuggingFace、ModelScope、Zenodo等任何模型下载地址。具体模型权重不可获取。 数据集:论文中声明“releases two curated evaluation sets (FLEURS-RO and IN22-Legal)”,但未提供任何数据下载链接或开源协议说明。基准数据集不可用。 Demo:论文中未提及。 复现材料:论文中描述了模型训练的三阶段和实验设置,但未提供具体的训练配置文件(如超参数、脚本)、检查点或数据整理流水线的具体代码/提示模板。无法直接复现。 论文中引用的开源项目: Whisper:论文中提及,但未提供链接。 Canary:论文中提及,但未提供链接。 IndicWhisper (Vistaar):论文中作为基线提及,但未提供链接。 IndicConformer:论文中作为基线提及,但未提供链接。 Gemini 2.5 Pro:论文中提及(作为LLM工具用于数据整理),未提供链接(此为商业API,非开源项目)。 JIWER:论文中作为对比库在图2中提及,但未提供链接。 🏗️ 方法概述和架构 SCRIBE框架旨在提供对富文本转录ASR输出的细粒度诊断评估,其架构分为三个连续阶段: ...

2026-05-21 · 更新于 2026-06-12 · 3 min · 466 words

AllocMV: Optimal Resource Allocation for Music Video Generation via Structured Persistent State

📄 AllocMV: Optimal Resource Allocation for Music Video Generation via Structured Persistent State #音乐视频生成 #资源分配 #优化 #多模态模型 #评估指标 📝 4.8/10 | 前50% | #音乐视频生成 | #资源分配 | #优化 #多模态模型 | arxiv 学术质量 4.8/8 | 影响力 0.5/2 | 可复现性 0.2/1 | 置信度 高 👥 作者与机构 第一作者:Huimin Wang (小米) 通讯作者:未说明 作者列表:Huimin Wang, Leilei Ouyang, Chang Xia, Yongqi Kang, Yu Fu, Yuqi Ouyang。根据论文作者列表,所有作者均隶属于小米(Xiaomi)。 💡 毒舌点评 这篇论文将长音乐视频生成中的资源分配问题形式化为MCKP,并引入“结构化持久状态”概念,尝试系统性地解决成本与一致性权衡问题,其提出的新评估指标CQR也具有启发性。然而,论文的核心贡献在很大程度上停留在概念和框架层面。“结构化持久状态”作为关键创新点,其具体生成算法和如何与生成模型交互的细节在正文中严重缺失,仅依赖于对闭源商业模型(Seedream, Seedance)的调用。这使得工作看起来更像是一个针对特定商业工具链的系统集成演示,而非一个可复现、可独立验证的方法论贡献。其实验评估规模(5首歌)极小,严重削弱了结论的可信度和泛化能力。 📌 核心摘要 这篇论文旨在解决长音乐视频(MV)生成中计算成本高昂以及跨镜头一致性难以保持的问题。核心方法是将MV生成任务形式化为一个“多选择背包问题”(MCKP),并提出了一个名为AllocMV的层级框架。与以往采用均匀资源分配的方法不同,AllocMV的核心创新在于引入了一个“结构化持久状态”,并在生成前通过全局规划器估计片段显著性,然后通过一个两阶段的动态规划算法在预算约束下,将每个片段最优分配到高保真生成(High-Gen)、中等保真生成(Mid-Gen)或复用(Reuse)分支。实验在一个自建的5首歌曲基准上进行,主要结果如表1所示: 方法 BeatAlign ↑ CQR ↑ CLIP ↑ Motif ↑ Cost ↓ MuseV 0.0831±.021 0.2083±.028 0.2512±.019 0.8812±.024 3.04±.19 VideoComposer 0.1024±.024 0.2210±.031 0.2318±.022 0.8754±.026 3.15±.21 AutoMV 0.0960±.023 0.4697±.036 0.3222±.017 0.8521±.029 3.25±.22 AllocMV (Ours) 0.6679±.039 0.7586±.034 0.3014±.018 0.9984±.0008 1.69±.10 结果显示,AllocMV在节奏对齐(BeatAlign)和成本-质量比(CQR)上显著优于所有基线,同时大幅降低了成本(与最强基线AutoMV相比降低约48%)。其实际意义在于为结构化视频生成提供了一个资源优化调度的框架。主要局限是评估规模非常小(仅5首歌),且框架中多个关键组件(如持久状态的生成)高度依赖未开源的商业模型,限制了其可复现性和普适性验证。 ...

2026-05-12 · 更新于 2026-06-12 · 2 min · 418 words

Toward Fine-Grained Speech Inpainting Forensics:A Dataset, Method, and Metric for Multi-Region Tampering Localization

📄 Toward Fine-Grained Speech Inpainting Forensics:A Dataset, Method, and Metric for Multi-Region Tampering Localization #音频深度伪造检测 #滑动窗口 #数据集 #多语言 #评估指标 ✅ 7.5/10 | 前25% | #音频深度伪造检测 | #滑动窗口 | #数据集 #多语言 | arxiv 学术质量 7.5/7 | 选题价值 7.5/2 | 复现加成 1.0 | 置信度 高 👥 作者与机构 第一作者:Tung Vu(邮电学院,越南河内) 通讯作者:Cong Tran(邮电学院,越南河内) 作者列表:Tung Vu(邮电学院,越南河内)、Yen Nguyen(邮电学院,越南河内)、Hai Nguyen(邮电学院,越南河内)、Cuong Pham(邮电学院,越南河内)、Cong Tran(邮电学院,越南河内) 💡 毒舌点评 亮点:该论文系统性地填补了“多区域语音修复伪造检测”这一重要但被忽视的细分领域的空白,从数据集构建(MIST)、检测框架(ISA)到专用评估指标(SF1@τ)提供了一套完整的解决方案,逻辑闭环。短板:当前提出的方法在零样本设置下性能极低(SF1@0.5仅1.2%),微调后虽大幅提升但仍属初步(SF1@0.5为31.4%),离实际可用还有很长的路要走,凸显了该任务本身的巨大挑战性。 🔗 开源详情 代码:论文中提及代码已发布,但未提供具体的代码仓库链接(如 GitHub 链接)。 模型权重:论文中未提及。 数据集:MIST (Multi-region Inpainting Speech Tampering) 数据集。获取链接:https://huggingface.co/datasets/tung2308/MIST_SpeechInpaintingDataset Demo:论文中未提及。 复现材料:论文中未提及具体的训练配置文件、检查点等复现材料。 论文中引用的开源项目: Wav2Vec 2.0:https://huggingface.co/facebook/wav2vec2-base WavLM:https://huggingface.co/microsoft/wavlm-base-plus AASIST:https://github.com/JeonKang/AASIST (论文中引用但未提供直接链接,根据引用文献推断) RawNet2:论文中引用但未提供直接链接。 CosyVoice 3.0:论文中引用但未提供直接链接。 Gemini 2.0 Flash:论文中引用但未提供直接链接。 Multilingual LibriSpeech (MLS):https://huggingface.co/datasets/openslr/librispeech_asr LEMAS-Dataset:论文中引用为开源语料库,但未提供直接链接。 补充信息 [模型架构] 补充:论文详细解释了ISA各阶段超参数的设计动机。例如,粗扫描窗口 W=0.5s 的选择是基于MIST数据集中替换词的平均时长(0.3–0.6秒),确保每个伪造词至少被一个主导窗口覆盖。精细窗口 W'=0.15s 则提供了亚词级精度(±0.05秒)。同时,论文分析了ISA的计算效率:对于10秒音频,总分类器调用次数少于100次,在单GPU批处理下处理时间少于0.3秒,强调了其实用性。 [实验结果] 补充:论文图10提供了SF1@τ指标的具体计算示例,直观展示了IoU匹配、真阳性/假阳性/假阴性判定及最终F1分数的计算过程,这对理解新指标至关重要。此外,表12中零样本与微调性能的差距(SF1@0.5从1.2%跃升至31.4%)被进一步量化,明确指出骨干网络是性能瓶颈。 [消融实验] 补充:论文表10展示了粗扫描窗口大小 W 对性能的影响。结果显示 W=0.5s 是最佳平衡点,过小的窗口(0.15s)因Wav2Vec 2.0需要足够上下文而失效,过大的窗口(1.0s, 2.0s)则稀释了伪造信号,降低了敏感性。 [核心摘要/细节详述] 补充:论文在6.7节深入讨论了两个核心局限性:1)零样本性能低的根本原因是训练分布不匹配——骨干模型从未在部分修复数据上训练,其内部表征对单词级篡改不敏感;2)越南语表现差归因于三个具体因素:骨干模型对越南语音素不适应、ZipVoice生成的替换词平均时长更短(0.18秒 vs 英语0.26秒)、以及越南语声调可能被误判为说话人变异。这些分析比现有总结更为深入。 [与SOTA的差距] 补充:论文在零样本实验中明确指出,现有SOTA全段伪造检测器(如在ASVspoof上训练的分类器)对MIST伪造音频的伪造概率输出接近于0(例如,一个2词修复样本的p(fake)=0.0001),这直观量化了现有方法在细粒度修复场景下的完全失效。 📌 核心摘要 要解决什么问题:针对日益逼真的部分语音修复(仅替换1-3个单词)伪造攻击,现有音频伪造检测基准和方法集中于整段伪造或单区域伪造,缺乏对多伪造区域、未知区域数量场景下的检测与定位能力。 方法核心是什么:论文提出三位一体的解决方案:(1) MIST数据集:一个大规模、多语言(6种语言)的基准,每个音频包含1-3个独立修复的单词区域,伪造内容仅占2-7%。(2) ISA方法:一个与骨干网络无关的“迭代片段分析”框架,通过粗扫描、区域提议与合并、边界精炼三步,无需预先知道伪造区域数量,即可定位所有被篡改区域。(3) SF1@τ指标:一个基于时间交并比匹配的片段级F1分数,联合评估区域计数准确性和定位精度。 与已有方法相比新在哪里:首次针对多区域、未知数量的语音修复伪造提出检测与定位问题;提供了首个专门用于此场景的大规模多语言数据集(MIST);提出了无需预先知道区域数量的滑动窗口迭代定位框架(ISA);定义了适用于此任务的专用评估指标(SF1@τ)。 主要实验结果如何:在零样本设置下,现有最先进的全段伪造检测器几乎完全失效(给伪造音频打分接近0)。ISA框架在所有语言和变体上一致优于帧级和单窗口基线。例如,在英语测试集上,零样本ISA的SF1@0.3为9.1%,CA为26.2%。当骨干网络在MIST上微调后,性能大幅提升,整体SF1@0.5从1.2%升至31.4%(见表6、7、12)。实验结果如下表所示: 方法 SF1@0.3 SF1@0.5 CA mIoU Frame-level 5.9 0.7 24.2 6.5 Single-window 6.9 1.0 24.5 7.2 ISA (ours) 8.1 1.2 25.1 7.8 表6:MIST测试集上多区域定位结果(所有语言聚合) 实际意义是什么:为应对新型语音伪造威胁提供了关键的研究基准、方法思路和评估工具。揭示了当前主流伪造检测器的严重盲区,推动了细粒度语音取证领域的发展。 主要局限性是什么:(1) 当前最佳性能(微调后SF1@0.5为31.4%)仍远未达到实用水平;(2) 骨干网络的性能是主要瓶颈,需要针对部分伪造任务的专门训练;(3) 方法在越南语等语言上性能较低,多语言泛化能力有待加强。 🏗️ 模型架构 本文提出的ISA(迭代片段分析)框架是一个推理时的管道,用于将一个仅支持整段分类的伪造检测器,转化为能够定位多个伪造片段的系统。其整体架构如下图所示: 图9:迭代片段分析(ISA)流程图。Stage 1产生粗置信度图并标记可疑窗口;Stage 2将可疑窗口合并为候选区域;Stage 3对每个候选区域进行精细分析,收紧边界并过滤误报。 ...

2026-05-05 · 更新于 2026-06-12 · 1 min · 213 words