WavFlow: Audio Generation in Waveform Space

📄 WavFlow: Audio Generation in Waveform Space #音频生成 #流匹配 #音视频 #音频大模型 #数据集 ✅ 6.7/10 | 前25% | #音频生成 | #流匹配 | #音视频 #音频大模型 | arxiv 学术质量 5.7/8 | 影响力 0.5/1 | 可复现性 0.5/1 | 置信度 高 👥 作者与机构 第一作者:Feiyan Zhou (Meta AI) 通讯作者:未明确说明(论文中仅标注*为Corresponding author,但未明确指出是哪位作者) 作者列表:Feiyan Zhou (Meta AI), Luyuan Wang (Meta AI), Shoufa Chen (Meta AI), Zhe Wang (Meta AI), Zhiheng Liu (Meta AI), Yuren Cong (Northeastern University), Xiaohui Zhang (Northeastern University), Fanny Yang (Northeastern University), Belinda Zeng (Northeastern University)。论文中明确标注Northeastern University为合作机构。 💡 毒舌点评 这篇论文勇敢地挑战了音频生成领域的“潜空间教条”,证明了在原始波形空间生成高质量音频是可行的,其技术路线(波形分块+幅度提升+xx预测)简洁有效,结果也颇具说服力。然而,其最大的“资产”——号称5000万样本的专有数据集——恰恰是最大的复现壁垒,使得论文的核心结论更像是一次强大的工业展示而非可广泛复现的学术研究。此外,论文声称与SOTA“匹配或超越”,但在关键的数据规模前提下,这一结论的公平性和说服力需要打上问号。 ...

2026-05-19 · 更新于 2026-06-19 · 3 min · 524 words

语音/音乐/音频论文速递 2026-05-19

语音/音乐/音频论文速递 2026-05-19 共分析 34 篇论文 ⚡ 今日概览 📥 抓取 34 篇 → 🔬 深度分析完成 🏷️ 热门方向 方向 数量 分布 #语音识别 4篇 ████ #音频深度伪造检测 2篇 ██ #音频生成 2篇 ██ #音频安全 1篇 █ #多模态模型 1篇 █ #音频编码 1篇 █ #音频修复 1篇 █ #医疗音频 1篇 █ 📊 论文评分排行榜(34 篇,按分数降序) 排名 论文 评分 分档 主任务 🥇 Acoustic Interference: A New Paradigm Weaponizing Acous 8.7分 前25% #音频安全 🥈 CodeBind: Decoupled Representation Learning for Multimo 8.6分 前15% #多模态模型 🥉 SAME: A Semantically-Aligned Music Autoencoder 8.5分 前25% #音频编码 4. A Survey of Advancing Audio Super-Resolution and Bandwi 8.1分 前25% #音频修复 5. MedASR: An Open-Source Model for High-Accuracy Medical 7.9分 前30% #语音识别 6. Speaker-Disentangled Remote Speech Detection of Asthma 7.5分 前50% #医疗音频 7. MusicDET: Zero-Shot AI-Generated Music Detection 7.4分 前25% #音频深度伪造检测 8. VISAFF: Speaker-Centered Visual Affective Feature Learn 7.4分 前25% #对话情感识别 9. Robust Audio Tagging under Class-wise Supervision Unrel 7.3分 前25% #音频分类 10. SIREM: Speech-Informed MRI Reconstruction with Learned 7.3分 前40% #医学图像重建 11. Sonalyzer-Moz: A Framework for Analyzing the Structure 7.3分 前50% #音乐结构分析 12. Omni-Customizer: End-to-End MultiModal Customization fo 7.3分 前25% #音视频 13. Contextual Biasing for Streaming ASR via CTC-based Word 7.2分 前50% #语音识别 14. Beyond Transcripts: Iterative Peer-Editing with Audio U 7.2分 前50% #语音摘要 15. UrduSpeech: A 156-Hour Urdu Speech Corpus with 12-Dimen 7.0分 前25% #语音识别 16. Audio-Image Cross-Modal Retrieval with Onomatopoeic Ima 7.0分 前50% #音频检索 17. Profiling the Voice: Speaker-Specific Phoneme Fingerpri 7.0分 前50% #语音伪造检测 18. Voice ‘‘Cloning’’ is Style Transfer 7.0分 前25% #语音克隆 19. SemaVoice: Semantic-Aware Continuous Autoregressive Spe 6.8分 前50% #语音合成 20. Stable Audio 3 6.8分 前25% #音频生成 21. Taming Audio VAEs via Target-KL Regularization 6.7分 前50% #音频生成 #语音合成 22. WavFlow: Audio Generation in Waveform Space 6.7分 前25% #音频生成 23. Can Large Audio Language Models Ignore Multilingual Dis 6.5分 前50% #音频问答 24. PAREDA: A Multi-Accent Speech Dataset of Natural Langua 6.5分 前50% #语音数据集 25. Flexible Multi-Channel Target Speaker Extraction Using 6.3分 中等偏上 #说话人提取 26. Sometin Beta Pass Notin (SBPN): Improving Multilingual 6.2分 前50% #语音识别 27. A Fast Robust Adaptive filter using Improved Data-Reuse 6.2分 前50% #声学回声消除 28. Robust Soft-Constrained Spatially Selective Active Nois 5.7分 前25% #音频增强 29. Analyzing Error Propagation in Korean Spoken QA with AS 5.6分 前50% #语音问答 30. S2Accompanist: A Semantic-Aware and Structure-Guided Di 5.6分 前50% #音乐生成 31. A Distribution Matching Approach to Neural Piano Transc 5.5分 前50% #音乐转录 32. EnvTriCascade: An Environment-Aware Tri-Stage Cascaded 5.3分 前50% #音频深度伪造检测 33. Fractional-Order Subband p-Norm Adaptive Filter via Tra 5.0分 前50% #自适应滤波 34. Bridging the Gap: Converting Read Text to Conversationa 3.1分 后50% #语音转换 📋 论文列表 🥇 Acoustic Interference: A New Paradigm Weaponizing Acoustic Latent Semantic for Universal Jailbreak against Large Audio Language Models 🔥 8.7/10 | 前25% | #音频安全 | #对抗样本 | #多模态模型 #基准测试 | arxiv ...

2026-05-19 · 更新于 2026-06-19 · 23 min · 4805 words

ARIA: A Diagnostic Framework for Music Training Data Attribution

📄 ARIA: A Diagnostic Framework for Music Training Data Attribution #音乐生成 #模型评估 #版权分析 #数据归因 #诊断框架 ✅ 6.1/10 | 前25% | #音乐生成 | #模型评估 | #版权分析 #数据归因 | arxiv 学术质量 5.2/8 | 影响力 0.6/1 | 可复现性 0.3/1 | 置信度 高 👥 作者与机构 第一作者:Changheon Han(Chalmers University of Technology and University of Gothenburg) 通讯作者:Changheon Han(Chalmers University of Technology and University of Gothenburg) 作者列表:Changheon Han(Chalmers University of Technology and University of Gothenburg)、Ashkan Panahi(Chalmers University of Technology and University of Gothenburg)、Kıvanç Tatar(Chalmers University of Technology and University of Gothenburg) 💡 毒舌点评 亮点:论文精准切入了音乐生成归因(TDA)在版权分析中的核心痛点——需要沿旋律、和声、节奏等多属性维度解释“影响”。提出的ARIA框架将这一法律需求转化为可计算的诊断问题,为评估现有归因方法的有效性提供了首个系统性工具。 短板:框架本质是“后处理”诊断,完全依赖外部分析,对改进生成模型本身或归因算法没有直接贡献。其有效性严重受限于预定义特征通道的完备性和质量,在音频领域更是缺失了关键的旋律通道。 ...

2026-05-18 · 更新于 2026-06-19 · 4 min · 833 words

Beyond Content: A Comprehensive Speech Toxicity Dataset and Detection Framework Incorporating Paralinguistic Cues

📄 Beyond Content: A Comprehensive Speech Toxicity Dataset and Detection Framework Incorporating Paralinguistic Cues #音频分类 #预训练 #多任务学习 #内容审核 ✅ 6.5/10 | 前25% | #音频分类 | #预训练 | #多任务学习 #内容审核 | arxiv 学术质量 5.5/8 | 影响力 0.6/1 | 可复现性 0.4/1 | 置信度 高 👥 作者与机构 第一作者:Zhongjie Ba(论文作者列表首位,但未明确标注为第一作者) 通讯作者:未明确说明(论文仅标注“The corresponding author”,但未在作者列表旁具体指出是谁) 作者列表:Zhongjie Ba, Liang Yi, Peng Cheng, Qingcao Li, Qinglong Wang, Li Lu 作者机构:论文未在作者列表旁提供具体机构信息,但在致谢部分提及了Zhejiang Provincial Natural Science Foundation等支持机构。 💡 毒舌点评 数据集ToxiAlert-Bench的构建是最大贡献,填补了副语言毒性样本标注的空白。然而,模型(ToxiAlert)的“创新”本质上是将预训练SSL模型与两个标准MLP头进行工程整合,缺乏架构或理论深度。实验中与之对比的部分基线(如DeToxy, YIDUN)性能极低,使得性能提升的宣称需要谨慎看待;与强大的多模态大模型对比更有说服力。论文未明确列出局限性部分,是一个疏漏。 📌 核心摘要 本文旨在解决现有语音毒性检测忽视副语言特征(语调、情绪等)的问题。作者构建了首个大规模、标注毒性来源(文本/副语言/两者兼有)的语音毒性数据集ToxiAlert-Bench,包含超3.2万条音频。其次,提出了基于Wav2Vec 2.0的双头检测框架ToxiAlert:一个头(Source Head)识别毒性来源,另一个头(Category Head)对7类毒性进行分类。该框架采用三阶段训练策略:先分别独立训练两个头,再联合微调。实验表明,ToxiAlert在ToxiAlert-Bench上显著优于包括DeToxy和多个多模态大模型在内的基线,其宏F1分数相比最强基线(Gemini-2.5-Flash)提升了21.1%,准确率提升13.0%,尤其在纯副语言毒性检测上表现突出。该工作为语音内容安全领域提供了重要的数据资源和方法框架,但数据集限于英文,且合成数据可能无法完全代表真实世界分布。 ...

2026-05-18 · 更新于 2026-06-19 · 3 min · 606 words

Can Large Language Models Imitate Human Speech for Clinical Assessment? LLM-Driven Data Augmentation for Cognitive Score Prediction

📄 Can Large Language Models Imitate Human Speech for Clinical Assessment? LLM-Driven Data Augmentation for Cognitive Score Prediction #语音生物标志物 #数据增强 #大语言模型 #医疗音频 #低资源 ✅ 6/10 | 前50% | #语音生物标志物 | #数据增强 | #大语言模型 #医疗音频 | arxiv 学术质量 5.4/8 | 影响力 0.6/1 | 可复现性 0/1 | 置信度 中 👥 作者与机构 第一作者:Si-Belkacem Yamine Ketir (Télécom SudParis, France) 通讯作者:未说明 作者列表:Si-Belkacem Yamine Ketir (Télécom SudParis, France)、Lenard Paulo Tamayo (Nara Institute of Science and Technology, Japan)、Shohei Hisada (Nara Institute of Science and Technology, Japan)、Shaowen Peng (Nara Institute of Science and Technology, Japan)、Shoko Wakamiya (Nara Institute of Science and Technology, Japan)、Eiji Aramaki (Nara Institute of Science and Technology, Japan) 💡 毒舌点评 本文提出了一个逻辑清晰、临床动机明确的数据增强框架,其核心亮点在于“书面锚定+风格转换”的受控生成范式,并创新性地引入相似性引导策略以提升合成数据的语义保真度。然而,其说服力严重受限于实验规模:在一个仅30人、分布极不平衡且未公开的特定语料库上得出结论,且基线选择过于薄弱(仅对比无增强和高斯噪声),未与领域内更相关的文本增强方法(如EDA、回译)或更强大的预测模型进行对比,使得方法优越性的声称显得证据不足。此外,论文依赖于闭源的GPT-5模型,严重损害了工作的可复现性与普适性。 ...

2026-05-18 · 更新于 2026-06-19 · 2 min · 330 words

Can We Trust AI-Inferred User States. A Psychometric Framework for Validating the Reliability of Users States Classification by LLMs in Operational Environments

📄 Can We Trust AI-Inferred User States. A Psychometric Framework for Validating the Reliability of Users States Classification by LLMs in Operational Environments #模型评估 #心理测量学 #大语言模型 #可靠性评估 ✅ 6/10 | 前50% | #模型评估 | #心理测量学 | #大语言模型 #可靠性评估 | arxiv 学术质量 5.5/8 | 影响力 0.5/1 | 可复现性 0/1 | 置信度 中 👥 作者与机构 第一作者:Izabella Krzemińska 通讯作者:Izabella Krzemińska(Orange Research, AI Center, Warsaw, Poland) 作者列表:Izabella Krzemińska(Orange Research, AI Center)、Michał Butkiewicz(Orange Research, AI Center)、Ewa Komkowska(Orange Research, AI Center) 💡 毒舌点评 亮点在于,论文将经典的 psychometric 信度分析框架(特别是 ICC 指标)系统性地应用于一个被工业界忽略却至关重要的实际问题:LLM 在单次推理下推断的用户状态是否稳定可靠。其核心洞察——区分“单次推理信度”与“聚合后信度”——对于实时自适应系统的设计具有直接的指导意义。短板在于,所有结论都基于一个极度狭小的数据集(15段电信客服通话,约52分钟),这严重削弱了其发现的普适性。更致命的是,论文未提供任何代码、数据或完整的指标定义,其提出的“可复现框架”在现实中几乎无法复现,沦为一个详尽的理论蓝图,影响力大打折扣。 ...

2026-05-18 · 更新于 2026-06-19 · 2 min · 382 words

From Flat Language Labels to Typological Priors: Structured Language Conditioning for Multilingual Speech-to-Speech Translation

📄 From Flat Language Labels to Typological Priors: Structured Language Conditioning for Multilingual Speech-to-Speech Translation #语音翻译 #多任务学习 #多语言 #低资源 #语言学先验 ✅ 6.9/10 | 前50% | #语音翻译 | #多任务学习 | #多语言 #低资源 | arxiv 学术质量 5.9/8 | 影响力 0.6/1 | 可复现性 0.4/1 | 置信度 高 👥 作者与机构 第一作者:Yu Pan(九州大学信息科学与电气工程学院,工作完成时;现Recho Inc.,东京) 通讯作者:Jianjun Zhao(九州大学信息科学与电气工程学院) 作者列表:Yu Pan(九州大学/Recho Inc.)、Yang Hou(国家信息学研究所)、Xiongfei Wu(卢森堡大学SnT中心)、Yves Le Traon(卢森堡大学SnT中心)、Liang Zhang(东华大学)、Lei Ma(东京大学计算机系/阿尔伯塔大学电气与计算机工程系)、Jianjun Zhao(九州大学) 毸舌点评 论文提出一个清晰且动机充分的框架,旨在解决多语言S2ST中“扁平化语言标签”表示能力不足的问题,将语言学类型学知识系统性地注入条件机制。其核心价值在于论证了结构化先验在低资源场景下的显著增益,这为数据稀缺的多语言任务提供了实用思路。然而,该工作的“框架感”有限,本质上是对一个强基线(S2ST-Omni)在条件机制上的精巧改进,而非一个可广泛应用的新架构。实验评估完全局限于CVSS-C这一合成目标语音数据集,且未与最新的一些SpeechLLM工作进行对比,影响了结论的普适性和说服力。创新性尚可,但不足以称之为突破。 核心摘要 问题:现有基于SpeechLLM的多语言语音到语音翻译(S2ST)系统常采用扁平化的语言标签(language-as-label)作为条件,忽略了跨语言共享的系统性语言学结构(如形态、语序、谱系关联),这在低监督数据下限制了模型的多语言适应能力。 核心方法:提出S2ST-Omni 2框架,将语言条件从扁平标签重构为结构化类型学先验,在三个层面进行注入:a) 表示层:类型学启发的层次化语言编码(TI-HLE),将源语言分解为形态、重排、语系和残差特定通道;b) 声学层:动态门控的语言调制Dual-CTC(LA-Dual-CTC),根据内容自适应地调制中间声学特征;c) 解码层:类型学感知的LLM提示,提供翻译导向的语言学指导。 新意:不同于以往仅用独立语言嵌入,本文系统性地将显式的语言学类型学知识融入S2ST模型的条件机制中,旨在提供更有结构的归纳偏置,而非让模型从数据中隐式学习所有语言差异。 主要结果:在CVSS-C数据集上,S2ST-Omni 2在平均BLEU(37.73 vs 35.67)和ASR-BLEU(35.00 vs 33.45)上相比基线S2ST-Omni分别获得5.8%和4.6%的相对提升,并在COMET和BLASER 2.0上也取得最优。消融实验证实了三个层面组件的互补贡献。在仅~3小时监督数据的低资源日语-英语任务上,S2ST-Omni 2同样显著优于基线。数据预算分析显示,随着训练数据减少,S2ST-Omni 2相对于基线的BLEU相对增益从5.8%单调增加至15.1%。 实际意义:该工作为数据稀缺的多语言S2ST任务提供了一种有效的技术路径,即通过引入语言学先验来补偿监督信号的不足,对构建更具语言适应性和数据效率的跨语言语音系统有启发价值。 主要局限性:a) 方法依赖于预先定义的、针对英语翻译任务的特定类型学分类,其泛化性(如到其他目标语言)未验证;b) 框架复杂度增加(引入了多路CTC损失、FiLM调制、动态门控),训练和推理成本未充分分析;c) 主要实验局限于CVSS-C的三个欧洲语言对及合成目标语音,对其他语系、真实场景的覆盖有限;d) 未提供代码或模型权重,可复现性不足。 方法概述和架构 整体流程概述:S2ST-Omni 2是一个基于组件的组合式S2ST框架,分为语音到文本翻译(S2TT)前端和可插拔的文本到语音(TTS)后端。前端核心是一个SpeechLLM,它接收语音输入,并通过多层、多模块的条件调制,最终输出翻译文本。训练分为两阶段:第一阶段稳定语音-文本对齐,第二阶段通过LoRA微调增强LLM翻译能力。整个系统并非严格端到端,因为S2TT和TTS通过显式文本接口解耦。 ...

2026-05-18 · 更新于 2026-06-19 · 8 min · 1698 words

Improving Automatic Speech Recognition for Speakers Treated for Oral Cancer using Data Augmentation and LLM Error Correction

📄 Improving Automatic Speech Recognition for Speakers Treated for Oral Cancer using Data Augmentation and LLM Error Correction #语音识别 #数据增强 #大语言模型 #医疗音频 #低资源 #语音转换 #文本转语音 ✅ 6/10 | 前50% | #语音识别 | #数据增强 | #大语言模型 #医疗音频 | arxiv 学术质量 5/8 | 影响力 0.8/1 | 可复现性 0.2/1 | 置信度 高 👥 作者与机构 第一作者:Hidde Folkertsma(论文作者列表首位,通常为第一作者) 通讯作者:未明确说明 作者列表:Hidde Folkertsma, Thomas B. Tienkamp, Sebastiaan A.H.J. de Visscher, Max J.H. Witjes, Rob J.J.H. van Son, Jiapan Guo, Bence Mark Halpern 作者与机构:论文正文及致谢部分未明确列出所有作者所属的完整机构信息。仅在致谢中提及数据收集获得了格罗宁根大学医学中心研究伦理委员会的批准,表明研究可能与该机构有关联。 💡 毒舌点评 本文系统性地将多种数据增强技术(从传统信号处理到生成式模型)和LLM纠错应用于一个数据极度稀缺、具有重要临床意义的垂直领域——口腔癌术后患者的语音识别。实验设计全面,对比了不同的ASR模型、微调策略和LLM,并进行了消融分析,实证部分扎实。然而,论文的核心方法创新性有限,本质是现有技术的组合与应用验证。更关键的是,受限于仅11名患者的小数据集,所有结论的统计显著性和泛化能力存疑,部分分析(如将TTS的成功归因于语言多样性)缺乏严格验证。此外,依赖闭源LLM API带来的隐私与部署矛盾,是其从“有效”走向“实用”难以绕过的障碍。 ...

2026-05-18 · 更新于 2026-06-19 · 2 min · 426 words

Mind the Gap: Impact of Synthetic Conversational Data on Multi-Talker ASR and Speaker Diarization

📄 Mind the Gap: Impact of Synthetic Conversational Data on Multi-Talker ASR and Speaker Diarization #语音识别 #说话人分离 #数据增强 #数据生成工具 #端到端 #多说话人语音处理 ✅ 7.2/10 | 前25% | #语音识别 #说话人分离 | #数据增强 #数据生成工具 | #语音识别 #说话人分离 | arxiv 学术质量 5.7/8 | 影响力 0.8/1 | 可复现性 0.7/1 | 置信度 高 👥 作者与机构 第一作者:Alexander Polok(布鲁诺理工大学 FIT) 通讯作者:Alexander Polok (ipoloka@fit.vut.cz) 作者列表:Alexander Polok(布鲁诺理工大学 FIT)、Ivan Medennikov(布鲁诺理工大学 FIT)、Jan Černocký(布鲁诺理工大学 FIT)、Shinji Watanabe(卡内基梅隆大学)、Lukáš Burget(布鲁诺理工大学 FIT)、Samuele Cornell(英伟达) 机构:布鲁诺理工大学 FIT(捷克)、卡内基梅隆大学(美国)、英伟达(美国) 💡 毒舌点评 亮点:论文的价值不在于提出新模型,而在于其作为一篇扎实的“控制变量”方法论研究。它将合成数据生成中模糊的“经验”转化为可量化、可复现的参数(如轮换动态矩阵P),并通过跨任务的严格对比,揭示了“语音重叠度对ASR和分离任务效果相反”这一核心洞察。这种系统性的“避坑指南”和开源的高效工具(FastMSS)对社区的实践指导意义,远超一篇普通的模型创新论文。 短板:严格来说,这是一篇优秀的工作量报告和最佳实践手册,但离顶会论文中通常期望的“根本性问题提出与新颖解法”仍有差距。研究深度止步于“是什么”和“怎么做效果好”,对于“为什么”(例如,为何重叠增加反而破坏分离模型的边界学习)的机理探索不足。 ...

2026-05-18 · 更新于 2026-06-19 · 4 min · 792 words

Modeling Music as a Time-Frequency Image: A 2D Tokenizer for Music Generation

📄 Modeling Music as a Time-Frequency Image: A 2D Tokenizer for Music Generation 🔥 8.1/10 | 前25% | #音乐生成 | #自回归模型 | arxiv 学术质量 6.4/8 | 影响力 0.8/1 | 可复现性 0.9/1 | 置信度 高 👥 作者与机构 第一作者:Yuqing Cheng (Zhipu AI 实习) 通讯作者:未明确说明 作者列表:Yuqing Cheng\ (Zhipu AI), Xingyu Ma\ (未说明机构), Guochen Yu (未说明机构), Xiaotao Gu (未说明机构)。所有作者均标注了“*Equal contribution.”,表示共同第一作者。脚注明确指出“†Work done during an internship at Zhipu AI.”。 💡 毒舌点评 论文精准地指出了残差向量量化(RVQ)在自回归音乐生成中造成的token依赖瓶颈,并提出了一个逻辑自洽的解决方案——将token几何从“残差层级”转向“物理频带”。这种从分词器接口本身重新思考的视角很有价值。然而,其核心声称的“strong results”被有限的评估条件严重削弱:生成任务的“主要”评估仅基于ICME竞赛的100个提示,数据量极小;与规模大得多的基线(如MusicGen)对比时,训练数据差距巨大(460小时 vs 2万小时),这使得性能优势的普适性和说服力存疑。此外,论文未能展示模型在生成复杂结构、长篇音乐方面的真正能力,其“音乐性”评估仅依赖有限的主观指标,缺乏对旋律、和声、节奏等音乐核心要素的分析。 📌 核心摘要 问题:当前主流高保真音频分词器(如EnCodec)采用的残差向量量化(RVQ)结构,在将多码本token展平为序列后,其残差层级会引入强顺序依赖性,导致误差累积,增加语言模型建模的复杂度,并影响生成稳定性。 核心方法:提出BandTok,一种面向生成的2D梅尔频谱图分词器。它将频谱图通过2D Haar小波和CNN编码器转换为2D潜在网格,并使用一个包含8192个条目的单一共享码本进行量化,生成物理意义明确的时间×频率带token网格。随后,设计了一个带有2D旋转位置编码(2D RoPE) 的自回归Transformer语言模型,在展平后的token序列上进行建模。 创新点:核心贡献在于系统性地论证并验证了token几何结构本身对自回归生成模型的关键影响。与主要在模型层面缓解RVQ复杂性的方法不同,BandTok通过提供更解耦的token表示(频带token而非残差token),从根源上简化了预测任务,并通过2D RoPE在展平后保留时频结构。 实验结果: 重建质量:在2.2 kbps的低码率下,BandTok的Mel距离(0.642)和STFT距离(1.544)均优于EnCodec-32k、DAC、MelCap等基线,在同等码率下达到最佳重建质量(表II)。 生成质量: 在ICME竞赛测试集(100条提示)上,使用BandTok的315M参数模型,其FAD_CLAP(0.482)显著优于使用EnCodec-32k的同参数量模型(0.739),甚至优于使用EnCodec-32k的3.3B参数MusicGen-large(0.553)(表III)。 在SongDescriber数据集(586个样本子集)上,1.5B参数的BandTok模型在AudioBox主观评分的内容享受(CE: 7.244)、内容有用(CU: 7.858) 和制作质量(PQ: 7.846) 上,超过了参数量更大的Stable Audio Open (1.1B) 和MusicGen-large (3.3B)(表IV)。 消融研究: 表I证明了多尺度PatchGAN和EMA码本更新对提升重建质量的有效性。 表V证明了从RVQ残差token(BandTok-1D)切换为频带token(BandTok)带来巨大生成性能提升(FAD_CLAP从1.166降至0.645),而引入2D RoPE进一步提升(降至0.595)。 图1通过NMI和PPL分析,定量展示了频带token比残差token具有更低的token间依赖性和更平衡的预测难度。 实际意义:为自回归音频生成提供了一种新的分词范式,强调了“为生成而设计”的token几何结构的重要性,可能启发后续研究优化离散表示与生成模型的接口。 主要局限性: 作者承认模型在文本跟随性(text following)方面仍有提升空间。 下游生成评估所用的数据集(ICME竞赛集、SongDescriber子集)规模较小,对泛化能力的评估有限。 未充分展示模型在生成复杂、高音乐性或长篇音乐方面的能力。 🔗 开源详情 代码:https://github.com/xiaolubuhuizhuzhou/Bandtok (论文摘要脚注明确指出,generation demos与源代码一同公开) 模型权重:论文中未提及模型权重的托管平台或下载链接。 数据集: 训练数据集:论文提及使用了以下数据集: FMA (Free Music Archive) Freesound MTG-Jamendo(并使用ICME 2026 Grand Challenge提供的Qwen2生成标题) MUSDB(训练集用于训练) 评估数据集: MUSDB 测试集(1000段,用于重建评估) ICME contest test set(100个官方提示,用于生成评估) SongDescriber 数据集(586个无歌声子集,用于AudioBox评估) 获取方式:论文中未提供上述任何数据集的具体下载链接或获取方式。 Demo:论文指出“generation demos”与源代码一同公开,指向上述GitHub仓库。 复现材料: 训练配置:论文详细描述了训练细节,包括硬件(8块H800 GPU)、时长、优化器及其参数、学习率调度、Batch Size、损失函数权重等(见IV-B和IV-C节)。 检查点:论文中未提及是否公开预训练模型检查点。 附录:论文中未提及包含额外信息的附录。 论文中引用的开源项目: Cosmos-style Encoder:未提供具体链接。 BigVGAN-v2 Vocoder:引用参考文献[23],未提供链接。 T5 Encoder:引用参考文献[27],未提供链接。 Interleaved-MRoPE (来自 Qwen3-VL):引用参考文献[4],未提供链接。 Mel-Band RoFormer:引用参考文献[30],未提供链接。 Classifier-Free Guidance (CFG):方法参考MusicGen [7],未提供MusicGen的链接。 注:以上所有第三方项目仅提及名称和参考文献编号,未提供具体的开源仓库链接。 🏗️ 方法概述和架构 图2直观对比了RVQ分词器与BandTok的架构。图(a)展示了传统RVQ流程:音频表示依次通过多个VQ层,每一层量化上一层的“残差”,形成层级依赖的码本序列。图(b)展示了BandTok流程:梅尔频谱图被patchify为2D潜在网格,通过一个共享码本进行量化,其垂直轴对应梅尔频带,生成独立的2D token网格。 ...

2026-05-18 · 更新于 2026-06-19 · 4 min · 654 words