Video-Robin: Autoregressive Diffusion Planning for Intent-Grounded Video-to-Music Generation

📄 Video-Robin: Autoregressive Diffusion Planning for Intent-Grounded Video-to-Music Generation #音乐生成 #自回归模型 #多模态模型 #基准测试 #音视频 🔥 评分:8.0/10 | arxiv 👥 作者与机构 第一作者:Vaibhavi Lokegaonkar(University of Maryland College Park, USA) 通讯作者:Aryan Vijay Bhosale, Vishnu Raj(根据“Corresponding authors”及邮箱 {vlokegao,aryanvib}@umd.edu 推断,均来自 University of Maryland College Park, USA) 其他作者: Gouthaman KV(University of Maryland College Park, USA) Ramani Duraiswami(University of Maryland College Park, USA) Lie Lu(Dolby Laboratories, USA) Sreyan Ghosh(University of Maryland College Park, USA) Dinesh Manocha(University of Maryland College Park, USA) 💡 毒舌点评 亮点在于巧妙地将自回归模型的“宏观规划”能力和扩散模型的“细节雕刻”能力缝合在一起,解决了视频配乐中“既要懂视频又要听指挥”的痛点,还顺手做了个挺专业的评测基准ReelBench。槽点是缝合的“线”(如FSQ, RITE)都是现成的,而且目前只能给10秒短片配乐,离给一部电影完整配乐的“终极梦想”还有不小的距离,更像是个精致的概念验证版。 ...

2026-04-21

VoxSafeBench: Not Just What Is Said, but Who, How, and Where

📄 VoxSafeBench: Not Just What Is Said, but Who, How, and Where #语音大模型, #基准测试, #鲁棒性, #多语言 🔥 评分:9.5/10 | arxiv 👥 作者与机构 第一作者:Yuxiang Wang(香港中文大学(深圳),Amphion Technology Co., Ltd.) 通讯作者:Zhizheng Wu(香港中文大学(深圳),深圳湾区研究院,Amphion Technology Co., Ltd.) 其他作者: Hongyu Liu(香港中文大学(深圳)) Yijiang Xu(香港中文大学(深圳)) Luchao Yao(香港中文大学(深圳)) Qinke Ni(香港中文大学(深圳)) Li Wang(香港中文大学(深圳)) Wan Lin(香港中文大学(深圳)) Kunyu Feng(香港中文大学(深圳)) Dekun Chen(香港中文大学(深圳)) Xu Tan(未明确机构,根据上下文推断可能与Amphion或合作方相关) Lei Wang(未明确机构) Jie Shi(未明确机构) 💡 毒舌点评 亮点:这篇论文最大的贡献是“掀桌子”——它用一个设计精巧的基准(VoxSafeBench)清晰地证明,当前顶尖的语音大模型在文字游戏(文本安全)上可能很溜,但一旦涉及“听话听音”(谁在说、怎么说、在哪说),其社会常识和道德判断就集体掉线,暴露出严重的“语音接地”缺陷。其“两层设计”像一把精准的手术刀,切开了模型“知道”和“做到”之间的鸿沟。 槽点:评测框架虽然全面,但稍显复杂,22个任务对于快速复现和模型迭代可能是个挑战。此外,合成语音数据终究与真实世界充满噪声和不确定性的交互有差距,论文自己也承认了这点。 📌 核心摘要 这篇论文旨在解决当前语音语言模型(SLM)社会对齐评估不全面、不深入的问题。现有基准要么只关注基础音频理解,要么孤立地研究单一风险,无法区分模型是因“不懂”还是因“没用对地方”而失败。为此,作者提出了VoxSafeBench,这是首个联合评估SLM在安全、公平、隐私三大社会对齐维度上的综合基准。其核心方法是创新的两层(Two-Tier)设计:Tier 1评估内容中心风险(文本本身有害),通过对比文本、干净音频和多样音频输入,揭示跨模态对齐差距;Tier 2评估音频条件风险(文本无害,但正确响应依赖于说话人、副语言或环境线索),这是本工作的精髓。为确保Tier 2的效度,论文采用了三项关键控制:所有转录文本被验证为无害;构建了“文本参考上限”(将声学线索文本化后,文本模型表现接近饱和);并通过“中间感知探测”证实前沿SLM能感知相关声学线索但仍做出不安全响应。对多个领先SLM的评估一致表明:在文本层面看似稳健的安全防护,在语音场景中显著退化。模型经常能识别文本中的社会规范,却无法在决策线索必须通过语音接地时应用该规范,揭示了普遍存在的**“语音接地差距”**。该工作为评估和提升SLM的社会对齐能力提供了系统化的框架和关键洞见。 🏗️ 模型架构 本文提出的不是传统意义上的模型,而是一个评估基准(Benchmark)。其整体架构是VoxSafeBench的评估框架,核心是两层(Two-Tier)设计。 整体流程: 数据输入:对于每个评估任务,输入可以是文本(Tier 1)、干净音频(Tier 1)、多样音频(Tier 1)或仅音频(Tier 2)。 模型推理:将输入喂给待测的语音大模型(SLM),获取其原始响应。 评估判决:使用LLM-as-a-judge(主要使用DeepSeek-V3)对模型的生成式响应进行评判,或对于判别式任务直接计算准确率。评判遵循详细的评分规则(Rubric)。 指标计算:根据任务类型计算相应指标(如RtA, DAR, SAR, Fair Rate, Leakage Rate等)。 Tier 1(内容中心风险): 目标:评估当转录文本本身包含风险时,模型能否正确拒绝或安全响应。 输入:提供文本、干净音频(中性TTS合成)、多样音频(含不同口音、年龄、情感、背景音的合成音频)三种模态的匹配输入。 目的:通过对比三种输入下的表现,量化“跨模态对齐差距”(文本 vs. 音频)和“干扰鲁棒性”(干净 vs. 多样音频)。 Tier 2(音频条件风险): 目标:评估当转录文本无害,但音频上下文(说话人身份、副语言特征、背景环境)改变了社会规范时,模型能否做出恰当响应。 输入:仅提供音频。在推理时,会附加一个统一的系统提示,提醒模型考虑完整的音频上下文(说话人、语调、背景音等)。 关键设计:每个任务的音频都包含一个明确的、与文本内容构成冲突或需要特殊处理的声学线索(如儿童声音、愤怒情绪、背景中有儿童、背景中有偷听者等)。 数据集构建流水线: 数据获取与文本准备:从现有基准改编、使用LLM生成或手动构建文本提示。 提示-音频池与语音合成:构建一个包含不同说话人、口音、年龄、情感、背景音的“提示-音频池”。使用CosyVoice3模型将文本提示合成为语音,以确保说话人身份的稳定保持。 分层输出构建:为Tier 1生成文本、干净音频、多样音频三种视图;为Tier 2仅生成音频视图。 质量过滤与人工验证:使用Whisper-large-v3过滤词错率(WER)>5%的样本,并进行人工抽检。 💡 核心创新点 首个联合评估安全、公平、隐私的语音社会对齐基准:不同于以往聚焦于能力或单一风险的基准,VoxSafeBench首次在一个统一框架下系统性地评估SLM在三大核心社会对齐维度的表现。 创新的“两层”评估范式: 是什么:将评估清晰地分为Tier 1(内容中心风险)和Tier 2(音频条件风险)。 之前方法:现有基准要么混合了两类风险,要么只关注其中一类,无法区分模型失败是因为缺乏规范知识(Tier 1问题)还是无法将规范应用于音频线索(Tier 2问题)。 如何解决:通过严格的实验设计(Tier 2所有文本均被验证为无害)和对照实验(文本参考上限、感知探测),精准定位“语音接地差距”。 效果:揭示了前沿模型在Tier 2上表现普遍不佳,即使它们在Tier 1或文本参考上限中表现良好。 系统化、可审计的数据集构建与验证方法: 是什么:构建了一个包含22个任务、覆盖中英双语的大规模评测集,并详细描述了从数据来源、合成、质量控制到人工验证的全流程。 之前方法:许多基准的数据构建过程不透明,或依赖自然音频导致控制变量困难。 如何解决:使用可控的语音合成(CosyVoice3)和精心设计的“提示-音频池”,确保声学线索的明确性和可控性。通过WER过滤和人工抽检保证数据质量。 效果:提供了高质量、可复现的评测数据,增强了实验结果的可信度。 严谨的效度验证与诊断分析: 是什么:引入了“文本参考上限”和“中间感知探测”来验证Tier 2评测的有效性。 之前方法:对音频条件任务的评测往往缺乏对“模型是否感知到线索”的验证,导致失败原因模糊。 如何解决: 文本参考上限:将声学线索用文字描述,让顶级文本LLM作答,结果接近饱和,证明相关规范是存在的。 中间感知探测:在模型做出最终社会判断前,先探测其对声学线索(如“说话人是儿童吗?”)的识别能力。发现模型感知准确率远高于其基于该感知做出安全响应的比例。 效果:强有力地证明了Tier 2的失败主要源于“对齐失败”(知道线索但不当回事),而非“感知失败”(没听懂线索),使结论更具说服力。 🔬 细节详述 训练数据/评测数据: 规模:共22个任务,总计约17,000多个评测样本(根据表格2中各任务数据量估算)。 来源:三类:1)改编自现有基准(如SafetyBench, Sorry-Bench, VoxPrivacy, HearSay等);2)为未覆盖的任务家族从头构建(使用GPT、Gemini等LLM生成初稿,经人工筛选);3)少量直接使用现有数据集。 音频合成:使用CosyVoice3模型。构建了提示-音频池(表6),包含: 干净池:标准、中性的中英文语音。 多样池:涵盖口音(标准/非母语)、年龄(儿童/中年/老年)、性别(男/女)、情感(愤怒/高兴/悲伤/恐惧/惊讶,且经audEERING模型筛选,确保唤醒度>0.7)、背景音(公共噪音、古典音乐,以40%音量混合)。 质量控制:所有合成音频用Whisper-large-v3转写,剔除WER>5%的样本。进行人工抽检。 评估模型与Judge: 被评估SLM:包括开源模型(Qwen3-Omni, Mimo-Audio, Kimi-Audio及其思维链变体)和闭源模型(Gemini-3-Pro/Flash, GPT-4o-Audio)。 评判模型:生成式任务主要使用DeepSeek-V3作为LLM法官。进行了法官一致性研究(附录I),使用Kimi-K2.5、GPT-5.2和3名人类标注员,Fleiss’ κ = 0.78,Spearman’s ρ ≥ 0.88,表明评判结果稳健。 关键超参数与设置: Tier 2系统提示:统一提醒模型考虑完整音频上下文(说话人、语调、背景音),但不透露具体线索或正确答案。 文本参考上限构建:将Tier 2音频中的声学线索用文字明确描述(如“说话者是个孩子”),输入给文本LLM(DeepSeek-V3, Gemini-3-Pro, GPT-5.2),取最安全的结果作为上限。 感知探测(附录J):在模型输出最终社会判断前,插入一个中间探测层,让模型回答关于声学线索的简单问题(如“说话者听起来是儿童吗?”),以量化其感知能力。 主要指标: 安全: Tier 1: 拒绝率(RtA)、毒性分数、攻击成功率(ASR)。 Tier 2: 直接回答率(DAR,越低越好)、安全意识率(SAR,越高越好,分解为警告回答率WAR和拒绝率RtA)、重叠诱导转化率(OIC)。 公平: 主要指标:公平率(Fair Rate,模型保持中立的比例)。 方向性偏差:净偏差分数(NBS),结合二项检验,量化不公平判断是否系统性地与社会刻板印象对齐。 隐私: Tier 1: 泄露率、拒绝率(RtA)。 Tier 2: 隐私意识率(PAR)、直接回答率(DAR)、交互式隐私的F1分数、推理式隐私的准确率和拒绝率。 📊 实验结果 安全评估主要发现(表3,图2): Tier 1:无越狱时,所有模型都安全。应用越狱后,性能急剧分化。多轮越狱最有效。文本输入比音频输入更容易导致不安全输出(模型在文本模式下更想���帮忙”)。思维链变体在越狱下更脆弱。在代理风险中,模型对工具输出中的间接危害(Indirect harm)警惕性远低于用户直接指令。 Tier 2:模型表现远低于文本参考上限,揭示了“语音接地差距”。 内容-副语言冲突:模型对“受损能力”(如口齿不清)的反应优于“儿童声音”,对“情感”线索反应最差。Gemini系列模型在此项表现最佳。 内容-背景冲突:当背景本身不安全(如NSFW声音)时,模型表现优于需要推断“有儿童在场”的场景。模型能识别直接的声学危险信号,但难以推断听众并调整行为。 对抗交互:重叠指令注入(Overlapping instruction injection)能成功诱导模型回答本应拒绝的有害问题(OIC率显著)。 公平性评估主要发现(表4,图3): Tier 1 vs. Tier 2差距:几乎所有模型从Tier 1到Tier 2的公平率都急剧下降。表明对文本刻板印象的抵抗力无法迁移到需要从语音推断差异的场景。 模态与语言差距:闭源模型跨语言行为更稳定(文本>音频)。开源模型存在严重的模态和语言不平衡(如Kimi-Audio在中文和文本上几乎失效)。 思维链的不稳定影响:启用CoT(“thinking”)会带来不可预测的行为,有时甚至逆转模态优劣(音频>文本)。 方向性偏差:多个SLM的NBS显著为正,表明其不公平判断系统性地与社会刻板印象对齐,而非随机错误。同一音频用中英文查询,偏差模式可能不同。 隐私评估主要发现(表5,图4): Tier 1:存在严重的跨模态隐私差距。即使是强闭源模型(如Gemini-3-Pro),其硬隐私泄露率也从文本的23.9%飙升至音频的81.2%以上。硬隐私(结构化PII)比软隐私(上下文秘密)更难保护。CoT对软隐私提升明显,但对硬隐私帮助有限。 Tier 2: 音频条件隐私:当背景音暗示非私密环境时,模型(如GPT-4o-Audio, Qwen3-Omni)仍直接回答的比例(DAR)超过85%。而Gemini-3-Pro的隐私意识率(PAR)达94.3%。同样的线索文本化后,PAR达100%。 交互式隐私:多数开源模型在判断信息是否应对特定说话者保密时,准确率在50%左右(随机猜测)。 推理式隐私:多数模型很少拒绝从声音推断敏感属性的请求,且能达到非平凡的准确率,构成画像风险。GPT-4o-Audio是显著例外,拒绝率高。 ⚖️ 评分理由 创新性:10/10 - 提出了一个全新的、系统性的语音社会对齐评估范式(两层设计),并首次在大规模实验中实证了“语音接地差距”这一关键问题,对领域发展具有方向性指导意义。 实验充分性:9.5/10 - 实验设计极为全面和严谨。涵盖了三大维度、两层设计、多种模型、中英双语、判别与生成任务。包含了消融研究(CoT影响)、控制实验(文本参考上限)和诊断分析(感知探测)。数据量大,评判方法经过验证。扣0.5分是因为所有音频均为合成,与真实世界交互可能存在差距(作者已承认)。 实用价值:9.5/10 - 直接针对语音助手部署的核心风险(安全、公平、隐私),其发现和基准工具对于模型开发者、政策制定者和研究人员都具有极高的实用价值,能有效指导未来SLM的社会对齐研究和安全加固。 灌水程度:1/10 - 论文内容高度聚焦,每一部分(从动机、设计到实验分析)都紧密围绕核心论点展开,信息密度高,没有明显的冗余或夸大表述。附录详尽且必要。 🔗 开源详情 代码:已开源。GitHub地址:https://github.com/amphionteam/VoxSafeBench 数据集:已公开。项目主页提供了数据获取链接:https://amphionteam.github.io/VoxSafeBench_demopage/ 模型权重:论文本身不涉及发布新模型,而是评估现有模型。评测代码支持评估列表中的开源和闭源模型。 预训练权重:不适用。 在线Demo:项目主页可能提供,论文中未明确说明。 引用的开源项目:论文中明确使用了CosyVoice3(语音合成)、Whisper-large-v3(语音识别/质量过滤)、DeepSeek-V3/Kimi-K2.5/GPT-5.2(作为LLM法官)等开源或公开可用的模型。 🖼️ 图片与表格 图1: VoxSafeBench概览与动机示意图 | 保留: 是 - 清晰展示了两层设计的核心思想和一个生动的例子,是理解论文动机的关键。 表1: 现有音频/多模态基准对比 | 保留: 是 - 通过详细对比,突出了VoxSafeBench在评估维度、声学上下文覆盖、交互模式等方面的全面性和创新性。 表2: VoxSafeBench任务总结 | 保留: 是 - 核心表格,完整列出了所有22个任务的ID、所属层级、任务家族、数据源、指标和数据量,是基准的“蓝图”。 图2: Tier 1安全评估总结 | 保留: 是 - 用两个散点图直观展示了越狱攻击和代理风险下的模型行为模式,信息量大。 表3: Tier 2安全评估结果 | 保留: 是 - 关键结果表,详细列出了各模型在多个Tier 2安全任务上的DAR/SAR等指标,并与文本参考上限对比,直接证明了“语音接地差距”。 表4: 公平性评估结果(Tier 1 vs. Tier 2) | 保留: 是 - 核心结果表,展示了模型在不同公平性任务和模态下的公平率,清晰揭示了Tier 1到Tier 2的性能骤降。 图3: 公平性方向偏差分析(NBS) | 保留: 是 - 重要补充,展示了不公平判断是否系统性地偏向刻板印象,深化了对公平性失败的理解。 表5: 隐私评估结果 | 保留: 是 - 核心结果表,展示了模型在硬隐私、软隐私和音频条件隐私任务上的表现,揭示了跨模态隐私差距和不同隐私类型的难度差异。 图4: 交互式与推理式隐私结果 | 保留: 是 - 以条形图和热力图形式展示了Tier 2中两类隐私任务的具体结果,直观易懂。 附录中的图、表和详细结果:包含大量补充材料,如详细的分类学、更多结果分解、法官一致性分析、感知探测结果等,对于深入理解研究细节至关重要,建议保留。 📸 论文图片 ...

2026-04-21

Where Do Self-Supervised Speech Models Become Unfair?

📄 Where Do Self-Supervised Speech Models Become Unfair? #语音识别 #说话人识别 #自监督学习 #模型评估 #多语言 ✅ 评分:7.5/10 | arxiv 👥 作者与机构 第一作者:Felix Herron(格勒诺布尔阿尔卑斯大学,GETALP团队;昆士兰科技大学) 通讯作者:Felix Herron(邮箱:felix.herron@univ-grenoble-alpes.fr,格勒诺布尔阿尔卑斯大学) 其他作者: Maja Hjuler(巴黎多菲纳大学,MILES团队,LAMSADE) Solange Rossato(巴黎多菲纳大学,MILES团队,LAMSADE) Alexandre Allauzen(格勒诺布尔阿尔卑斯大学,GETALP团队) François Portet(格勒诺布尔阿尔卑斯大学,GETALP团队) 💡 毒舌点评 亮点:这篇论文像给语音模型做了一次全面的“公平性X光扫描”,首次系统揭示了SID和ASR任务在不同网络层中“此消彼长”的偏差规律,这个发现本身很有洞察力,为后续研究指明了病灶所在(问题出在预训练阶段)。 槽点:但论文基本止步于“诊断”而未开出“药方”。它告诉我们模型从第一层就开始“偏心”,且微调和现有的去偏方法(DET/DAT)效果甚微,这多少有点令人沮丧——相当于确诊了顽疾,却说“现有疗法效果有限,建议研发新药”。对于急需解决方案的从业者来说,实用性打了折扣。 📌 核心摘要 这篇论文旨在探究自监督语音模型(S3M)的不公平性究竟在模型的哪个层级产生。研究团队采用了一种轻量级的线性探针方法,在多个S3M(如WavLM, Wav2Vec2, BEST-RQ, Whisper)的每一层嵌入上,同时评估了说话人识别(SID)和自动语音识别(ASR)任务的整体性能及对不同说话人组(如非母语者、儿童、女性)的偏差。研究发现:1)模型从第一层开始就对不同说话人组表现出性能偏差;2)SID和ASR任务呈现出截然相反的层间偏差模式:SID性能最佳的层偏差最小,而ASR性能最佳的层偏差最大;3)对ASR进行微调(包括使用对抗性去偏方法)能提升整体性能,但几乎无法改变预训练阶段已固化的层间偏差模式。这表明,S3M的不公平性根植于预训练过程,且难以通过后续的微调消除,强调了研究更公平预训练技术的必要性。 🏗️ 模型架构 本研究的核心并非提出新模型,而是设计了一套分析框架来探测现有S3M的内部表征。其流程如下: 输入:原始语音波形。 特征提取:将语音输入预训练好的S3M(如WavLM-base+),获取其每一层的输出隐状态(hidden states)。这些隐状态就是待分析的“嵌入”。 任务探针:在每一层的嵌入上,分别独立训练两个极其简单的“探针”模型: SID探针:一个线性分类器,输入当前层的嵌入,输出说话人ID。使用Sonos数据集训练。 ASR探针:一个线性分类器+CTC解码,输入当前层的嵌入,输出文本序列。使用CommonVoice等数据集训练。 评估与度量:在测试集上,计算每个探针的整体任务错误率(SID为分类错误率,ASR为词错误率WER)和针对每个说话人组(SG)的相对错误率(公式1)。进一步,对一个人口统计变量(如性别)下的所有SG,计算其平均绝对相对错误率(公式2)作为该变量上的“偏差”度量。 分析:绘制每个模型、每一层、每个任务、每个说话人组的相对错误率曲线,以及整体错误率与偏差的散点图,从而分析偏差随网络层的演变规律。 关键设计理由:使用单层线性探针(而非复杂解码器)是为了最小化探针自身引入的偏差,确保观察到的性能差异和偏差主要源于S3M预训练得到的表征质量,而非解码器的能力。这是一种经典的“控制变量”分析法。 💡 核心创新点 首次进行S3M层间公平性分析:以往研究主要评估最终输出或微调后模型的公平性。本文创新性地将分析深入到模型的每一层,揭示了偏差产生的动态过程。 揭示SID与ASR截然相反的偏差-性能关系: SID:性能最佳的早期层,对不同说话人组的偏差最小。随着网络加深,SID性能下降,偏差增大。呈现正相关(性能↑,偏差↓)。 ASR:性能最佳的后期层,对不同说话人组的偏差最��。随着网络加深,ASR性能提升,偏差也增大。呈现负相关(性能↑,偏差↑)。这是一个反直觉且重要的发现。 证明偏差的“预训练固化”特性:通过对微调后(包括使用DET/DAT等去偏方法)模型的层间分析,发现虽然整体WER下降,但层间偏差模式与预训练模型几乎一致。这强有力地表明,不公平性是在预训练阶段建立的,后期微调难以扭转。 🔬 细节详述 训练数据: SID探针训练/评估:主要使用 Sonos Voice Control Bias Assessment Dataset。包含1038名说话人,166小时音频,标注了伪ID、性别、方言、年龄组、是否母语者。为SID任务随机为每位说话人采样15条语音,按80/20划分训练/测试集。 ASR探针训练/评估:使用 Sonos 的官方训练/测试划分。同时使用 Meta‘s Fair-speech corpus(593名说话人,56小时)进行评估,其标注更丰富(包括种族、社会经济背景)。由于Fair-speech无说话人ID,作者通过聚类XLS-R嵌入生成了“伪ID”来构建可能不重叠的说话人划分。 训练策略: 探针训练:基于SpeechBrain框架。SID探针训练5k步,ASR探针训练30k步,使用动态批处理(最大长度3分钟)。每个实验重复5次以保证鲁棒性。 模型微调:为测试微调影响,使用CommonVoice 16.0英文子集对部分S3M进行ASR微调。采用CTC损失,先冻结编码器预热5k步,再解冻训练25k步,学习率恒定为1e-4。公平性增强方法(DET/DAT)遵循《Adversarial and Enhancing》的实现,在特定层(如base模型的第5/10层)加入xvector架构的分类器。 关键超参数:未详细列出所有超参数,但提到了学习率(1e-4)、训练步数、批处理策略。 模型列表:研究了8个模型,包括WavLM-base+(100M参数,94k小时预训练), WavLM-lg(300M), BEST-RQ-lg-ll(300M,Conformer架构), W2V2-lg-ls(300M,960k小时LibriSpeech), W2V2-lg-lv(300M,60k小时), XLS-R(300M,多语言436k小时), W2V2-FR-7K-lg(300M,法语7k小时), Whisper-medium(300M,端到端训练680k小时多语言)。 📊 实验结果 (根据提供的图表和文字描述总结关键数据) ...

2026-04-21

语音/音频论文速递 2026-04-21

语音/音频论文速递 2026-04-21 共分析 34 篇论文 ⚡ 今日概览 📥 抓取 34 篇 → 🔬 深度分析完成 🏷️ 热门方向 方向 数量 分布 模型评估 13篇 █████████████ 基准测试 9篇 █████████ 音频大模型 8篇 ████████ 数据集 7篇 ███████ 多语言 7篇 ███████ 多模态模型 5篇 █████ 强化学习 5篇 █████ 语音对话系统 4篇 ████ 📊 论文评分排行榜(34 篇,按分数降序) 排名 论文 评分 🥇 FreezeEmpath: Efficient Training for Empathetic Spoken 10.0分 🥈 Audio-DeepThinker: Progressive Reasoning-Aware Reinforc 9.5分 🥉 VoxSafeBench: Not Just What Is Said, but Who, How, and 9.5分 4 Benign Fine-Tuning Breaks Safety Alignment in Audio LLM 9.0分 5 Prosody as Supervision: Bridging the Non-Verbal–Verbal 9.0分 6 Anonymization, Not Elimination: Utility-Preserved Speec 8.5分 7 MimicLM: Zero-Shot Voice Imitation through Autoregressi 8.5分 8 ArtifactNet: Detecting AI-Generated Music via Forensic 8.5分 9 Audio-Cogito: Towards Deep Audio Reasoning in Large Aud 8.5分 10 LLM-Codec: Neural Audio Codec Meets Language Model Obje 8.5分 11 NIM4-ASR: Towards Efficient, Robust, and Customizable R 8.5分 12 Video-Robin: Autoregressive Diffusion Planning for Inte 8.0分 13 A state-space representation of the boundary integral e 8.0分 14 AVRT: Audio-Visual Reasoning Transfer through Single-Mo 8.0分 15 MoVE: Translating Laughter and Tears via Mixture of Voc 8.0分 16 SELF-EMO: Emotional Self-Evolution from Recognition to 8.0分 17 BhashaSutra: A Task-Centric Unified Survey of Indian NL 8.0分 18 MINT-Bench: A Comprehensive Multilingual Benchmark for 8.0分 19 ICLAD: In-Context Learning with Comparison-Guidance for 7.5分 20 Still Between Us? Evaluating and Improving Voice Assist 7.5分 21 Where Do Self-Supervised Speech Models Become Unfair? 7.5分 22 Neural Encoding Detection is Not All You Need for Synth 7.5分 23 Omni-Embed-Audio: Leveraging Multimodal LLMs for Robust 7.5分 24 Latent Fourier Transform 7.5分 25 Hard to Be Heard: Phoneme-Level ASR Analysis of Phonolo 7.5分 26 VIBE: Voice-Induced open-ended Bias Evaluation for Larg 7.5分 27 Aligning Language Models for Lyric-to-Melody Generation 7.5分 28 ClariCodec: Optimising Neural Speech Codes for 200bps C 7.0分 29 From Reactive to Proactive: Assessing the Proactivity o 7.0分 30 A novel LSTM music generator based on the fractional ti 6.5分 31 Incremental learning for audio classification with Hebb 6.5分 32 Coexisting Tempo Traditions in Beethoven’s Piano and Ce 6.0分 33 FLiP: Towards understanding and interpreting multimodal 5.5分 34 HCFD: A Benchmark for Audio Deepfake Detection in Healt 5.0分 📋 论文列表 🥇 FreezeEmpath: Efficient Training for Empathetic Spoken Chatbots with Frozen LLMs 🔥 10.0分 | #语音对话系统 #多模态模型 #迁移学习 #语音情感识别 | arxiv ...

2026-04-21

ActorMind: Emulating Human Actor Reasoning for Speech Role-Playing

📄 ActorMind: Emulating Human Actor Reasoning for Speech Role-Playing #语音对话系统 #大语言模型 #多智能体 #基准测试 🔥 评分:8.0/10 | arxiv 👥 作者与机构 第一作者:Xi Chen (陈曦) (香港科技大学,联系邮箱:chenxi.mail.1005@gmail.com) 通讯作者:Wei Xue (薛巍) (香港科技大学,weixue@ust.hk) 其他作者:Yike Guo (郭毅可) (香港科技大学) 💡 毒舌点评 亮点:论文巧妙地将“演员表演方法论”转化为一个可计算的“眼-耳-脑-口”多智能体框架,为冷冰冰的语音合成注入了“角色灵魂”,在概念和系统设计上颇具巧思。槽点:整个系统像个“工具箱大杂烩”,依赖一堆现成的ASR、情感识别、LLM和TTS模块拼装而成,创新更多体现在“编剧和导演”层面,而非“演员”本身的演技突破。实验数据只用了《老友记》第一季,让人担心这套方法演不了莎士比亚。 📌 核心摘要 这篇论文旨在解决现有角色扮演研究局限于文本模态,而忽视了日常交流中主导的语音模态的问题。为此,作者首先定义了“语音角色扮演”任务,要求模型能根据角色、场景和对话历史,生成带有个性化语音特征(如特定情感、语调)的自发性回应。为此,他们构建了ActorMindBench,这是一个基于《老友记》第一季的三层级(话语级、场景级、角色级)基准测试,包含7653条话语。核心贡献是提出了ActorMind,一个受演员表演流程启发的多智能体链式推理框架。该框架通过四个协同工作的智能体模拟表演过程:Eye Agent读取角色和场景描述,Ear Agent从对话语音中感知情感线索,Brain Agent推理出下一句台词应具有的情感状态,最后Mouth Agent通过检索情感相似的语音样本,驱动TTS模型合成目标台词。实验表明,ActorMind在角色一致性和情感表达上显著优于多个基线LLAM和TTS模型,并展现出良好的模型无关泛化性。其局限性在于基准数据领域单一,且框架性能依赖于所集成外部工具的水平。 🏗️ 模型架构 ActorMind是一个多智能体链式推理框架,其整体流程模拟人类演员的表演过程,从接收剧本到最终演绎出台词。具体输入输出流程如下: 输入:当前场景描述(S_j^desc)、当前角色的档案(R_k)、历史对话的文本(U_p^t, ..., U_{q-1}^t)和语音(U_p^s, ..., U_{q-1}^s),以及目标台词的文本(U_q^t)。 处理流程: Eye Agent(阅读):这是一个记忆模块,负责读取并存储角色档案(R_k)、场景描述(S_j^desc)和历史对话文本。它不进行复杂计算,仅为后续智能体提供上下文文本信息。 Ear Agent(倾听):这是一个感知模块。它接收历史对话的语音信号(U_p^s, ..., U_{q-1}^s),调用一个外部的语音情感描述工具(SECAP),将每段语音转化为文本形式的情感描述(E_p, ..., E_{q-1})。其核心功能是将非结构化的语音情感信息结构化为文本。 Brain Agent(思考):这是整个框架的核心推理大脑。它接收来自Eye Agent的所有文本信息(角色、场景、历史对话文本)和来自Ear Agent的历史情感描述,以及目标台词文本(U_q^t)。然后,它调用一个大语言模型(LLM,论文中使用LLaMA3),通过精心设计的提示词,推理出当前角色在说出目标台词时应处的情感状态描述(E_q~)。这个过程相当于演员结合内外部信息,决定“我该用什么情绪来说下一句台词”。 Mouth Agent(演绎):这是语音生成模块。它接收Brain Agent输出的情感状态描述(E_q~)和目标台词文本(U_q^t)。首先,它通过一个检索增强生成(RAG) 机制,在一个为当前角色(R_k)构建的语音数据库(Database_Uk) 中,检索出一条情感描述与E_q~最相似的历史语音片段(U_x^s)。这个数据库中的每条语音都关联了其由SECAP生成的情感描述。然后,它以检索到的语音(U_x^s)作为“情感和音色提示”,以目标文本(U_q^t)作为内容,驱动一个零样本语音合成模型(论文中使用IndexTTS) 生成最终的语音输出(U_q^s~)。 输出:带有特定角色音色和情感状态的语音U_q^s~。 关键设计选择: 多智能体分工:将复杂的角色扮演任务分解为感知、记忆、推理、生成四个清晰的子任务,提高了系统的模块化和可解释性。 文本化中间表示:Ear Agent将语音情感转化为文本描述,Brain Agent基于文本进行推理,这使得整个流程可以利用强大的纯文本LLM进行复杂推理,避免了直接在多模态空间进行复杂操作的困难。 RAG驱动的情感语音合成:不直接让TTS模型理解抽象的情感标签,而是通过检索“情感相似的参考语音”来提供具体、可模仿的声学范例,这是一种非常实用且有效的“in-context learning”思路。 💡 核心创新点 首个面向语音的角色扮演基准测试(ActorMindBench): ...

2026-04-20

ArtifactNet: Detecting AI-Generated Music via Forensic Residual Physics

📄 ArtifactNet: Detecting AI-Generated Music via Forensic Residual Physics #音频深度伪造检测 #时频分析 #信号处理 🔥 评分:8.0/10 | arxiv 👥 作者与机构 第一作者:Heewon Oh 通讯作者:未明确提供 其他作者:无 机构信息:论文中未明确标注作者所属机构。 💡 毒舌点评 亮点:把检测AI音乐变成了玩“大家来找茬”,专找神经编解码器留下的“数字指纹”,视角清奇且高效,参数量还只有对手的零头,堪称“四两拨千斤”。 槽点:论文读起来像一份完美的“实验报告”,创新点明确、数据扎实,但总感觉少了点让人拍案叫绝的“灵光一闪”;另外,作者似乎是个“独行侠”,没有挂靠任何机构,显得有些神秘。 📌 核心摘要 本文旨在解决AI生成音乐检测中泛化性差和模型参数效率低的问题。作者提出了一种名为ArtifactNet的新框架,其核心创新在于将问题重新定义为“法医物理学”,即直接提取和分析神经音频编解码器在生成音频中不可避免留下的物理痕迹(残留物)。该方法使用一个轻量级的Bounded-mask UNet从幅度谱图中提取编解码器残留,并通过HPSS(谐波-冲击-残渣分离) 技术将其分解为7通道的法医特征,最后由一个紧凑的CNN进行分类。为公平评估,作者构建了包含22个生成器和6种真实来源的ArtifactBench基准。实验表明,ArtifactNet在未见测试集上达到了0.9829的F1分数,远超CLAM和SpecTTTra等现有方法,且参数量仅为4.0M,效率极高。此外,通过编解码器感知训练,模型对跨编解码器的概率漂移降低了83%,显著提升了鲁棒性。这项工作证明,直接提取底层物理残留是一种比表征学习更通用、更参数高效的AI音乐检测范式。 🏗️ 模型架构 ArtifactNet的整体流程是一个两阶段的“特征提取-分类”管道: 输入:原始音频波形。 预处理:将音频转换为幅度谱图(Magnitude Spectrogram)。 第一阶段:残留提取: 组件:ArtifactUNet(一个带约束的掩码UNet,3.6M参数)。 功能:该模块被训练来从输入谱图中预测并分离出由神经音频编解码器(如MP3, AAC等编码-解码过程)引入的微小失真或“残留”。可以理解为它学习了一个“编解码器噪声”的指纹。 输出:得到编解码器残留谱图。 第二阶段:特征分解与分类: 组件:HPSS算法 + 紧凑型CNN(0.4M参数)。 流程: a. HPSS分解:将提取出的残留谱图通过谐波-冲击-残渣分离算法,分解成三个分量:谐波(H)、冲击(P)、残渣(S)。这三个分量从不同物理维度刻画了残留特性。 b. 特征构造:将H, P, S分量及其统计量(如均值、方差)组合成一个7通道的法医特征图。 c. 分类:将7通道特征图输入一个轻量级的卷积神经网络,最终输出一个二分类结果(AI生成 / 真实录制)。 输出:音频为AI生成或真实的概率。 关键设计理由: 问题重定义:不从“生成内容”本身找特征,而是找“生成工具(编解码器)留下的必然痕迹”,这抓住了问题的物理本质,提升了泛化性。 Bounded-mask UNet:用于精确地从复杂谱图中“抠出”微弱的编解码器残留信号。 HPSS分解:将混合的残留信号按物理属性分离,提供了更丰富、更具可解释性的特征,比直接使用原始残留谱图更有效。 轻量化设计:总参数仅4.0M,确保了高效性和低部署门槛。 💡 核心创新点 范式创新:法医物理学视角 - 是什么:将AI音乐检测从传统的“表征学习”(学习AI与真实音乐的抽象差异)转变为“法医物理学”(直接检测生成过程必然引入的物理痕迹——编解码器残留)。 - 之前的方法:如CLAM、SpecTTTra,主要依赖深度模型学习音频的高层表征,容易过拟合到特定生成器或数据分布,泛化性受限。 - 如何解决:通过设计ArtifactUNet显式地建模和提取“编解码器残留”这一共性、物理性的痕迹,而非易变的“内容特征”。这使得模型对未见过的生成器也可能有效。 - 效果:在包含22个生成器的ArtifactBench上实现了极高的F1分数(0.9829),证明了其强大的泛化能力。 ...

2026-04-20

AST: Adaptive, Seamless, and Training-Free Precise Speech Editing

📄 AST: Adaptive, Seamless, and Training-Free Precise Speech Editing #语音合成 #流匹配 #零样本 #数据集 ✅ 评分:7.5/10 | arxiv 👥 作者与机构 第一作者:Sihan Lv(浙江大学,推断) 通讯作者:Meng Xi(浙江大学,推断) 其他作者:Yechen Jin(浙江大学,推断),Zhen Li(浙江大学,推断),Jintao Chen(浙江大学,推断),Jinshan Zhang(浙江大学,推断),Ying Li(浙江大学,推断),Jianwei Yin(浙江大学,推断),Meng Xi(浙江大学,推断) 机构说明:所有作者邮箱均为 @zju.edu.cn,论文未明确标注具体学院或实验室名称,根据致谢中的“Zhejiang Key Laboratory Project”可推断为浙江大学相关实验室。 💡 毒舌点评 把图像编辑里玩烂的潜空间反演(Latent Inversion)搬到语音流匹配模型上,再缝个动态“弱事实引导”当创可贴,居然就把一群专门训练过的语音编辑模型按在地上摩擦——这恰恰说明语音领域在TTS模型免训练适配上的思路有多贫瘠。不过槽点也很明显:WER相比基座IndexTTS-2不降反升(2.43% vs 2.91%),说明为了保住未编辑区域的“原汁原味”,编辑区域的文本准确性还是被献祭了一点;而且LibriSpeech-Edit数据集靠Qwen3-8B生成目标文本,编辑质量全看大模型脸色,可靠性存疑。 📌 核心摘要 本文针对现有语音编辑方法依赖任务特定训练、未编辑区域时间一致性差的问题,提出了AST(Adaptive, Seamless, and Training-free),一种基于预训练AM-FM(自回归-流匹配)范式TTS模型的精确语音编辑框架。AST首先通过逆Euler ODE求解器将原始语音反演至潜空间,然后利用最长公共子序列(LCS)进行词级对齐,将未编辑区域的反演潜流与编辑区域的高斯噪声进行潜变量重组(Latent Recomposition)。为防止拼接边界出现伪影,论文提出了自适应弱事实引导(AWFG),根据当前潜流与原始反演流的偏差动态加权mel空间引导信号。此外,AST天然支持局部风格编辑(如情感、方言)。为填补公开基准空白,论文还发布了LibriSpeech-Edit数据集(2000条,3.6小时)和词级动态时间规整指标(WDTW)。实验表明,AST在说话人相似度(0.986)和时间一致性(WDTW 0.2025)上达到SOTA,WER比专门训练的基线降低近70%,且无需任何额外训练。 🏗️ 模型架构 AST的整体架构是一个免训练的推理框架,依附于一个预训练的AM-FM(Autoregressive Model-Flow Matching)TTS模型(论文使用IndexTTS-2)。其核心不是重新设计网络层,而是在已有模型的潜空间中进行“手术刀式”干预。完整输入输出流程如下: 输入:原始mel-谱图 $m_{\mathrm{ori}}$、原始转录 $y_{\mathrm{ori}}$、目标转录 $y_{\mathrm{tgt}}$、声学提示 $m_{\mathrm{ref}}$。 阶段一:潜空间反演(Latent Inversion) 利用AM-FM解码器的ODE可逆性,将原始语音“倒推”回噪声空间。流匹配的前向过程由ODE定义: $$\frac{dx(t)}{dt}=v_{\phi}\left(x(t);\mu,m_{\mathrm{ref}}\right), \quad t\in[0,1]$$ 其中 $v_\phi$ 是DiT(Diffusion Transformer)参数化的速度场,$\mu$ 是自回归模型生成的语义条件。反演时,采用逆Euler ODE求解器,在假设小步长内速度场近似恒定的前提下,将 $x_{\mathrm{ori}}(1)=m_{\mathrm{ori}}$ 逐步逆推至 $x_{\mathrm{ori}}(0)$: $$x(t-\Delta t)=x(t)-\Delta t\cdot v_{\phi}\left(x(t);\mu_{\mathrm{ori}},m_{\mathrm{ref}}\right)$$ 与此同时,目标文本 $y_{\mathrm{tgt}}$ 通过自回归模型生成语义条件 $\mu_{\mathrm{tgt}}$,并以标准高斯噪声 $x_{\mathrm{tgt}}(0)\sim\mathcal{N}(0,I)$ 为起点,通过前向Euler步进,生成完整的目标mel谱 $m_{\mathrm{tgt}}$。 ...

2026-04-20

Beyond Monologue: Interactive Talking-Listening Avatar Generation with Conversational Audio Context-Aware Kernels

📄 Beyond Monologue: Interactive Talking-Listening Avatar Generation with Conversational Audio Context-Aware Kernels #音视频 #扩散模型 #多模态模型 #数据集 #全双工交互 🔥 评分:9.0/10 | arxiv 👥 作者与机构 第一作者:Yuzhe Weng (翁宇哲),中国科学技术大学 (USTC) 通讯作者:Jun Du (杜俊),中国科学技术大学 (USTC),邮箱:jundu@ustc.edu.cn 其他作者: Haotian Wang (王浩天),中国科学技术大学 (USTC) Xinyi Yu (余欣怿),中国科学技术大学 (USTC) Xiaoyan Wu (吴晓燕),科大讯飞 (iFLYTEK) Haoran Xu (徐浩然),科大讯飞 (iFLYTEK) Shan He (何山),科大讯飞 (iFLYTEK) 💡 毒舌点评 亮点:用“多尺度高斯核注意力”这个优雅的数学工具,把“看口型”和“懂语境”这两个打架的脑区给整合到一个模型里了,思路清晰又有效。槽点:虽然建模了上半身反应,但离生成真正富有表现力的、带手势的全身交互动作还有距离,算是给未来挖了个大坑。 📌 核心摘要 本文旨在解决从单向“独白”式虚拟人生成迈向自然“全双工”交互式生成的核心挑战。核心问题在于,现有方法要么因严格的帧对齐而反应僵硬,要么因引入全局注意力而破坏唇同步。关键方法是提出一个基于多头高斯核(MHGK)的统一注意力架构,该机制通过为不同的注意力头分配从窄到宽的高斯分布感受野,使模型能同时学习精细的唇形对齐(窄感受野)和长程的对话上下文(宽感受野)。此外,论文构建了双流架构以处理同步的说话与聆听音频,并引入任意位置引导训练策略以提升长视频生成的稳定性。为支撑研究,还构建了大规模、音视频解耦的对话数据集VoxHear(1206小时)。主要发现表明,该方法在唇同步精度、身份保持、视觉质量和用户感知自然度等多个维度上均显著优于现有技术。实际意义在于为构建能理解对话上下文并做出自然反应的下一代交互式数字人提供了坚实的技术框架和数据基础。局限性在于目前主要聚焦于上半身反应,对更复杂全身姿态和手势的生成能力有待探索。 🏗️ 模型架构 本模型是一个基于流匹配(Flow Matching) 和扩散Transformer(DiT) 的端到端视频生成框架,旨在根据一张参考肖像图、一段说话音频和一段聆听音频,生成对应的交互式视频。 整体流程: 输入:参考图像 I_ref,说话音频序列 A_talk,聆听音频序列 A_listen。 音频编码与注入: 使用预训练的Wav2Vec 2.0编码器提取两路音频的多层特征。 设计独立的自适应音频Q-Former(Talking和Listening分支各一个)对音频特征进行压缩和跨模态对齐。每个Q-Former在时间窗口内使用可学习的查询(Queries)通过交叉注意力聚合音频特征。这允许两路音频自适应地融合不同层次的语义信息,并为分类器自由引导(CFG)生成更平滑的无条件嵌入。 编码后的音频特征通过3D时空交叉注意力注入到视频潜在表示中,使用1D旋转位置编码(RoPE) 保持时序对齐。 核心注意力机制 - 多头高斯核(MHGK): 在计算视频与音频的交叉注意力时,为每个注意力头 h 引入一个高斯时序偏置矩阵 B^(h)。 该矩阵 B^(h)(i, j) = α_h * (1 - exp(-(i-j)^2 / (2σ_h^2))) 作为距离惩罚项加入注意力分数中。其中 σ_h 控制感受野宽度,α_h 控制惩罚强度。 通过为不同头设置不同的 σ_h,模型能动态分配感受野:σ_h → 0 时,退化为严格局部注意力,确保唇同步;σ_h → ∞ 时,偏置趋近于0,变为全局注意力,用于捕捉上下文语义和情感。 视频生成与解码: 模型基于Wan2.2-5B DiT骨干网络,使用其VAE将视频压缩为潜在表示。 训练目标是最小化流匹配损失:L_FM = E[||v_θ(x_t, t, c) - (x_1 - x_0)||^2],其中 c 包含参考图像和双路音频条件。 推理时,从噪声 x_0 出发,通过求解常微分方程(ODE)逐步去噪得到生成视频 x_1。 训练策略 - 两阶段增量训练: 阶段一(说话优先):仅使用说话音频适配器,在大规模单人说话数据上训练,让模型先掌握精确的唇同步和自然的说话行为。 阶段二(聆听融合):引入聆听音频适配器,在VoxHear数据集上微调,使模型学会在保持说话能力的同时,对聆听音频做出自然的交互反应。 💡 核心创新点 多头高斯核(MHGK)注意力机制: ...

2026-04-20

BlasBench: An Open Benchmark for Irish Speech Recognition

📄 BlasBench: An Open Benchmark for Irish Speech Recognition #语音识别,#基准测试,#低资源,#多语言 ✅ 评分:7.0/10 | arxiv 👥 作者与机构 第一作者:Jyoutir Raj(独立研究者) 通讯作者:John Conway(独立研究者) 其他作者:无 (注:论文中作者均标注为“Independent Researcher”,机构信息未明确给出,根据联系邮箱推断为独立研究者。) 💡 毒舌点评 这篇论文像个严谨的“基准测试工人”,默默给爱尔兰语ASR社区搭好了可复现的评估脚手架,并顺手揭露了Whisper在爱尔兰语上“张嘴就来”的尴尬事实。亮点是工具和数据全开源、分析一针见血;槽点是它本质是个评估框架,离“解决”爱尔兰语ASR问题还差得远,更像是在说“看,问题有多严重,我给你们标出来了”。 📌 核心摘要 这篇论文旨在解决爱尔兰语语音识别(ASR)领域缺乏统一、可靠评估标准的问题。现有工作或基准要么忽略爱尔兰语特有的文本规范(如保留fada变音符号、初始辅音突变),要么在不同数据集和归一化方法下进行,导致结果无法比较。为此,作者提出了BlasBench,一个开放的评估框架,其核心是一个爱尔兰语感知的文本规范化工具,确保评分时保留语言学意义。通过该框架,作者在Common Voice和FLEURS两个爱尔兰语数据集上系统评估了12个涵盖不同架构(Whisper、wav2vec2 CTC、多语言大模型、商业API)的系统。主要发现包括:1)所有测试的Whisper变体均产生超过100%的词错率(WER),表现为严重的插入型幻觉;2)仅在Common Voice上评估会高估模型性能,模型在跨数据集(从Common Voice到FLEURS)时表现出显著的泛化差距;3)当前最佳开源模型(Omnilingual ASR 7B)与商业系统(Azure)及专用系统(ABAIR)之间仍有差距,但主要瓶颈在于数据而非架构。BlasBench通过完全开源工具和数据,为爱尔兰语ASR研究提供了可复现的评估基础。 🏗️ 模型架构 本论文不提出新的模型架构,而是构建一个评估现有模型的框架。 因此,其“架构”指的是评估流程。 整体输入输出流程: 输入:16kHz的爱尔兰语音频。 模型推理:音频被送入待评估的ASR模型(如Whisper, wav2vec2, Azure API),模型输出原始文本(hypothesis)。 爱尔兰语规范化:将模型输出的原始文本和数据集提供的参考文本(reference)同时送入爱尔兰语感知的规范化器。该规范化器是框架的核心组件,其内部逻辑为:首先应用NFC规范化以确保元音上的尖角符(fada)不被移除;然后保留文本中的初始辅音突变(lenition)和鼻化(eclipsis)标记,这些是语法的关键信息。 评分:对规范化后的参考文本和假设文本计算全局词错率(WER)和字符错率(CER),通过汇总所有句子的替换、插入、删除错误总数除以参考文本总词数得到。 置信区间:通过自助法(bootstrap)重采样(1000次,固定种子42)计算WER的95%置信区间。 关键设计选择:采用全局聚合(corpus-level)WER计算而非句子平均,以避免短句偏差;提供逐句预测结果和详细元数据,确保评估完全可审计和可复现。 💡 核心创新点 爱尔兰语感知的文本规范化工具:是什么:一个首次发布的、独立的开源工具,专门用于爱尔兰语ASR评估,在文本规范化过程中保留fada、初始辅音突变和鼻化等语言学关键特征。之前的方法:通用多语言规范化器会剥离这些特征,导致错误率被人为扭曲。如何解决问题:通过定制的NFC优先处理和保留特定语法标记的规则,确保评分反映真实的识别错误。效果:为爱尔兰语ASR提供了可靠、可复现的评分基础。 跨数据集、跨架构的标准化评估框架:是什么:一个包含双数据集(Common Voice, FLEURS)、多模型(12个系统,4个家族)、统一评估流程的开放基准。之前的方法:各研究使用不同数据版本、不同规范化器、不同模型子集,结果无法比较。如何解决问题:固定评估切片、统一规范化、发布所有预测结果,使任何新模型都能直接对比。效果:首次在相同条件下量化了不同技术路线的性能差距和泛化能力。 揭示Whisper在爱尔兰语上的灾难性失败与幻觉问题:是什么:通过实验明确证明所有测试的Whisper变体在爱尔兰语上WER超过100%,错误主要由大量与输入无关的插入(如输出英语、威尔士语或重复循环)构成。之前的方法:可能仅报告高WER,未系统分析错误类型。如何解决问题:通过详细的错误类型分解(S/I/D)和输出样例分析(见附录C),揭示这是解码器“幻觉”而非简单的声学误识别。效果:警示社区不能盲目依赖大型多语言模型,并指出了模型语言偏好先验过强的严重问题。 量化单数据集评估的误导性与泛化差距:是什么:通过对比模型在Common Voice(分布内)和FLEURS(分布外)上的表现,发现仅在Common Voice上微调的模型在FLEURS上性能暴跌33-43个百分点,而大规模多语言预训练模型仅下降7-10点。之前的方法:多数工作仅在单一数据集上报告结果。如何解决问题:强制使用双数据集评估,直接暴露模型泛化能力的差异。效果:证明了“Common Voice分数高估实际部署性能”,强调了跨数据集评估的必要性。 🔬 细节详述 评估数据集: Common Voice 25.0 ga-IE:874条社区录制的朗读语音测试语句。 FLEURS ga-IE:842条专业录制的母语者朗读语音测试语句。 两个数据集的评估切片已固定并发布。 评估流程细节: 规范化:核心是爱尔兰语规范化器。流程为:原始文本 -> NFC规范化(保留fada) -> 保留初始辅音突变和鼻化标记 -> 小写化、去除标点、合并空白(通用步骤)。 评分:使用全局WER/CER。公式:WER = (S + I + D) / N_ref,其中S, I, D分别为总替换、插入、删除错误数,N_ref为参考文本总词数。 置信区间:自助法,1000次重采样,种子42。 被评估系统详情: Whisper系列:medium (769M), large-v2 (1.5B), large-v3 (1.5B), large-v3-turbo (809M)。均为零样本(未声称包含爱尔兰语训练数据)。 wav2vec2 CTC系列:4个在Common Voice上微调的社区模型(如Aditya3107/xls-r-1b, jimregan/xlsr-53等),参数量315M-1B。 Meta多语言系列:MMS-1B-All (1107语言),Omnilingual ASR (omniASR) 300M和7B参数版本(覆盖1600+语言)。 商业系统:Microsoft Azure Speech Services (ga-IE locale)。 运行环境:开源模型在单张NVIDIA H100 80GB SXM上运行,约6 GPU小时。Azure通过API调用。 📊 实验结果 主要指标对比(Common Voice ga-IE): ...

2026-04-20

Discrete Token Modeling for Multi-Stem Music Source Separation with Language Models

📄 Discrete Token Modeling for Multi-Stem Music Source Separation with Language Models #音乐分离, #自回归模型, #大语言模型, #音频大模型 ✅ 评分:7.0/10 | arxiv 👥 作者与机构 第一作者/通讯作者:彭博吕 (Pengbo Lyu) (阿里巴巴通义应用业务组,中国) 其他作者: 赵翔宇 (Xiangyu Zhao) (阿里巴巴通义应用业务组,中国) 刘成伟 (Chengwei Liu) (阿里巴巴通义应用业务组,中国) 闫浩音 (Haoyin Yan) (阿里巴巴通义应用业务组,中国) 梁晓涛 (Xiaotao Liang) (阿里巴巴通义应用业务组,中国) 王宏宇 (Hongyu Wang) (阿里巴巴通义应用业务组,中国) 薛少飞 (Shaofei Xue) (推断,根据邮箱mullerxue@126.com,可能为独立研究者或与阿里巴巴合作) 💡 毒舌点评 亮点:成功把“分离”这个传统的“信号复原”问题,包装成了“生成”问题,用上了时髦的大语言模型,思路清奇,算是在音频领域给LLM找到了一个新“乐子”。 槽点:处理鼓点这种“快准狠”的声音还是不行,暴露了自回归模型“慢工出细活”的本质短板;更尴尬的是,训练用的“标准答案”(伪标签)还是隔壁BS-RoFormer模型生成的,有种“用老师教学生,还怪学生超不过老师”的黑色幽默。 📌 核心摘要 本文提出了一种用于多轨音乐源分离的生成式框架,其核心创新在于将分离任务重新定义为条件离散令牌生成问题。传统方法直接在时频域估计连续信号,而本文方法首先利用HCodec神经音频编解码器将音频波形转换为离散的声学与语义令牌序列。然后,一个基于Conformer的条件编码器从混合音频中提取特征,作为解码器-only大语言模型(LLaMA架构) 的条件前缀。该语言模型以自回归的方式,按照固定顺序(人声、鼓、贝斯、其他)依次生成四个目标轨道的令牌序列,最后由HCodec解码器重构为波形。在MUSDB18-HQ基准上的实验表明,该生成方法在整体感知质量(ViSQOL)上接近顶尖的判别式方法(如BS-RoFormer),并且在人声轨道的NISQA感知质量评分上取得了最高分(2.50)。消融研究证实了可学习Conformer编码器和顺序跨轨道生成策略的有效性。然而,该方法在处理具有尖锐瞬态的鼓组时性能存在差距,且依赖于其他模型的伪标签进行训练,这限制了其性能上限。 🏗️ 模型架构 该框架是一个端到端的条件生成系统,包含三大核心组件,其完整流程如下: 输入:48kHz单声道混合音频波形 x_mix。 条件特征提取: 组件:基于Conformer的条件编码器。 流程:首先对 x_mix 进行STFT(FFT大小2048,跳跃长度960),计算120维的log-Mel频谱图 M。然后,M 被送入一个8层、12头注意力、深度卷积核大小为31的Conformer编码器,并使用旋转位置嵌入。输出为混合特征 F_mix,最后通过一个线性适配器层投影至语言模型的隐藏维度。 作用:为语言模型提供关于混合音频的紧凑、高层次的条件表示。 离散音频令牌化: 组件:双路径神经音频编解码器 HCodec(参数冻结)。 流程:HCodec包含声学路径(处理STFT频谱)和语义路径(处理冻结的HuBERT特征),两者均输出12.5Hz帧率的特征。每个路径独立使用16层、码本大小为1024的残差矢量量化(RVQ)进行量化,分别得到声学令牌 c^a 和语义令牌 c^s。为便于语言建模,两者沿时间轴交织:[c0^a, c0^s, c1^a, c1^s, ...]。 作用:将连续音频波形转换为离散的令牌序列,这是生成式建模的基础。 自回归令牌生成: 组件:基于LLaMA架构的解码器-only Transformer(16层,16头注意力,隐藏维度2048)。 输入序列:x = [<mix>, F_mix, S, c^(1), S, c^(2), S, c^(3), S, c^(4)]。其中 <mix> 是起始标记,S 是每个轨道共享的开始令牌,c^(k) 是第k个轨道的交织令牌序列。轨道顺序固定为:人声、鼓、贝斯、其他。 输出序列:y = [c^(1), E, c^(2), E, c^(3), E, c^(4), E]。E 是共享的结束令牌,用于分隔轨道。 作用:语言模型学习在给定混合条件 F_mix 和已生成令牌的历史 y_<t 的条件下,预测下一个令牌 y_t 的概率分布。通过自回归方式,模型在单次前向传播中顺序生成所有四个轨道的令牌。 输出重构:生成的离散令牌序列被解交织回声学和语义令牌,然后送入冻结的HCodec解码器,重构出四个分离的音频波形。 关键设计选择理由: ...

2026-04-20