语音/音频论文速递 2026-04-19
共分析 42 篇论文
⚡ 今日概览
📥 抓取 42 篇 → 🔬 深度分析完成
🏷️ 热门方向
| 方向 | 数量 | 分布 |
|---|---|---|
| #音频理解 | 12篇 | ████████████ |
| #基准测试 | 10篇 | ██████████ |
| #音频大模型 | 9篇 | █████████ |
| #多模态模型 | 7篇 | ███████ |
| #信号处理 | 6篇 | ██████ |
| #强化学习 | 6篇 | ██████ |
| #自监督学习 | 6篇 | ██████ |
| #大语言模型 | 5篇 | █████ |
📊 论文评分排行榜(42 篇,按分数降序)
📋 论文列表
🥇 ControlFoley: Unified and Controllable Video-to-Audio Generation with Cross-Modal Conflict Handling
🔥 9.2分 | #音频生成 #多模态模型 #扩散模型 #基准测试 | arxiv
👥 作者与机构
- 第一作者:Jianxuan Yang(小米 MiLM Plus)
- 通讯作者:Jian Luan(小米 MiLM Plus)
- 其他作者:
- Xinyue Guo(小米 MiLM Plus)
- Zhi Cheng(小米 MiLM Plus,武汉大学)
- Kai Wang(小米 MiLM Plus,武汉大学)
- Lipan Zhang(小米 MiLM Plus)
- Jinjie Hu(小米 MiLM Plus)
- Qiang Ji(小米 MiLM Plus)
- Yihua Cao(小米 MiLM Plus)
- Yihao Meng(小米 MiLM Plus,武汉大学)
- Zhaoyue Cui(小米 MiLM Plus,武汉大学)
- Mengmei Liu(小米 MiLM Plus)
- Meng Meng(小米 MiLM Plus) (所有作者均来自“Xiaomi LLM Core Team”或“MiLM Plus, Xiaomi Inc.”,部分作者有武汉大学的联合署名)
💡 毒舌点评
亮点:这篇论文精准地抓住了当前视频到音频生成领域的两大痛点——“文本说啥视频不听”和“参考音频带节奏还抢戏”,并给出了系统性的解决方案,尤其是提出的VGGSound-TVC基准,简直是给“视觉霸权”模型们准备的“照妖镜”。
槽点:方法虽然精巧,但本质上是“堆料”的艺术——双视觉编码器、多模态对齐损失、复杂的训练策略,对算力和数据的需求不低,感觉是在用“钞能力”解决“控制力”问题,小团队复现起来可能要掉头发。
📌 核心摘要
本文提出了ControlFoley,一个统一且可控的视频到音频生成框架,旨在解决现有方法在跨模态冲突下文本控制力弱、以及参考音频控制中音色与时间信息纠缠的问题。其核心贡献包括:1)提出联合视觉编码范式,结合CLIP和CAV-MAE-ST编码器,增强文本在语义冲突时的控制权威;2)设计时间-音色解耦策略,通过抑制参考音频中的时间信息、保留音色特征,实现精准的音色控制;3)采用模态鲁棒训练方案,通过随机模态丢弃和统一表示对齐(REPA)损失,确保模型在任意模态缺失下的稳定性能;4)构建了首个专门评估文本可控性的基准VGGSound-TVC,量化不同语义冲突程度下的控制效果。实验表明,ControlFoley在文本引导、文本控制和音频控制三个核心视频到音频任务上均达到最先进水平,尤其在跨模态冲突下展现出优越的可控性和同步性,并与工业级系统相比具有竞争力。
🥈 ClariCodec: Optimising Neural Speech Codes for 200bps Communication using Reinforcement Learning
🔥 9.0分 | #语音识别 #强化学习 #生成模型 | arxiv
👥 作者与机构
第一作者:Junyi Wang(清华大学,华为技术有限公司) 通讯作者:Zengrui Jin(清华大学),Chao Zhang(清华大学) 其他作者:Chi Zhang(清华大学),Jing Qian(华为技术有限公司),Haifeng Luo(华为技术有限公司),Hao Wang(华为技术有限公司)
💡 毒舌点评
亮点是把强化学习“硬塞”进了语音编码的量化环节,用WER当奖励信号,在200bps的极限压榨下还把清晰度拉高了13%,思路很野。槽点是模型参数量(301M)对于卫星/水下通信这种“寸资源寸金”的场景可能还是太“胖”了,而且非流式架构带来的延迟问题在论文里只提了一嘴,算是留了个“未来工作”的经典坑。
📌 核心摘要
这篇论文旨在解决卫星、水下等极端带宽受限场景下(如200bps)语音通信清晰度严重下降的问题。传统编解码器以波形重建为目标,在超低比特率下会将宝贵的比特分配给不必要的声学细节,而非核心语义信息。为此,作者提出了ClariCodec,一个采用两阶段训练的神经语音编解码器。第一阶段使用改进的有限标量量化(iFSQ)和可逆层归一化(ILN)进行基于重建的预训练,建立稳定的离散表示。核心创新在于第二阶段:作者将量化过程重新表述为一个随机策略,并利用强化学习(GRPO算法)以词错率(WER)的负值作为奖励信号,直接对编码器进行微调,以优化语义保留能力,同时冻结解码器和声码器以保持声学质量。实验表明,即使在无RL的第一阶段,ClariCodec在LibriSpeech测试集上已取得3.68%的WER,具有竞争力;经过RL优化后,WER进一步降至3.20%(测试集清洁子集)和8.93%(测试集其他子集),实现了约13%的相对提升,且感知质量(UTMOS)未受损,性能超越了数倍于其比特率(如400bps)的基线模型。
🥉 X-VC: Zero-shot Streaming Voice Conversion in Codec Space
🔥 9.0分 | #语音转换 #零样本 #流式处理 #自监督学习 | arxiv
👥 作者与机构
第一作者:Qixi Zheng (上海交通大学) 通讯作者:Xie Chen (上海交通大学,上海创新研究院) 其他作者:
- Yuxiang Zhao (上海交通大学)
- Tianrui Wang (天津大学)
- Wenxi Chen (上海交通大学,上海创新研究院)
- Kele Xu (复杂与关键软件环境国家重点实验室)
- Yikang Li (上海创新研究院)
- Qinyuan Chen (复旦大学,上海创新研究院)
- Xipeng Qiu (复旦大学,上海创新研究院)
- Kai Yu (上海交通大学)
💡 毒舌点评
亮点:这篇论文最大的亮点是“化繁为简”,把复杂的零样本语音转换问题巧妙地“塞”进了一个预训练好的神经编解码器(SAC)的潜在空间里,用一步转换就搞定了,既避免了传统分析-合成管线的繁琐,又天然支持流式处理,RTF低得惊人。槽点:模型严重依赖一个高质量的、特定的编解码器(SAC),这相当于把“转换”这个核心难题的部分压力转移给了“重建”,有点“站在巨人肩膀上摘苹果”的意思;此外,539M的参数量对部署场景的硬件要求可不低。
📌 核心摘要
这篇论文旨在解决零样本语音转换中高保真说话人迁移与低延迟流式推理难以兼得的核心挑战。作者提出了X-VC系统,其核心创新在于在预训练神经编解码器(SAC)的潜在空间中进行一步式语音转换,而非直接在波形或梅尔频谱图上操作。该方法通过一个双条件声学转换器,联合建模来自源语音的编解码器潜在表征(内容)和来自目标参考语音的帧级声学条件(梅尔谱)及句级说话人嵌入(身份),实现了对目标说话人细粒度和全局特征的有效利用。为减少训练与推理的不匹配,论文设计了基于生成配对数据和角色分配策略(标准、重建、反转模式)的训练范式。实验表明,X-VC在Seed-TTS-Eval基准测试中,在英语和中文的流式词错率(WER) 上取得最佳,同时在同语种和跨语种场景下保持了强大的说话人相似度(SIM),其离线实时因子(RTF) 远低于基线模型(0.014),证明了编解码器空间一步转换方案在构建高质量低延迟零样本语音转换系统中的实用性。
4 Why Your Tokenizer Fails in Information Fusion: A Timing-Aware Pre-Quantization Fusion for Video-Enhanced Audio Tokenization
🔥 9.0分 | #多模态 #音频理解 #知识蒸馏 #音频大模型 | arxiv
👥 作者与机构
第一作者:Xiangyu Zhang(新南威尔士大学电气工程与电信学院;杜比实验室,悉尼) 通讯作者:Julien Epps(新南威尔士大学电气工程与电信学院)(推断,作为最后作者及机构负责人) 其他作者:
- Benjamin John Southwell(杜比实验室,悉尼)
- Siqi Pan(杜比实验室,悉尼)
- Xinlei Niu(杜比实验室,悉尼)
- Beena Ahmed(新南威尔士大学电气工程与电信学院)
💡 毒舌点评
亮点:论文像一位严谨的侦探,系统性地“破案”了多模态融合在离散音频分词器中导致重建质量下降的元凶——融合位置和优化目标冲突,并给出了“预量化融合”和“知识蒸馏”这两把关键“凶器”。槽点:实验部分虽然扎实,但读起来像在啃一本厚重的实验手册,部分描述(如梯度分析)略显冗长,且主要聚焦于视频-音频融合,对其他模态组合的泛化性探讨不足,有点“偏科”。
📌 核心摘要
这篇论文深入探讨了在端到端音频语言模型中,将视觉信息融入音频分词器时普遍存在的“理解提升但重建质量下降”的核心矛盾。作者通过系统性实验,揭示了三个关键发现:融合位置(在量化前还是量化后)至关重要;在离散分词器中,知识蒸馏比对比学习更有效;基于时间轴的动态融合优于静态特征融合。基于此,论文提出了时间感知预量化融合(TAPF) 方法,这是首个能在集成视觉信息的同时,保持高保真音频重建质量的方案。实验表明,TAPF不仅维持了重建保真度,还在下游音频理解任务(如AVQA)上显著优于单模态音频分词器和现有多种多模态融合基线,特别是在低比特率(高压缩)场景下,展现了8倍的token效率提升。
5 Hijacking Large Audio-Language Models via Context-Agnostic and Imperceptible Auditory Prompt Injection
🔥 8.8分 | #音频安全 #音频大模型 #对抗样本 #多模态模型 | arxiv
👥 作者与机构
- 第一作者:Meng Chen(浙江大学,ZJU-MUSLAB)
- 通讯作者:Tianwei Zhang(新加坡国立大学,School of Computing)
- 其他作者:
- Kun Wang(浙江大学,ZJU-MUSLAB)
- Li Lu(浙江大学,ZJU-MUSLAB)
- Jiaheng Zhang(香港中文大学,Department of Computer Science & Engineering)
- Kun Wang(阿里云,Alibaba Cloud)(注:论文PDF中作者列表有两位Kun Wang,根据机构推断一位来自ZJU-MUSLAB,另一位来自阿里云)
💡 毒舌点评
亮点:论文首次系统性地研究了针对音频大语言模型(LALM)的“间接”音频提示注入攻击,问题定义精准(数据-only访问、用户在环),并提出了一个通用且有效的攻击框架AudioHijack。槽点:攻击框架严重依赖对目标模型的白盒访问(知道架构和参数),这在现实世界中可能是一个重大限制;此外,虽然提出了多种防御策略,但它们的有效性有限,论文在“如何有效防御”这一更关键的问题上着墨相对较少。
📌 核心摘要
这篇论文揭示了针对音频大语言模型(LALM)的一种新型安全威胁:上下文无关且不可感知的音频提示注入攻击。攻击者仅需篡改输入音频数据(如会议录音、音乐片段),即可在用户不知情的情况下,劫持模型行为,使其执行恶意指令(如发送邮件、下载文件、传播错误信息)。为实现这一目标,作者提出了AudioHijack框架,它通过基于采样的梯度估计解决了音频分词不可微的问题,实现了端到端的对抗音频优化;通过注意力引导的上下文泛化技术,使攻击能泛化到未知的用户指令上下文;并设计了卷积扰动混合方法,将对抗扰动模拟为自然的混响效果,极大提升了攻击的隐蔽性。实验表明,AudioHijack在13个主流LALM上平均攻击成功率高达79%-96%,并成功对Mistral AI和Microsoft Azure的商业语音代理实施了攻击。该研究暴露了音频-文本模态融合中的根本性安全漏洞,为LALM的安全设计提供了重要警示。
6 UniPASE: A Generative Model for Universal Speech Enhancement with High Fidelity and Low Hallucinations
🔥 8.5分 | #语音增强 #生成模型 #自监督学习 #多语言 | arxiv
👥 作者与机构
第一作者:Xiaobin Rong (南京大学,现代声学研究所,NJU-Horizon智能音频实验室;地平线机器人,NJU-Horizon智能音频实验室) 通讯作者:Jing Lu (南京大学,现代声学研究所,NJU-Horizon智能音频实验室;地平线机器人,NJU-Horizon智能音频实验室) 其他作者:
- Zheng Wang (南京大学,现代声学研究所,NJU-Horizon智能音频实验室;地平线机器人,NJU-Horizon智能音频实验室)
- Yushi Wang (南京大学,现代声学研究所,NJU-Horizon智能音频实验室;地平线机器人,NJU-Horizon智能音频实验室)
- Jun Gao (南京大学,现代声学研究所,NJU-Horizon智能音频实验室;地平线机器人,NJU-Horizon智能音频实验室)
💡 毒舌点评
亮点:这篇论文精准地抓住了当前生成式语音增强的“阿喀琉斯之踵”——幻觉问题,并提出了一个优雅且有效的解决方案。它没有盲目追求感知分数的虚高,而是通过引入“音素先验锚定”和显式声学增强阶段,在生成质量与内容保真度之间取得了令人信服的平衡,其赢得URGENT 2026挑战赛便是最好的证明。 槽点:模型架构的“全家桶”式堆叠(DeWavLM-Omni + Adapter + Vocoder + PostNet)虽然有效,但显得有些“笨重”,计算成本(79.2 GMACs/s)和训练复杂度(分四阶段训练)可能阻碍其在资源受限场景下的实时应用。此外,多速率支持依赖于后处理的PostNet,而非端到端设计,略显“补丁”感。
📌 核心摘要
这篇论文旨在解决通用语音增强(USE)中生成模型面临的“高感知质量”与“低内容幻觉”难以兼得的核心矛盾。作者提出了UniPASE框架,它扩展了其先前的低幻觉PASE模型,以处理包括噪声、混响、丢包、风噪等在内的多种失真,并支持多采样率输入输出。其核心方法是构建一个两阶段生成流程:首先,利用基于WavLM知识蒸馏的DeWavLM-Omni模块,在音素表征层面进行核心增强,利用预训练模型的音素先验来抑制语言幻觉;其次,引入一个**适配器(Adapter)模块,以增强后的音素表征为条件,对退化的声学表征进行显式增强,以恢复细节并提升感知质量;最后,通过声码器(Vocoder)合成16kHz波形,并由后置网络(PostNet)**上采样至48kHz以支持高采样率输出。实验表明,UniPASE在多个基准测试(DNS 2020, PLC 2024, VoiceFixer GSR, URGENT 2025)上取得了SOTA或极具竞争力的性能,特别是在保持低字错误率(WER/CER)和说话人相似度(SpkSim)的同时,获得了优异的非侵入式感知分数(如UTMOS, NISQA),验证了其高保真、低幻觉的特性。其局限性在于模型结构复杂、计算开销大,且多速率处理依赖于后处理模块而非端到端设计。
7 VoxSafeBench: Not Just What Is Said, but Who, How, and Where
🔥 8.5分 | #基准测试 #语音大模型 #音频理解 #音频安全 | arxiv
👥 作者与机构
- 第一作者:无法从摘要中明确判断
- 通讯作者:无法从摘要中明确判断
- 其他作者:Yuxiang Wang, Hongyu Liu, Yijiang Xu, Qinke Ni, Li Wang, Wan Lin, Kunyu Feng, Dekun Chen, Xu Tan, Lei Wang, Jie Shi, Zhizheng Wu
- 注:所提供的论文摘要中未包含任何作者所属机构信息。根据要求,无法从联系邮箱、致谢等处进行推断,故仅列出作者姓名。
💡 毒舌点评
这篇论文的亮点在于它敏锐地抓住了语音大模型(SLM)从“玩具”走向“工具”时必须面对的残酷现实:话不能只听内容,还得看谁说、怎么说、在哪儿说。它设计的“双层评估框架”像一把精准的手术刀,剖开了当前模型在语音情境理解上的虚胖——感知能力在线,但“社会智商”掉线。槽点嘛,就是它主要是个“体检报告”而非“药方”,指出了病灶(语音接地鸿沟)但没开药,而且依赖于现有模型的感知能力作为评估前提,如果感知本身就不准,结论就得打个问号。
📌 核心摘要
这篇论文旨在解决一个关键问题:当语音大模型(SLM)进入多用户共享环境时,仅基于文本内容的安全对齐策略是不足的,说话人身份、副语言特征和声学场景等音频上下文信息会根本性地改变请求的性质。为此,作者提出了VoxSafeBench,这是一个首个联合评估SLM在安全、公平和隐私三个社会维度对齐能力的基准测试。其核心方法是采用“双层设计”:Tier1使用文本和音频匹配的输入评估内容中心风险;Tier2则聚焦于音频条件风险,即文本转录无害但正确响应依赖于声学线索的场景。通过设计中间感知探针,作者验证了前沿SLM能够检测相关声学线索,但仍然无法据此做出恰当的社会性响应。主要发现是,在22个双语任务上,模型在纯文本中表现出的鲁棒安全护栏,在语音场景下显著退化:对于说话人和场景条件的风险安全意识下降,当人口差异通过声音传达时公平性受损,当上下文线索通过声音传递时隐私保护失效。这揭示了普遍存在的“语音接地鸿沟”。该工作的实际意义在于为评估和改进SLM在实际复杂声学环境中的社会智能提供了关键的诊断工具和衡量标准。
8 Who is Speaking or Who is Depressed? A Controlled Study of Speaker Leakage in Speech-Based Depression Detection
🔥 8.5分 | #语音生物标志物 #说话人识别 #领域适应 #基准测试 | arxiv
👥 作者与机构
第一作者:Hsiang-Chen Yeh(约翰霍普金斯大学,临床心理健康咨询系) 通讯作者:Berrak Sisman(约翰霍普金斯大学,语言与语音处理中心) - 推断,基于其资深作者位置及联系邮箱 sisman@jhu.edu 其他作者:
- Luqi Sun(约翰霍普金斯大学,语言与语音处理中心)
- Aurosweta Mahapatra(约翰霍普金斯大学,语言与语音处理中心)
- Shreeram Suresh Chandra(约翰霍普金斯大学,语言与语音处理中心)
- Emily Mower Provost(密歇根大学安娜堡分校)
💡 毒舌点评
亮点是狠狠戳破了语音抑郁检测领域“90%+准确率”的皇帝新衣,用一个极其简单却控制严密的实验设计,揭示了所谓“抑郁声学标志物”很大程度上只是“说话人身份特征”的华丽伪装。槽点在于,论文提出的“解药”——领域对抗训练(DANN)——疗效甚微,更像是一个诊断工具而非解决方案,最后只能无奈呼吁“请进行严格的说话人独立评估”,这多少有点把问题抛回给社区的感觉。
📌 核心摘要
这篇论文的核心贡献在于系统性地揭示并量化了语音抑郁症检测模型中普遍存在的“说话人身份泄露”问题。作者指出,当前许多报告高准确率的模型,其性能可能严重依赖于对说话人身份(声纹)的记忆,而非对抑郁相关声学生物标志物的泛化学习。为证明这一点,他们提出了一种新颖的、控制训练集大小不变的“说话人重叠控制数据划分法”,并在DAIC-WOZ数据集上,对从简单到复杂的三种模型架构(Wav2Vec线性探测、XLSR-eGeMAPS拼接、Wav2Vec-SLS)进行了严格评估。实验结果一致表明:当训练集与测试集存在说话人重叠时,模型准确率虚高(例如,微调Wav2Vec模型达97.65%);而在严格的说话人独立设置下,性能急剧下降(同一模型降至58.74%)。即使引入领域对抗神经网络(DANN)试图剥离身份信息,性能差距依然巨大。该研究强烈建议,未来的语音抑郁检测研究必须采用严格的说话人独立评估范式,以真实反映模型的临床应用潜力。
9 ProSDD: Learning Prosodic Representations for Speech Deepfake Detection against Expressive and Emotional Attacks
🔥 8.5分 | #语音伪造检测 #对比学习 #预训练 #自监督学习 | arxiv
👥 作者与机构
第一作者:Aurosweta Mahapatra(约翰霍普金斯大学,语言与语音处理中心 (CLSP)) 通讯作者:Berrak Sisman(约翰霍普金斯大学,语言与语音处理中心 (CLSP)),Nicholas Andrews(约翰霍普金斯大学,语言与语音处理中心 (CLSP))(根据联系邮箱和致谢推断) 其他作者:
- Ismail Rasim Ulgen(约翰霍普金斯大学,语言与语音处理中心 (CLSP))
- Kong Aik Lee(香港理工大学)
💡 毒舌点评
亮点:这篇论文的“脑回路”很清奇,不教模型去死记硬背伪造品的长相,而是先让它闭关修炼,通过“听”大量真实语音来内化人类说话时抑扬顿挫的“气韵”(韵律)。这种“先学正道,再辨邪魔”的思路,确实比单纯刷题(拟合伪造数据)高明不少,在面对情感丰富的“影帝级”伪造语音时,表现出了惊人的韧性。 槽点:不过,这套“两阶段修炼法”听起来就挺费算力的,训练步骤繁琐,而且为了“气韵”修炼,还得额外准备一个韵律编码器和说话人嵌入模型,系统复杂度直线上升。最让人嘀咕的是,论文里对“韵律不一致”的具体定义和建模方式,感觉还有点“玄学”,可解释性有待加强。
📌 核心摘要
这篇论文旨在解决当前语音深度伪造检测(SDD)系统在面对富有表现力和情感的合成语音攻击时泛化能力不足的核心问题。现有方法过度依赖伪造数据,容易学习数据集特定的伪影,而非自然语音的可迁移特征。为此,作者提出了ProSDD,一个创新的两阶段框架。第一阶段,模型仅使用真实语音,通过一个受监督的掩码预测任务,学习以说话人身份为条件的韵律变化(基于音高、语音活动和能量),从而内化自然语音的韵律多样性。第二阶段,模型在欺骗分类任务中,将上述韵律预测任务作为辅助监督目标进行联合优化,以保持对韵律结构的敏感性。实验表明,ProSDD在ASVspoof 2019和2024基准上均优于基线模型,尤其在表达性数据集(如EmoFake和EmoSpoof-TTS)上实现了显著的性能提升(例如,将ASVspoof 2024的EER从25.43%降至16.14%)。该研究证明了显式建模自然语音韵律变异性对于提升SDD系统泛化能力的关键作用。其局限性可能在于对韵律特征的依赖,以及两阶段训练带来的额外计算开销。
10 MoshiRAG: Asynchronous Knowledge Retrieval for Full-Duplex Speech Language Models
🔥 8.5分 | #语音对话系统 #音频大模型 #大语言模型 #流式处理 | arxiv
👥 作者与机构
第一作者:Chung-Ming Chien (Kyutai, 推断) 通讯作者:论文未明确标注,根据机构和工作内容推断为 Alexandre Défossez 或 Chung-Ming Chien (Kyutai) 其他作者:
- Manu Orsini (Kyutai, 推断)
- Eugene Kharitonov (Meta FAIR, 推断)
- Neil Zeghidour (Google DeepMind, 推断)
- Karen Livescu (纽约大学, 推断)
- Alexandre Défossez (Kyutai, 推断)
注:论文正文未直接列出作者机构,但根据作者邮箱后缀(@kyutai.org, @meta.com, @google.com, @nyu.edu)及致谢内容推断。
💡 毒舌点评
亮点:巧妙地将RAG“塞进”了全双工语音对话的严格时间缝隙里,实现了“边说边查”的真人感,技术路线设计得很优雅。槽点:整个系统依赖大量合成数据训练和复杂的多模块协作(ASR+LLM检索+语音模型),像一台精密但脆弱的瑞士钟表,实际部署和维护成本恐怕不低。
📌 核心摘要
本文提出了MoshiRAG,这是首个集成检索增强生成功能的全双工语音语言模型。要解决的问题是全双工语音模型在保持实时交互性的同时,事实准确性不足的挑战。核心方法是基于Moshi模型,设计了一个异步检索框架:前端全双工模型在遇到知识密集型查询时预测一个特殊的检索触发词<ret>,随后在继续与用户对话的同时,后台异步调用基于文本的检索系统(如LLM或搜索引擎)获取参考资料;利用语音响应中“关键词延迟”的自然时间差(即从开始说话到说出关键信息的时间),在关键内容生成前将检索到的信息注入模型。主要发现显示,MoshiRAG在多项问答基准测试上显著提升了事实准确性(如在TriviaQA上从22.8%提升至73.7%),性能可媲美甚至超越多数非全双工语音模型,同时保持了全双工系统低延迟、高交互性的优势。此外,系统展现出良好的泛化能力,在未见过的数学推理任务上也取得不错效果。实际意义在于为构建更可靠、知识更丰富的实时语音AI助手提供了一条可行路径。局限性在于目前依赖合成数据进行训练,且系统复杂度较高。
11 Four Decades of Digital Waveguides
🔥 8.5分 | #音频生成 #信号处理 #实时处理 | arxiv
👥 作者与机构
- 第一作者:Pablo Tablas de Paula(推断:可能为英国伦敦大学金史密斯学院或相关机构,论文未明确提供机构信息)
- 通讯作者:Joshua D. Reiss(英国伦敦大学金史密斯学院, Centre for Digital Music)
- 其他作者:Julius O. Smith(美国斯坦福大学, CCRMA - 中心计算机研究用于声学与音乐研究),Vesa Välimäki(芬兰阿尔托大学, 艺术、设计与建筑学院)
注:以上机构信息基于该领域知名学者的常见隶属关系及论文作者公开信息推断。提供的论文摘要中未包含明确的机构列表。
💡 毒舌点评
亮点是作为一篇“编年史”式的综述,它清晰梳理了数字波导这一经典而高效的物理建模技术四十年的演进脉络,特别是将其与现代机器学习优化方法结合的前沿方向,为老牌技术注入了新活力。槽点在于,对于一篇旨在“深度分析”的论文请求,这篇摘要本身提供的信息过于概括,缺乏具体模型细节、实验数据和对比结果,更像是一个邀请你阅读全文的“预告片”,而非完整的技术报告。
📌 核心摘要
这篇论文旨在全面回顾数字波导物理建模技术自诞生以来四十年的发展历程、核心应用与最新进展。它要解决的核心问题是,如何在保证物理模拟准确性的同时,实现声波传播模拟的高效计算,以满足实时音频处理(如虚拟乐器、混响)的需求。论文阐述了数字波导的核心方法,即利用延迟线和滤波器构建的高效网络来模拟行波,并对比了其与通用有限差分法在计算效率上的巨大优势。主要发现包括,数字波导技术已成功应用于乐器合成、人声建模和人工混响等多个领域,并且通过结合经典的、进化的以及新兴的神经网络优化方法(如可微分数字信号处理),其参数优化能力得到了显著增强,使其能更灵活地匹配目标声学特性。实际意义在于,该技术为实时、高保真的物理建模音频应用提供了坚实的理论基础和实践工具。局限性在于,作为一篇综述,它并未提出全新的波导结构,而是侧重于总结和整合现有技术,且对最新机器学习优化方法的讨论可能尚处初步阶段。
12 Audio-Cogito: Towards Deep Audio Reasoning in Large Audio Language Models
🔥 8.5分 | #音频大模型 #多模态模型 #自监督学习 #知识蒸馏 | arxiv
👥 作者与机构
第一作者:Longhao Li (西北工业大学,计算机科学学院,音频、语音与语言处理组 (ASLP@NPU)) 通讯作者:Lei Xie (西北工业大学,计算机科学学院,ASLP@NPU),Yongxiang Li (西北工业大学,计算机科学学院,ASLP@NPU) (根据论文中提供的联系邮箱推断) 其他作者:
- Hongjie Chen (中国电信人工智能研究院 (TeleAI))
- Zehan Li (西北工业大学,计算机科学学院,ASLP@NPU)
- Qihan Hu (西北工业大学,计算机科学学院,ASLP@NPU)
- Jian Kang (西北工业大学,计算机科学学院,ASLP@NPU)
- Jie Li (中国电信人工智能研究院 (TeleAI))
💡 毒舌点评
亮点:这篇论文最亮眼的是其“全开源”的承诺和“自蒸馏”策略,构建了一个从数据到模型的完整音频推理解决方案,直接挑战了依赖闭源API(如Gemini)的“捷径”做法,为社区提供了宝贵的可复现基准。槽点:然而,讽刺的是,其评估体系的核心——MMAR基准测试的“评分细则(rubric)”——仍然依赖闭源的Gemini 2.5 Pro生成,这使得其“超越闭源模型”的结论在评估公正性上存在一丝“用对手的尺子量自己”的微妙尴尬。
📌 核心摘要
这篇论文旨在解决大型音频语言模型(LALMs)在复杂音频推理任务上能力不足且依赖昂贵闭源数据的问题。作者提出了一个名为Audio-Cogito的全开源解决方案,其核心是Cogito-Pipe——一个四阶段自动化数据构建流水线,用于生成高质量、多样化的音频推理链(CoT)数据。该流水线通过整合多源音频元数据、利用模型自身进行自蒸馏生成推理轨迹,并辅以质量验证,最终构建了一个包含54.5万个样本的大规模开源数据集。基于此数据集,作者采用自蒸馏策略对基座模型(Qwen3-Omni-Thinking)进行微调。实验表明,Audio-Cogito在专门评估推理过程的MMAR基准测试上,取得了开源模型中的最佳性能,平均准确率达71.70%,甚至在部分指标上超越了Gemini 2.0 Flash等闭源系统,同时其推理链的质量(Rubrics Score 62.22%, CRS 0.87)也得到显著提升。该工作为推动音频模态的深度、可解释推理提供了重要的开源资源和方法论参考。
13 An Ultra-Low Latency, End-to-End Streaming Speech Synthesis Architecture via Block-Wise Generation and Depth-Wise Codec Decoding
🔥 8.5分 | #语音合成 #端到端 #流式处理 #实时处理 | arxiv
👥 作者与机构
- 第一作者:Tianhui Su
- 通讯作者:Yannick Estève(推断,通常末位作者为通讯作者)
- 其他作者:Tien-Ping Tan, Salima Mdhaffar, Aghilas Sini
- 所属机构:论文摘要中未明确列出作者所属机构。根据论文类别(eess.AS)和作者姓名推测,可能来自法国某大学或研究机构的语音处理实验室,如利勒大学(Université de Lille)的计算机科学实验室(CRIStAL)或类似机构。(推断)
💡 毒舌点评
这篇论文的亮点在于它巧妙地“绕过”了传统语音合成中又慢又容易糊的神经声码器,直接去生成高度压缩的音频“密码本”(离散编码),从而实现了闪电般的合成速度,延迟低到人类几乎感觉不到。槽点嘛,就是论文对训练细节的描述有点“惜字如金”,比如具体用了多少数据、损失函数怎么加权的都没说清楚,这让想复现的同行们有点抓狂。
📌 核心摘要
这篇论文旨在解决实时交互式语音合成中推理延迟高与声学质量(尤其是高频细节)易受损的核心矛盾。传统流水线依赖计算密集的神经声码器进行波形重建,且基于连续回归的声学模型易导致频谱过平滑。为此,作者提出了一种端到端、非自回归的新架构。其核心方法是:直接建模Mimi神经音频编码器的离散潜在空间(32层残差向量量化,RVQ),并采用一种渐进式深度顺序解码策略。该架构以修改版的FastSpeech 2为主干,动态地自回归地生成这些离散编码码,避免了传统自回归模型的时序开销。实验在英语和马来语数据集上验证了其语言通用性。主要发现是,与传统的连续回归模型(FastSpeech 2 + HiFi-GAN)相比,该方法在基频准确性和高频频谱质量上均有提升,并实现了10.6倍的绝对加速,其首字节时间(TTFB)延迟仅为48.99毫秒,远低于人类感知阈值。这使其成为部署超低延迟流式语音交互界面的有力候选方案。
14 Listen, Pause, and Reason: Toward Perception-Grounded Hybrid Reasoning for Audio Understanding
🔥 8.5分 | #音频理解 #强化学习 #大语言模型 #音频大模型 | arxiv
👥 作者与机构
第一作者:Jieyi Wang (上海AI实验室,北京大学) 通讯作者:Yazhe Niu (CUHK MMLab) 其他作者:Dexuan Xu (北京大学),Zhongyu Wei (复旦大学)
💡 毒舌点评
亮点:论文的“PAUSE” token设计很巧妙,它让模型在遇到听不清、分不清的“声音玄学”时,能先“闭嘴琢磨一下”再回答,模仿了人类“想一想再说”的认知过程,这是对现有音频大模型推理机制的一个有趣补充。槽点:整个框架的“仪式感”太强,从数据构建到两阶段训练再到复杂的奖励函数,工程复杂度拉满,但最终在部分指标上的提升幅度,相对于其付出的计算和开发成本,性价比有待商榷,且PAUSE机制带来的推理延迟是实打实的。
📌 核心摘要
本文旨在解决大型音频语言模型在复杂音频场景中因感知错误导致的推理失败问题。受听觉场景分析启发,作者提出了一个感知接地的混合推理框架。首先,他们构建了一个名为PAQA的新数据集,通过层次化解耦策略(区分语音与环境音、分离不同说话人)为模型提供显式的感知推理训练。在此基础上,提出了HyPeR框架,它包含两个阶段:第一阶段通过监督微调让模型学习结构化的显式感知与反思;第二阶段利用基于GRPO的强化学习,并引入特殊的<PAUSE> token来触发隐式潜在推理,以处理难以用语言描述的声学线索。实验表明,HyPeR在多个音频理解基准测试上显著降低了感知错误,性能可与更大规模的模型相媲美,验证了混合感知-推理方法的有效性。其主要局限性在于<PAUSE>机制增加了训练和推理延迟,且PAQA数据集的规模和领域覆盖仍有待扩展。
15 Geo2Sound: A Scalable Geo-Aligned Framework for Soundscape Generation from Satellite Imagery
🔥 8.5分 | #音频生成 #多模态模型 #基准测试 #数据集 | arxiv
👥 作者与机构
第一作者:Kunlin Wu(香港科技大学(广州)) 通讯作者:根据论文署名和致谢信息,推测通讯作者可能为 Xiaofeng Liu(香港科技大学(广州)),论文中未明确标注。 其他作者:
- Yanning Wang(香港科技大学(广州))
- Haofeng Tan(南卡罗来纳大学,美国)
- Boyi Chen(香港科技大学(广州))
- Teng Fei(坎特伯雷大学,新西兰)
- Xianping Ma(西南交通大学,中国)
- Yang Yue(香港科技大学(广州))
- Zan Zhou(北京邮电大学,中国)
- Xiaofeng Liu(香港科技大学(广州))
💡 毒舌点评
亮点:这篇论文想象力爆棚,硬是把“看卫星图猜声音”这个看似不着边际的想法,做成了一个有模有样的系统任务,还搭了个大规模数据集,属实是“跨模态整活”的典范。槽点:方法上有点“拼积木”的意思,依赖现成的视觉模型、语言模型和音频生成模型,自己核心的“对齐”模块虽然巧妙但略显单薄,像是在给一堆大佬打补丁,创新性更多体现在任务定义和工程整合上。
📌 核心摘要
这篇论文提出了一个名为 Geo2Sound 的新任务和框架,旨在从卫星图像生成地理上一致且逼真的声音景观。要解决的问题是现有图像到音频模型在处理自上而下的卫星视图时面临三大挑战:缺乏结构化地理语义、一对多的声学歧义以及缺乏更广泛的地理空间上下文。方法上,它设计了一个三阶段流水线:首先通过轻量级分类器将卫星图像聚类并总结为紧凑的地理属性(如植被覆盖率、建筑密度);然后利用大语言模型为同一场景生成多个声学上合理的文本描述(语义假设扩展),并用文本到音频模型生成对应的候选音频;最后训练一个地理-声学对齐模块,将地理属性投影到音频嵌入空间,从候选集中选择与地理环境最匹配的音频。主要发现是,该框架在自建的 SatSound-Bench 基准(包含超过2万对数据)上取得了SOTA性能,FAD指标达到1.765,比最强基线提升50%,并在人类评估的真实性、语义对齐和沉浸感方面均获得显著提升。实际意义在于为城市规划、数字孪生和虚拟现实等应用提供了一种可扩展的、从视觉数据生成环境声音的新方法。局限性在于方法依赖外部预训练模型(VLM, T2A),且数据收集和对齐的有效性高度依赖于地理属性与声音关联的假设。
16 SpotSound: Enhancing Large Audio-Language Models with Fine-Grained Temporal Grounding
🔥 8.5分 | #音频理解 #音频事件检测 #音频大模型 #基准测试 | arxiv
👥 作者与机构
第一作者:Luoyi Sun(浙江大学,上海人工智能实验室) 通讯作者:Weidi Xie(上海交通大学,上海人工智能实验室) 其他作者:
- Xiao Zhou(上海人工智能实验室,上海交通大学)
- Zeqian Li(上海人工智能实验室,上海交通大学)
- Ya Zhang(上海人工智能实验室,上海交通大学)
- Yanfeng Wang(上海人工智能实验室,上海交通大学)
💡 毒舌点评
亮点:这篇论文的“时间戳交错序列”设计堪称“暴力美学”,直接把时间戳文本硬塞进音频Token序列里,让大语言模型像读句子一样“读”出时间,思路简单粗暴但异常有效。槽点:合成数据管道虽然巧妙,但用VGGSound配“Walking Tours”背景音,总感觉像是在录音棚里模拟“菜市场”,离真正的复杂声学场景还有点距离;另外,模型对“狗叫”这种瞬态声音的定位精度(见失败案例),似乎还不如它对“男人说话”这种持续性声音的把握来得稳。
📌 核心摘要
本文旨在解决大型音频语言模型在细粒度音频事件时间定位上的不足。现有模型因训练数据缺乏精确时间戳、基准测试过于简单,导致在长音频中定位短暂事件(“大海捞针”)时表现不可靠。为此,作者提出了SpotSound框架,其核心创新在于:1)设计了时间戳交错序列,将绝对时间戳文本与音频特征交错输入LLM,提供显式的时间对齐信号;2)引入了抗幻觉训练目标,通过构建包含正负样本的判别式四元组,强制模型先判断事件是否存在,再进行定位,有效抑制了对不存在事件的幻觉定位。同时,论文构建了SpotSound-Bench基准,其中目标事件仅占音频总长的8.4%,模拟了真实的“稀疏事件定位”挑战。实验表明,SpotSound在多个时间定位基准上达到了最先进水平,并在标准的音频事件检测任务上保持了强泛化能力。
17 Beyond Transcription: Unified Audio Schema for Perception-Aware AudioLLMs
🔥 8.5分 | #音频理解 #统一音频模型 #强化学习 #音频大模型 | arxiv
👥 作者与机构
第一作者:Linhao Zhang(腾讯微信AI,基础模型技术中心) 通讯作者:推断为 Houfeng Wang(北京大学计算机科学学院,多媒体信息处理国家重点实验室)和 Xiao Zhou(腾讯微信AI,基础模型技术中心),基于资深作者位置及实验室负责人身份。 其他作者:
- Yuhan Song(北京大学计算机科学学院,多媒体信息处理国家重点实验室)
- Aiwei Liu(腾讯微信AI,基础模型技术中心)
- Chuhan Wu(腾讯微信AI,基础模型技术中心)
- Sijun Zhang(腾讯微信AI,基础模型技术中心)
- Wei Jia(腾讯微信AI,基础模型技术中心)
- Yuan Liu(腾讯微信AI,基础模型技术中心)
💡 毒舌点评
亮点:这篇论文精准地抓住了当前音频大模型“高推理、低感知”的痛点,并一针见血地指出病根在于ASR(语音识别)的“填鸭式”教学——只教认字,不教听话。他们提出的“统一音频模式”就像给模型配了一副“助听器”,强制它去听语气、听环境,效果立竿见影。 槽点:方法虽好,但“药方”(训练数据)全靠其他模型“合成”,虽然做了人工验证,但终究是“二手信息”,长期来看可能限制模型感知能力的上限。另外,论文主要在高资源语言(中英文)上验证,对于方言或低资源语言的效果还是个问号。
📌 核心摘要
这篇论文旨在解决当前音频大语言模型(AudioLLMs)在细粒度声学感知任务上表现不佳的核心问题。作者指出,主流的以自动语音识别(ASR)为中心的训练范式,通过将音频映射到纯文本转录,系统性地丢弃了副语言学(如情感、语调)和非语言声学事件信息,导致模型成为“语言巨人,听觉矮子”。为此,他们提出了一种统一音频模式(UAS),这是一种结构化的JSON表示,将音频信息显式分解为“转录”、“副语言学”和“非语言事件”三个部分,从而在训练中保留完整的声学线索。基于UAS,作者构建了可扩展的自动数据生成流水线,并训练了UAS-Audio模型。实验表明,UAS-Audio在MMSU基准的感知任务上取得了**10.9%**的绝对性能提升,同时保持了强大的推理能力,并在多个音频理解与生成基准上达到领先水平。该研究证明了通过结构化监督来丰富训练信号,是提升AudioLLMs综合能力的有效途径。
18 CoSyncDiT: Cognitive Synchronous Diffusion Transformer for Movie Dubbing
🔥 8.5分 | #语音克隆 #扩散模型 #流匹配 #多模态 | arxiv
👥 作者与机构
第一作者:Gaoxiang Cong(推测,因其在作者列表中排首位,且为论文主要工作贡献者) 通讯作者:Qingming Huang(推测,因其为资深作者,且通常通讯作者在最后)
- 其他作者及机构:
- Gaoxiang Cong, Liang Li, Jiaxin Ye, Zhedong Zhang, Hongming Shan:中国科学院计算技术研究所(Institute of Computing Technology, Chinese Academy of Sciences)/ 中国科学院大学(University of Chinese Academy of Sciences)
- Yuankai Qi:复旦大学(Fudan University)
- Qingming Huang:中国科学院计算技术研究所 / 杭州电子科技大学(Hangzhou Dianzi University) / 麦考瑞大学(Macquarie University)
💡 毒舌点评
亮点:把配音演员“听-看-说”的认知过程拆解成模型的三阶段流水线,这个思路相当优雅,不仅解决了特征早期纠缠的问题,还让复杂的对齐任务变得模块化、可解释。槽点:论文里“认知同步”、“渐进式引导”这类高大上的词汇层出不穷,但核心的JSAR机制本质上还是对比学习+CTC损失的“老三样”,创新包装大于内核突破。另外,号称完全消除外部对齐工具依赖,但训练时却用上了预训练的AV-HuBERT,这算不算一种“隐形”的依赖呢?
📌 核心摘要
本文针对电影配音(视觉语音克隆)中音色保真度与唇形同步难以兼得的痛点,提出了一种基于流匹配的认知同步扩散Transformer(CoSyncDiT)框架。该方法受专业配音员认知过程启发,将噪声到语音的生成过程解耦为三个顺序阶段:声学风格适应、细粒度视觉校准和时间感知上下文对齐,从而渐进式地引导生成轨迹,避免了早期多模态特征干扰。为进一步稳定训练并提升对齐精度,作者设计了联合语义与对齐正则化(JSAR)机制,在中间上下文输出上施加帧级对比学习以强化时间一致性,在最终隐藏状态上施加CTC损失以保障语义正确性。在多个标准数据集及具有挑战性的“野外”场景下的实验表明,CoSyncDiT在说话人相似度、发音清晰度、情感相似度和音视频同步等关键指标上均取得了当前最佳性能,尤其在零样本和跨领域设定下展现出卓越的鲁棒性。
19 Diffusion Language Models for Speech Recognition
🔥 8.5分 | #语音识别 #扩散模型 #大语言模型 | arxiv
👥 作者与机构
- 第一作者:Davyd Naveriani (推断为RWTH Aachen University)
- 通讯作者:Albert Zeyer (推断为RWTH Aachen University)
- 其他作者:Ralf Schlüter (RWTH Aachen University), Hermann Ney (RWTH Aachen University)
- 机构推断:所有作者均来自德国亚琛工业大学(RWTH Aachen University)的计算机科学系,具体为Human Language Technology and Pattern Recognition (HLTPR) 课题组。论文中未直接标注机构,但根据论文作者一贯的归属以及arXiv上该团队的历史论文可以明确推断。
💡 毒舌点评
亮点:把当下火热的扩散模型从图像领域“跨界”应用到语音识别的文本重打分上,思路新颖,并且很务实地设计了结合传统CTC的混合解码方法,不是为了用扩散而用扩散。槽点:创新更多在于“应用”和“组合”,而非提出全新的扩散模型架构;作为一篇方法论论文,实验部分在摘要中略显单薄,缺乏具体的数字支撑其“显著提升”的结论。
📌 核心摘要
这篇论文探索了将扩散语言模型(DLM)应用于自动语音识别(ASR)任务的新方法。其核心目标是利用扩散模型的双向注意和并行生成能力,来提升基于传统编码器(如CTC)生成的ASR候选假设的准确性。论文主要贡献包括:1)系统性地介绍了如何将掩码扩散语言模型(MDLM)和均匀状态扩散模型(USDM)用于ASR假设的重打分(Rescoring);2)创新性地提出了一种CTC与USDM的联合解码(Joint-Decoding)方法,在解码的每一步融合CTC的帧级声学概率分布与USDM的标签级语言概率分布,从而生成兼具声学与强大语言先验知识的新候选。实验表明,这两种扩散模型都能显著提升识别文本的准确率。该研究为将前沿的生成式语言模型整合到成熟的语音识别 pipeline 中提供了实用的指南和新的混合解码范式。
20 WavAlign: Enhancing Intelligence and Expressiveness in Spoken Dialogue Models via Adaptive Hybrid Post-Training
🔥 8.5分 | #语音对话系统 #强化学习 #端到端 #多模态模型 | arxiv
👥 作者与机构
第一作者:Yifu Chen(浙江大学) 通讯作者:Zhou Zhao(浙江大学) 其他作者:Shengpeng Ji(浙江大学),Qian Chen(阿里巴巴通义团队),Tianle Liang(浙江大学),Yangzhuo Li(浙江大学),Ziqing Wang(北京工业大学),Wen Wang(阿里巴巴通义团队),Jingyu Lu(浙江大学),Haoxiao Wang(浙江大学),Xueyi Pu(浙江大学),Fan Zhuo(浙江大学)
- 备注:论文注明 Yifu Chen 和 Shengpeng Ji 贡献相等(These authors contributed equally)。所有作者单位包括:浙江大学、阿里巴巴通义团队、北京工业大学。
💡 毒舌点评
亮点:这篇论文精准地“诊断”出了当前端到端语音对话模型在应用强化学习时“水土不服”的核心病灶——语义和声学的优化目标在统一序列层面相互冲突、梯度能量严重失衡,并开出了一剂“模态分离、动态混合”的有效“处方”。槽点:方法虽然巧妙,但严重依赖一个外部、强大的奖励模型(Gemini-2.5-Pro)来提供信号,这不仅成本高昂,其稳定性和泛化能力本身也存疑,相当于把自家模型的“指挥权”交给了别人。此外,代码和模型权重未开源,让“复现”变成了一个玄学问题。
📌 核心摘要
这篇论文旨在解决端到端语音对话模型在智能(IQ)和表达力(EQ)上难以同时提升的核心挑战。作者发现,直接对混合文本-语音序列应用统一的偏好优化(如DPO、GRPO)会导致问题:稀疏的偏好信号被淹没在密集的语音token中,造成梯度能量失衡(文本梯度主导),并引发声学分布漂移和自然度下降。为此,论文提出了一种自适应混合后训练框架(WavAlign)。其核心思想是分工协作:使用监督微调(SFT)作为“锚”来稳定和维持语音的自然度与可行性;同时,仅对文本token应用偏好优化(GRPO)来精炼语义智能。更进一步,设计了一个轻量级动态门控机制,根据rollout样本的质量(是否存在可接受样本)和区分度(奖励方差)自适应地调整SFT与偏好优化的混合权重,确保只在偏好信号可靠时进行更新。实验在VITA和KimiAudio两种架构上进行,跨越多个基准测试,结果表明该方法在语义质量和语音表达力上均取得了一致且显著的提升。
21 AVID: A Benchmark for Omni-Modal Audio-Visual Inconsistency Understanding via Agent-Driven Construction
🔥 8.5分 | #多模态模型 #基准测试 #音视频 #音频大模型 | arxiv
👥 作者与机构
- 第一作者:Zixuan Chen(上海交通大学)
- 通讯作者:Tanfeng Sun,Xinghao Jiang(上海交通大学,根据论文作者顺序及常见通讯作者标注习惯推断)
- 其他作者:
- Depeng Wang(蚂蚁集团)
- Hao Lin(香港中文大学)
- Li Luo(上海交通大学)
- Ke Xu(上海交通大学)
- Ya Guo(蚂蚁集团)
- Huijia Zhu(蚂蚁集团)
💡 毒舌点评
这篇论文的亮点在于它敏锐地抓住了当前多模态大模型在“理解矛盾”而非“理解对齐”上的短板,并为此量身打造了一个大规模、系统化的测试基准,堪称给模型们做了一次“大家来找茬”的专项体检。槽点在于其“构造”不一致性的方法虽然巧妙且可控,但过于依赖外部大模型(Gemini)进行策略规划,且注入的“矛盾”在自然度上可能与真实世界的复杂矛盾仍有差距,有点像在实验室里精心布置的“找茬游戏”考场。
📌 核心摘要
这篇论文旨在解决当前全模态大模型在音视频不一致性理解能力上缺乏系统性评估的问题。现有基准要么只关注音视频对齐事件,要么局限于检测深度伪造中的低级伪影,无法评估模型对长视频中语义级矛盾的理解。为此,作者提出了AVID,首个大规模音视频不一致性理解基准。其核心方法是构建了一个可扩展的流水线:首先将视频按“有声有脸”、“有声无脸”、“无声有景”进行时序分割,然后利用一个由Gemini驱动的策略智能体为每个片段规划最合适的矛盾注入类型(共8类),最后通过五个专门的注入器(如时间偏移、语义矛盾、身份修改等)生成不一致视频。基于此,他们构建了包含11.2K长视频(平均235.5秒)、39.4K个已标注矛盾事件和78.7K个片段的数据集。实验表明,现有顶尖模型(包括Gemini 3.1 Pro)在时间定位和细粒度推理上存在显著不足。作者还微调了一个基线模型AVID-Qwen,其在时间定位(mIoU: 36.1% vs 26.2%)和整体理解(SODA-m: 7.47 vs 6.15)上超越了所有对比模型,验证了该基准的有效性。
22 SpeakerRPL v2: Robust Open-set Speaker Identification through Enhanced Few-shot Foundation Tuning and Model Fusion
🔥 8.3分 | #说话人识别 #少样本 #数据增强 #迁移学习 | arxiv
👥 作者与机构
- 论文作者:Zhiyong Chen, Shuhang Wu, Yingjie Duan, Xinkang Xu, Xinhui Hu
- 机构信息:论文全文未明确标注作者所属机构。根据作者姓名、研究内容及开源仓库(GitHub)信息推断,作者可能来自**小米(Xiaomi)**或相关研究机构。论文中提及的“Xiaomi LLM Core Team”可能为相关团队,但未在作者单位中直接列出。
- 第一作者/通讯作者:无法从提供的文本中明确判断第一作者和通讯作者。论文中注明“Zhiyong Chen and Shuhang Wu contributed equally.”(贡献均等)。
💡 毒舌点评
亮点:这篇论文将“对数归一化”(LogitNorm)和“对抗性互惠点学习”(SpeakerRPL)这两个强大的开集学习技术进行了“联姻”,并巧妙地加入了“自适应锚点”来动态建模未知说话人,理论上有板有眼。更实在的是,它承认了少样本微调的不稳定性,并用一套基于特征分布均匀性的模型选择与融合策略来“稳住局面”,最终在Vox1-O*测试集上将EER暴降93%,效果惊人。
槽点:方法听起来像是在已有技术上做“排列组合”加“工程优化”(模型融合与选择),原创性的理论突破有限。此外,模型选择策略依赖于特征相似矩阵的特征值方差,这个指标的普适性和调参敏感性在论文中论证得不够充分,更像是一个为特定实验“量身定做”的后处理技巧。
📌 核心摘要
本文旨在解决开放集说话人识别中的鲁棒性问题,即系统在仅有少量目标说话人注册样本的情况下,需同时准确识别已知说话人并可靠拒识未知说话人。作者在先前SpeakerRPL V1框架基础上提出了三项关键改进:1)设计了一个增强的损失函数,将互惠点学习(RPL)与对数归一化(LogitNorm)相结合,并引入自适应锚点学习,以约束目标说话人表征并提升对未知分布的建模能力;2)提出了一种模型融合策略,通过聚合多个随机初始化训练得到的适配器模型的分数,来稳定少样本微调过程,减少结果随机性;3)设计了一个基于特征分布均匀性(通过中心点和互惠点相似矩阵的特征值方差衡量)的自动模型选择策略,以筛选出最适合融合的候选模型。在VoxCeleb、3D-Speaker和ESD等多个数据集上的实验表明,该方法在各项开集识别指标上均优于基线。特别是在新构建的Vox1-O*测试集上,等错误率(EER)从1.28%降至0.09%,相对降低约93%,验证了方法的有效性和鲁棒性。其局限性在于模型选择策略增加了流程复杂性,且对中文等方言场景的验证尚可进一步扩展。
23 Towards Fine-grained Temporal Perception: Post-Training Large Audio-Language Models with Audio-Side Time Prompt
🔥 8.3分 | #音频理解 #音频事件检测 #音频大模型 #强化学习 | arxiv
👥 作者与机构
第一作者:Yanfeng Shi(中国科学技术大学,语音及语言信息处理国家工程研究中心) 通讯作者:Lirong Dai(中国科学技术大学,语音及语言信息处理国家工程研究中心),Yan Song(中国科学技术大学,语音及语言信息处理国家工程研究中心) 其他作者:
- Pengfei Cai(中国科学技术大学,语音及语言信息处理国家工程研究中心)
- Jun Liu(中国科学技术大学,语音及语言信息处理国家工程研究中心)
- Qing Gu(中国科学技术大学,语音及语言信息处理国家工程研究中心)
- Nan Jiang(中国科学技术大学,语音及语言信息处理国家工程研究中心)
- Ian McLoughlin(新加坡科技学院,ICT Cluster)
💡 毒舌点评
亮点在于巧妙地将“时间戳”伪装成一种特殊的“语言令牌”塞进音频特征序列里,让模型像读句子一样“读”出时间坐标,再用强化学习直接对齐音频事件检测的黄金指标,思路清晰且有效。槽点是这方法有点“取巧”,时间提示的窗口(0-30秒)和分辨率(0.04秒)是硬编码的,遇到更长或需要更高精度的音频就抓瞎,而且强化学习那套调参和训练效率的“玄学”问题,论文里轻描淡写了。
📌 核心摘要
这篇论文旨在解决大型音频语言模型(LALM)在细粒度时间感知(如精确定位声音事件的起止时间)上的不足。作者提出了TimePro-RL框架,其核心是两步走策略:首先,提出音频侧时间提示(ASTP),将时间戳编码为特殊令牌并交织插入音频特征序列中,为模型提供明确的物理时间坐标;其次,在监督微调(SFT)后,引入基于强化学习(RL) 的后训练阶段,并设计了一种自适应时间奖励机制(结合事件F1分数和连续辅助奖励如mIoU),直接优化模型的时间对齐性能。实验表明,该方法在音频定位、声音事件检测和密集音频描述三个任务上,相比多种基线模型取得了显著提升,尤其在高精度时间定位指标上优势明显。局限性在于时间提示的范围和分辨率固定,且RL训练增加了复杂度。
24 Room compensation for loudspeaker reproduction using a supporting source
🔥 8.2分 | #音频分类 #声学场景分析 #信号处理 #空间音频 | arxiv
👥 作者与机构
第一作者:James Brooks-Park(奥尔登堡大学声学组 & “Hearing4all”卓越集群) 通讯作者:Steven van de Par(奥尔登堡大学声学组 & “Hearing4all”卓越集群)- 推断,基于其在作者列表中的最后位置及领域惯例 其他作者:
- Søren Bech(Bang & Olufsen A/S 研究部,奥尔堡大学电子系统系)
- Jan Østergaard(奥尔堡大学电子系统系)
💡 毒舌点评
亮点:巧妙利用“哈斯效应”(优先效应)和辅助声源,实现了对直达声与混响声比例的独立控制,这是传统房间均衡技术无法做到的,为高保真音响系统的房间补偿开辟了新思路。槽点:主观听音测试的样本量(8人)偏小,且均为声学专家,结论的普适性有待商榷;提出的滤波器设计在低频区域因相位相互作用仍存在性能瓶颈,离“完美补偿”还有距离。
📌 核心摘要
本文针对传统房间补偿技术仅能修正频谱(音色)而无法控制空间感知(如距离感)的局限,提出了一种创新的补偿方法。该方法通过引入一个延迟的、经过频谱滤波的辅助扬声器,选择性地向房间的混响声场中添加能量,从而在修正主扬声器频谱不规则性的同时,能够主动调节直达声与混响声比。关键创新在于利用听觉的“优先效应”将辅助声源隐藏在感知的混响场中,使其不被听为独立的声源。主观听音实验表明,该方法的性能与成熟的商业补偿算法相当,且优于未经补偿的播放和简单的反向滤波。技术分析证实了该方法能有效改变DRR,但客观频谱偏差指标略逊于传统反向滤波,凸显了主观感知与客观测量之间的差异。
25 StreamMark: A Deep Learning-Based Semi-Fragile Audio Watermarking for Proactive Deepfake Detection
🔥 8.2分 | #音频深度伪造检测 #音频安全 #音频取证 #半监督学习 | arxiv
👥 作者与机构
第一作者:Zhentao Liu(根据arXiv页面及GitHub仓库L1uZhentao推断,可能为苏黎世联邦理工学院(ETH Zurich)或相关机构,论文中未明确标注)
通讯作者:Milos Cernak(根据arXiv页面推断,可能为苏黎世联邦理工学院(ETH Zurich)或相关机构,论文中未明确标注)
其他作者:无
- 机构说明:论文全文未提供明确的作者单位信息。根据arXiv提交者信息及开源仓库
L1uZhentao推断,作者可能来自苏黎世联邦理工学院(ETH Zurich) 的计算机科学系或相关实验室。通讯作者Milos Cernak在音频处理领域较为活跃。此处信息为推断,论文中未明确说明。
💡 毒舌点评
亮点是把图像取证里的“半脆弱水印”思想成功移植到音频深度伪造检测,实现了“对良性处理免疫,对恶意篡改过敏”的智能封条,思路清晰且实验验证扎实。槽点在于模拟“恶意变换”仅用了音高偏移,与真实世界中复杂的TTS/VC攻击存在差距,且16比特的水印容量在实际部署中可能略显单薄,更像个概念验证而非工业级方案。
📌 核心摘要
本文针对生成式AI带来的音频深度伪造威胁,提出了一种名为StreamMark的主动防御框架。该框架是一种基于深度学习的半脆弱音频水印系统,其核心创新在于重新定义了水印的目标:不是追求对所有变换的绝对鲁棒,而是被设计为对保持语义的良性变换(如压缩、噪声)保持鲁棒,而对改变语义的恶意篡改(如语音转换、编辑)变得脆弱。方法上,它采用独特的编码器-失真层-解码器架构,将水印嵌入STFT的复数域(实部与虚部),并通过一个包含良性与恶意变换集的失真层进行对抗性训练,使模型学会区分变换的语义属性。实验表明,StreamMark在保持高不可感知性(PESQ 4.20)和对Opus编码等良性变换高鲁棒性(>99.89%)的同时,能有效对抗多种深度伪造攻击:面对TTS、语音转换和编辑攻击时,水印恢复准确率降至随机猜测水平(~50%),而面对良性AI风格转移时,准确率保持在98%以上。该研究为音频真实性认证提供了从被动检测到主动标记的范式转变。
26 From Reactive to Proactive: Assessing the Proactivity of Voice Agents via ProVoice-Bench
🔥 8.2分 | #语音对话系统 #基准测试 #多模态 #数据集 | arxiv
👥 作者与机构
- 第一作者:Ke Xu (推断)
- 通讯作者:Yu Wang (推断)
- 其他作者:Yuhao Wang (推断) (注:论文摘要中未明确列出作者所属机构。根据常见的学术论文作者署名惯例,以上推断基于作者姓名顺序和通讯作者的通常角色。如需准确信息,需查阅论文全文的作者 affiliations 部分。)
💡 毒舌点评
亮点:在“AI会抢话”这个未来人机交互的核心痛点上,率先搭了个擂台(ProVoice-Bench),把“主动性”这个模糊概念拆解成可量化的四个任务,研究方向很有前瞻性。
槽点:实验部分像请了三位武林高手(几个多模态LLM)来打擂,结果发现大家都有点“反应过度”和“想太多”,但论文没深入剖析为啥会这样,也没开源“擂台”本身,让后续挑战者有点无从下手。
📌 核心摘要
本文旨在解决当前语音代理评估中过度关注被动响应,而忽视其主动交互能力的问题。为此,作者提出了首个专门评估主动语音代理的基准测试框架 ProVoice-Bench。该框架包含四个新颖的任务,用以衡量代理在不同场景下的主动介入和监控能力。通过设计一个多阶段数据合成管道,研究团队构建了一个包含1,182个高质量样本的评测数据集。对多个前沿多模态大语言模型的评估结果显示,当前模型在主动语音交互方面存在显著性能差距,主要体现在过度触发(在不必要时主动发言)和推理能力不足两个方面。这项工作不仅揭示了现有模型的局限,也为开发更自然、具备上下文感知能力的主动语音代理指明了具体改进方向。
27 Elastic Net Regularization and Gabor Dictionary for Classification of Heart Sound Signals using Deep Learning
🔥 8.2分 | #音频分类 #时频分析 #信号处理 #音频理解 | arxiv
👥 作者与机构
第一作者:Mahmoud Fakhry(西班牙卡洛斯三世大学,信号理论与通信系;埃及阿斯旺大学,电气工程系) 通讯作者:Ascensión Gallardo-Antolín(西班牙卡洛斯三世大学,信号理论与通信系) 其他作者:无
💡 毒舌点评
亮点:这篇论文的“混搭”思路很有意思,把经典的信号处理工具(Gabor字典、弹性网络)和现代深度学习(CNN-LSTM)结合,像用老式显微镜(稀疏建模)观察细胞(心音),再用最新的AI修图软件(CNN)进行分类,最终效果拔群。槽点:论文的排版和表格格式堪称“灾难”,多个表格数据错位、符号乱码(如98.95 % 98.95\%),严重影响阅读体验;此外,虽然声称“深度学习”,但核心网络结构相对简单,更像是对特征工程工作的验证。
📌 核心摘要
本文旨在解决心音信号(PCG)的多分类问题,以辅助心血管疾病的自动诊断。核心贡献在于提出了一套结合优化Gabor字典和弹性网络正则化的特征提取框架,并与CNN-LSTM深度学习网络相结合。具体而言,作者首先通过系统性地调整Gabor原子的时频分辨率(尺度参数β)和弹性网络的正则化参数(α),为心音信号寻找最优的稀疏表示模型(系数向量a)。然后,将这些系数向量重塑为具有物理意义的2D时间-频率特征矩阵,作为分类网络的输入。实验在包含五种心脏瓣膜疾病的1000条记录数据集上进行,最终提出的“1D+2D CNN-LSTM”网络在ADAM优化器和最优特征(β=2¹,α=0.1)下,取得了**98.95%**的最高分类准确率,显著优于使用原始信号或传统VMD特征的基线方法。该方法的局限性在于数据集规模相对较小,且网络架构的复杂性并未达到当前最深模型的水平。
28 Sky-Ear: An Unmanned Aerial Vehicle-Enabled Victim Sound Detection and Localization System
🔥 8.0分 | #音频事件检测 #声源定位 #麦克风阵列 #自监督学习 | arxiv
👥 作者与机构
第一作者:Yi Hong(香港科技大学(广州),智慧城市与可持续发展研究所,系统枢纽) 通讯作者:从论文中无法明确判断通讯作者。作者列表按顺序排列,Kevin Hung可能为资深作者。 其他作者:
- Mingyang Wang(香港科技大学(广州),智慧城市与可持续发展研究所,系统枢纽)
- Yalin Liu(香港科技大学,电子与计算机工程系)
- Yaru Fu(香港科技大学(广州),智慧城市与可持续发展研究所,系统枢纽)
- Kevin Hung(香港科技大学(广州),智慧城市与可持续发展研究所,系统枢纽)
💡 毒舌点评
亮点:论文提出的“两阶段”处理思路(哨兵+响应者)很务实,直击了无人机载系统能耗与性能的核心矛盾,用轻量级MAE做“警卫”,只在必要时唤醒“专家”进行精确定位,逻辑闭环设计得不错。
槽点:实验部分略显“理想国”,在高度受控的仿真环境下验证,缺乏真实复杂环境(如多风、多干扰源)下的鲁棒性测试,且对比的“SOTA方法”基本是自己系统的消融,说服力打了折扣。
📌 核心摘要
本文针对无人机搜救任务中视觉系统受遮蔽、能耗高的问题,提出了一个名为“Sky-Ear”的音频驱动受害者检测与定位系统。核心方法是设计了一个基于环形麦克风阵列的两阶段处理框架:在“哨兵阶段”,系统利用单通道音频和掩码自编码器(MAE)对梅尔频谱图进行重构,通过计算重构误差来检测异常声音(如呼救),此阶段功耗低,用于持续监听;一旦检测到异常,即触发“响应者阶段”,利用所有麦克风通道进行基于到达时间差(TDoA)的精确方向估计。为进一步提高定位精度,系统还设计了连续定位机制,通过优化无人机沿轨迹多次观测得到的方向向量,交叉计算出受害者的位置。实验表明,在模拟的沙漠和森林场景中,该系统能有效检测受害者声音,并通过多次观测显著降低定位误差。其主要贡献在于将自监督学习(MAE)与经典阵列信号处理相结合,实现了一种在计算和能耗约束下可靠的声学感知方案。
29 Contextual Biasing for ASR in Speech LLM with Common Word Cues and Bias Word Position Prediction
🔥 8.0分 | #语音识别 #语音大模型 #迁移学习 #领域适应 | arxiv
👥 作者与机构
- 第一作者:Sashi Novitasari(推断为论文主要执行者,但论文中未明确标注)
- 通讯作者:George Saon(推断为项目负责人或资深作者,基于其在作者列表中的位置及在Granite-Speech项目中的核心角色)
- 其他作者:Takashi Fukuda, Kurata Gakuto(推断与第一作者同属一个团队)
- 所属机构:论文中未明确标注作者所属机构。但根据论文中使用的核心模型“Granite-Speech”由IBM团队开发,以及作者姓名和常见的研究合作模式,高度推断所有作者均来自IBM研究院(IBM Research)。具体可能涉及IBM的语音与自然语言处理研究部门。
💡 毒舌点评
这篇论文的亮点在于它巧妙地绕开了传统语音上下文偏置对专业G2P(字素到音素)工具的依赖,用“常见词”当“语音拐杖”,让普通用户也能给AI“开小灶”,思路非常接地气且实用。槽点则是实验规模和深度有点“小家子气”,只在英语数据上验证了方法的有效性,对于多语言、超大规模词表的场景能否扛得住,以及“常见词”列表的构建和覆盖度问题,都缺乏更深入的探讨,感觉像是一个完成度很高的原型系统报告。
📌 核心摘要
这篇论文旨在解决语音大模型(SLLM)在识别训练数据中稀有或未见的“偏置词”时性能不佳的问题。传统方法依赖于为偏置词提供精确的音素序列(通过G2P系统生成),但这对用户有专业要求且工具兼容性差。为此,作者提出了一种新颖的基于常见词的语音提示方法:不直接提供音素,而是为每个偏置词关联一个或多个发音部分相似的常见词作为语音线索,用户无需专业知识即可生成。同时,为了增强模型在多种ASR任务(有/无提示)下的鲁棒性,作者设计了一个多任务学习框架,在训练时额外引入一个偏置词位置预测的辅助任务(使用CTC损失),该模块在推理时可移除,不增加计算开销。实验表明,在Granite-Speech模型上,该方法能将偏置词的词错误率(B-WER)相对基线降低最高达16.3%,并且在跨领域数据集上也表现出良好的泛化能力。
30 A Manual Bar-by-Bar Tempo Measurement Protocol for Polyphonic Chamber Music Recordings: Design, Validation, and Application to Beethoven’s Piano and Cello Sonatas
✅ 7.8分 | #音乐信息检索 #音频理解 #信号处理 | arxiv
👥 作者与机构
- 第一作者(推断):Ignasi Sole (ignasiphd@gmail.com) (推断为独立研究者或博士生,论文未明确标注所属机构)
- 通讯作者(推断):Ignasi Sole (ignasiphd@gmail.com)
- 其他作者:Jordi Altayó(KTH皇家理工学院,VLSI设计博士研究员,协议合作开发者)
💡 毒舌点评
这篇论文的亮点在于,当高大上的AI算法在“老破小”的历史录音面前集体翻车时,作者没有硬着头皮调参,而是非常务实地回归了“人肉计算”,并且把这个手动过程包装得极其严谨、透明,甚至比很多黑箱算法还让人信服。槽点则是,在2026年还在主推一个耗时数百小时的手动计时协议,这方法论“复古”得让人梦回上世纪,可扩展性基本为零,堪称音乐分析领域的“手工匠人精神”展演。
📌 核心摘要
本文旨在解决现有自动化节拍提取工具在分析历史复调室内乐录音(特别是贝多芬钢琴与大提琴奏鸣曲)时出现的系统性失败问题。作者与一名VLSI工程师合作,设计并验证了一套形式化的手动逐小节速度测量协议。该协议采用累积时间戳架构,使用数字秒表的圈速功能记录每个小节结束的累积时间,从而计算小节时长与瞬时BPM。其核心优势在于防止误差累积、允许内部自验证(所有小节时长之和必须等于总时长),并能精确捕捉自由速度、延长记号等表情性节奏变化。作者将该协议应用于1930年至2012年间超过100份录音,生成了公开的BPM数据集,并开发了包含tempograph、直方图、山脊图等多类型可视化工具套件。研究表明,在特定条件下,经过严谨设计和误差量化的人工标注方法,其可靠性和对音乐表现力的捕捉能力优于失效的自动化工具。该论文的主要贡献是方法论上的,为处理类似“困难”录音语料提供了可复现的解决方案。
31 Classical Machine Learning Baselines for Deepfake Audio Detection on the Fake-or-Real Dataset
✅ 7.8分 | #音频深度伪造检测 #音频分类 #基准测试 | arxiv
👥 作者与机构
根据提供的论文摘要,作者信息如下: 第一作者:Faheem Ahmad 通讯作者:摘要中未明确标注,需从全文获取。 其他作者:Ajan Ahmed, Masudul Imtiaz
- 机构信息:提供的摘要中未包含任何作者的所属机构、实验室或公司信息。需要从论文全文(如作者 affiliations 部分)或联系邮箱进行推断。此处基于摘要无法判断。
💡 毒舌点评
亮点是用一套经典、可解释的“老派”机器学习流程,系统性地为火热的深度伪造音频检测领域树立了一个扎实的基线,实验设计严谨得像教科书。槽点在于方法论上确实缺乏惊喜,基本是特征工程+传统分类器的“复古风”硬刚,对真实世界复杂多变的伪造技术(如零样本克隆)的泛化能力存疑,更像是一个漂亮的起点而非终点。
📌 核心摘要
本文旨在解决深度伪造音频检测领域缺乏透明、可解释基线的问题。研究团队采用经典机器学习方法,在Fake-or-Real (FoR) 数据集上构建了一个完整的检测流程。他们从高保真(44.1 kHz)和电话音质(16 kHz)的2秒音频片段中,提取了韵律、音质和频谱等多类声学特征,并通过方差分析(ANOVA)和相关性热图等统计方法,识别出真实与伪造语音间的显著差异特征。随后,他们训练了包括逻辑回归、LDA、SVM、GMM在内的多种分类器,并使用准确率、ROC-AUC、等错误率(EER)和DET曲线进行全面评估。实验表明,基于RBF核的SVM在两种采样率下均达到约93%的测试准确率和约7%的EER,而线性模型准确率约为75%。特征分析揭示,音高变化和频谱丰富度(如频谱质心、带宽)是区分真假语音的关键线索。该研究为一个可解释的强基线,有助于未来检测器的设计与评估。
32 Adaptive Test-Time Scaling for Zero-Shot Respiratory Audio Classification
✅ 7.8分 | #零样本 #音频分类 #大语言模型 #自适应推理 | arxiv
👥 作者与机构
- 第一作者:Tsai-Ning Wang(埃因霍温理工大学,Eindhoven Artificial Intelligence Systems Institute)
- 通讯作者:Aaqib Saeed(埃因霍温理工大学,Eindhoven Artificial Intelligence Systems Institute)
- 其他作者:
- Herman Teun den Dekker(伊拉斯姆斯医学中心)
- Lin-Lin Chen(埃因霍温理工大学)
- Neil Zeghidour(Kyutai,法国)
💡 毒舌点评
亮点在于将“测试时计算缩放”这个前沿理念巧妙地引入医疗音频零样本分类,设计了一个优雅的三层“升级打怪”推理流程,让模型能“偷懒”也能“拼命”,在效率和效果间取得了很好的平衡。槽点则是核心框架严重依赖外部预训练模型(AcuLa编码器和Gemini LLM),自身创新集中在推理策略上,有点“站在巨人肩膀上做调度”的感觉,且临床属性系统和规则表的构建需要领域专家参与,通用性存疑。
📌 核心摘要
本文旨在解决零样本呼吸音频分类中“一刀切”的推理计算浪费问题。为此,提出了TRIAGE框架,这是一个三层自适应推理管道:第一层(Tier-L)进行快速的标签-文本相似度匹配;若置信度不足则升级至第二层(Tier-M),通过匹配预定义的临床描述符(如声音特征、位置)并基于规则投票决策;若仍不确定则进入第三层(Tier-H),检索相似病例报告并利用大语言模型进行推理。该框架通过置信度门控动态分配计算资源,使简单样本提前退出,复杂样本获得更多计算。在九个公开数据集上的零样本实验表明,TRIAGE平均AUROC达到0.744,显著优于先前的零样本方法,并在多个任务上匹配甚至超越了监督学习基线。分析显示,性能提升主要集中在难以判断的样本上(相对提升最高达19%),证明了自适应计算在医学音频分析中的有效性。
33 Dual-Axis Generative Reward Model Toward Semantic and Turn-taking Robustness in Interactive Spoken Dialogue Models
✅ 7.8分 | #语音对话系统 #强化学习 #生成模型 #实时处理 | arxiv
👥 作者与机构
- 第一作者(推断):Yifu Chen(阿里巴巴达摩院,语音实验室)
- 通讯作者(推断):Shengpeng Ji(阿里巴巴达摩院,语音实验室)
其他作者:
- Zhengqing Liu(阿里巴巴达摩院,语音实验室)
- Qian Chen(阿里巴巴达摩院,语音实验室)
- Wen Wang(阿里巴巴达摩院,语音实验室)
- Ziqing Wang(阿里巴巴达摩院,语音实验室)
- Yangzhuo Li(阿里巴巴达摩院,语音实验室)
- Tianle Liang(西湖大学,计算机科学系)
- Zhou Zhao(西湖大学,计算机科学系) 注:论文中未明确标注第一作者和通讯作者,以上根据作者顺序和常见惯例推断。机构信息根据作者姓名和领域常识推断,主要来自阿里巴巴达摩院和西湖大学。
💡 毒舌点评
亮点:精准地抓住了当前全双工语音对话模型(SDMs)的“阿喀琉斯之踵”——缺乏可靠的交互质量评估信号,并尝试用强化学习(RL)的框架来破解,思路很有前瞻性。提出的“双轴”评估框架(语义+时序)也直击要害。 槽点:方法的核心——“双轴生成奖励模型”本身听起来像个“裁判AI”,但论文对这个裁判的“大脑”(模型架构)描述得不够“透明”,特别是内部结构和参数细节。实验虽然横跨多个数据集,但规模和多样性是否足以支撑“复杂真实世界交互”的结论,需要打个问号。
📌 核心摘要
本文旨在解决全双工语音对话模型(SDMs)实现类人交互的核心挑战。现有自动化评估指标流于表面(如统计行为或预测时机准确率),无法为强化学习提供可靠的奖励信号,而人工评估成本高昂且难以扩展。为此,作者提出了一个双轴生成奖励模型。该模型基于一个详细的交互质量分类体系和配套的标注数据集进行训练,能够理解复杂的对话动态。其核心创新在于能同时输出一个总体质量分数和对语义质量与交互时机(轮转)的独立评估,从而为SDMs提供精确的诊断反馈和适用于在线强化学习的可靠奖励信号。实验表明,该模型在涵盖合成对话与复杂真实交互的多个数据集上,在交互质量评估任务上达到了当前最优(SOTA)水平。
34 Tora3: Trajectory-Guided Audio-Video Generation with Physical Coherence
✅ 7.8分 | #音频生成 #音视频 #多模态模型 #扩散模型 | arxiv
👥 作者与机构
第一作者:Junchao Liao (阿里巴巴云计算) 通讯作者:Long Qin (阿里巴巴云计算,复旦大学),Weizhi Wang (阿里巴巴云计算) 其他作者:
- Zhenghao Zhang (阿里巴巴云计算)
- Xiangyu Meng (阿里巴巴云计算)
- Litao Li (阿里巴巴云计算)
- Ziying Zhang (阿里巴巴云计算)
- Siyu Zhu (复旦大学)
- 机构信息:主要来自阿里巴巴云计算(具体为阿里云智能集团)和复旦大学。论文未明确标注具体实验室。
💡 毒舌点评
亮点:论文的核心洞察——将稀疏的物体轨迹从单纯的视频控制信号,提升为跨模态共享的“运动学先验”,并以此统一约束视频中的物体运动与音频中的事件时序和强度,这个切入点非常聪明且具有物理直觉,是解决音画不同步“老大难”问题的一次优雅尝试。
槽点:论文在方法描述上过于“学术八股”,把一个直观的想法包裹在复杂的公式和模块命名里(比如“Hybrid Flow Matching”本质上就是区域自适应的噪声调度)。另外,新构建的PAV数据集号称有46万条,但数据清洗和轨迹提取的细节(如CoTracker3在复杂场景下的失败案例)对结果可靠性的影响被一笔带过,有“大力出奇迹”之嫌。
📌 核心摘要
本文针对现有音视频(AV)生成模型中存在的运动不真实、声音与运动事件不同步、声音强度与运动强度不匹配等问题,提出了Tora3框架。其核心创新在于将物体轨迹视为连接视觉与听觉模态的共享运动学先验,而非仅用于控制视频。为实现这一目标,Tora3包含三个关键技术组件:1)轨迹对齐的运动表示,通过在视频潜在空间中直接沿轨迹传播首帧特征来注入运动线索,避免了额外运动编码器的引入;2)运动学-音频对齐模块,从轨迹中推导出位置、速度、加速度等二阶运动学状态,并通过交叉注意力注入音频扩散模型,为声音生成提供精确的事件时序和强度提示;3)混合流匹配机制,对轨迹区域和非轨迹区域采用不同的概率流,以在保持轨迹保真度的同时维持局部外观一致性。此外,论文构建了一个大规模、以运动为中心的PAV数据集(46万片段)。实验表明,Tora3在视频质量(FVD 784.1)、轨迹跟随精度(TE 12.13)、音视频同步(FGAS 0.234)以及运动-声音相关性(MAIC 0.63)上均优于强基线模型。局限性在于其效果高度依赖于输入轨迹的质量与准确性,且对复杂物理交互(如材质、3D声学)的建模能力有限。
35 Few-Shot and Pseudo-Label Guided Speech Quality Evaluation with Large Language Models
✅ 7.5分 | #音频理解 #大语言模型 #少样本 #低资源 | arxiv
👥 作者与机构
- 第一作者:Ryandhimas E. Zezario(推断为台湾中央研究院资讯科学研究所,根据论文[23]引用及常见合作模式)
- 通讯作者:Hsin-Min Wang(台湾中央研究院资讯科学研究所),Yu Tsao(台湾中央研究院资讯科学研究所)
- 其他作者:Dyah A. M. G. Wisnu(印度尼西亚玛琅国立大学电气工程系),Szu-Wei Fu(台湾中央研究院资讯科学研究所),Sabato Marco Siniscalchi(意大利卡塔尼亚大学电子工程系) (注:论文HTML全文未明确列出所有作者的具体机构,以上信息根据论文引用格式、常见合作网络及作者邮箱域名推断得出。)
💡 毒舌点评
亮点在于巧妙地将大语言模型(LLM)定位为“元评估器”,通过整合轻量级声学特征和现有模型的伪标签(DNSMOS, VQScore),而非直接处理原始音频,规避了LLM在音频理解上的短板,思路颇具巧思。槽点则是实验数据集过于单一(仅VoiceBank-DEMAND),且在“全样本评估”中少样本版本性能反而下降,暴露出其方法对示例选择的高度敏感性,结论的普适性有待商榷,有“为了用LLM而用LLM”之嫌。
📌 核心摘要
本文旨在解决非侵入式语音质量评估在标注数据有限场景下的性能瓶颈。作者提出了GatherMOS框架,其核心是将大语言模型(如GPT-5)作为一个元评估器,通过精心设计的文本提示,融合多类异构信号:包括手工声学描述符(如RMS、ZCR、MFCC统计量)和来自轻量级模型DNSMOS与VQScore的伪标签。该框架支持零样本和少样本两种推理模式。实验表明,在VoiceBank-DEMAND数据集上,零样本GatherMOS已优于基线方法,而精心匹配的少样本引导能带来显著提升(在子集上SRCC达0.8473)。然而,当少样本示例与测试集分布不匹配时,性能会下降,揭示了其泛化性挑战。该研究证明了利用LLM聚合弱信号以进行可靠质量预测的可行性,为低资源场景下的语音质量评估提供了新思路。
36 VoxEffects: A Speech-Oriented Audio Effects Dataset and Benchmark
✅ 7.5分 | #音频理解 #音频编辑 #基准测试 #数据集 | arxiv
👥 作者与机构
第一作者:Zhe Zhang(日本国立信息学研究所,语音与音频研究组) 通讯作者:Junichi Yamagishi(日本国立信息学研究所,语音与音频研究组) 其他作者:Yigitcan Özer(日本国立信息学研究所,语音与音频研究组)
- 机构:National Institute of Informatics (NII), Tokyo, Japan
💡 毒舌点评
亮点:在语音领域“硬核”填补了一个关键空白——为“音频效果识别”这个被忽视但无处不在的任务,提供了首个标准化的合成数据集和评估基准,还煞有介事地考虑了真实世界的信号损伤(加噪、压缩),这很务实。槽点:数据完全靠“配方”合成,像在无菌实验室里研究野外生存,缺乏真实后期处理的复杂性和“脏数据”;评估子集只有120条音频(60 ID + 60 OOD),规模过小,结论的说服力打了个折扣。
📌 核心摘要
本文旨在解决语音处理中一个基础但被忽视的问题:如何系统化地识别语音音频所经过的后期处理效果及其参数。现实中,语音几乎都经过了降噪、压缩等效果处理,但现有数据集缺乏此类精确标注,阻碍了相关研究。为此,作者提出了VoxEffects,一个从干净语音出发、基于固定效果链和预设库合成的多粒度标注数据集与基准。它支持效果存在性检测、预设分类、效果数量统计和强度回归等多任务评估,并创新性地设计了包含采集端和平台端失真的鲁棒性评估协议。作者提供了一个基于AudioMAE的多任务基线模型(AudioMAE-Fx),实验表明,虽然该任务具有挑战性(尤其是细粒度预设分类),但通过包含失真数据进行鲁棒性训练能显著提升模型在跨语料库和失真条件下的性能。该工作为音频取证、语音理解等应用提供了新的研究方向和评估工具。
37 TokenSE: a Mamba-based discrete token speech enhancement framework for cochlear implants
✅ 7.5分 | #语音增强 #模型类 #Mamba #人工耳蜗 | arxiv
👥 作者与机构
- 第一作者:Hsin-Tien Chiang(根据论文格式推断为第一作者,机构信息需从全文获取,摘要中未明确)
- 通讯作者:John H. L. Hansen(根据论文格式推断为通讯作者,机构信息需从全文获取,摘要中未明确)
- 其他作者:无(根据摘要仅列出两位作者)
- 机构信息:论文摘要中未提供作者所属机构。根据arXiv论文的常见信息,作者可能来自某大学或研究机构的语音与信号处理实验室,但无法从摘要中确认。
💡 毒舌点评
亮点是把最近大火的Mamba模型引入到语音增强领域,并且非常务实地瞄准了人工耳蜗用户这一真实且迫切的场景,还做了主观听音测试,这比单纯刷榜更有意义。槽点是,摘要里对模型细节和实验数据的描述过于“简练”,让人怀疑是不是把详细内容都藏在正文里了,而且“离散令牌”这个概念在摘要里没有展开,有点让人摸不着头脑。
📌 核心摘要
本文针对人工耳蜗用户在噪声和混响环境下语音理解困难的问题,提出了一种名为TokenSE的语音增强框架。该框架的核心创新在于将语音增强任务从传统的时频域或波形域转换到神经音频编解码器的离散令牌空间中进行。具体而言,它使用一个基于Mamba(一种具有线性计算复杂度的状态空间模型)的模型,直接从退化语音对应的受损令牌序列中,预测出最可能的干净语音令牌序列。实验表明,该方法在域内和域外数据集上的客观指标均优于基线方法。更重要的是,针对人工耳蜗用户的主观听力测试证实,在恶劣的噪声和混响环境下,该方法能显著提升语音可懂度。其主要贡献在于将高效的Mamba架构与离散令牌表示相结合,为资源受限且对延迟敏感的人工耳蜗等助听设备提供了一种有前景的实时增强方案。
38 Audio Source Separation in Reverberant Environments using $β$-divergence based Nonnegative Factorization
✅ 7.5分 | #音频分离 #信号处理 #多通道 #麦克风阵列 | arxiv
👥 作者与机构
- 第一作者:Mahmoud Fakhry(推断为FBK - Fondazione Bruno Kessler,意大利)
- 通讯作者:Maurizio Omologo(推断为FBK - Fondazione Bruno Kessler,意大利)
- 其他作者:Piergiorgio Svaizer(推断为FBK - Fondazione Bruno Kessler,意大利) (注:论文摘要未明确列出作者所属机构,以上信息根据常见研究合作模式及作者姓名推断得出。)
💡 毒舌点评
亮点:论文巧妙地将非负矩阵/张量分解(NMF/NTF)与经典的多通道Wiener滤波框架结合,用数据驱动的“先验基矩阵库”替代了传统EM算法中对源方差的迭代估计,思路清晰且有一定新意。 槽点:创新更像是对现有工具(β-散度NTF)的“组合应用”,而非底层算法的突破;摘要中声称“优于其他算法”但未提供任何具体数字支撑,说服力大打折扣,读起来像一份“工作汇报”而非扎实的学术论文。
📌 核心摘要
本文针对混响环境下的多通道音频源分离问题,提出了一种基于β-散度非负因子分解的参数估计新方法。传统方法依赖期望最大化(EM)算法估计源频谱方差和空间协方差矩阵,本文则利用包含源频谱先验信息的基矩阵(可直接提取或从预训练冗余库中获取),通过非负张量分解(NTF)来估计这些参数。该方法通过最小化β-散度并采用乘性更新规则实现因子分解,并可通过调节β值控制分解的稀疏性。实验表明,因子分解的稀疏性(而非β的具体取值)对提升分离性能至关重要。在多种混合条件下的评估显示,该方法能提供优于其他可比算法的分离质量。
39 On the Distillation Loss Functions of Speech VAE for Unified Reconstruction, Understanding, and Generation
✅ 7.5分 | #知识蒸馏 #自监督学习 #统一音频模型 #音频理解 | arxiv
👥 作者与机构
第一作者:Changhao Cheng (上海交通大学,人工智能学院) 通讯作者:Yanmin Qian (上海交通大学,人工智能学院;听觉认知与计算声学实验室,教育部人工智能重点实验室) (推断,基于其资深作者身份及实验室负责人角色) 其他作者:
- Wei Wang (上海交通大学,人工智能学院)
- Wangyou Zhang (上海交通大学,计算机科学学院,听觉认知与计算声学实验室,教育部人工智能重点实验室)
- Dongya Jia (上海交通大学,人工智能学院)
- Jian Wu (字节跳动 Seed)
- Zhuo Chen (上海交通大学,人工智能学院)
💡 毒舌点评
亮点在于它像一个严谨的“调音师”,系统性地探索了语音VAE蒸馏损失的“调音旋钮”(时间轴、维度轴、联合边际),并找到了让重建、理解、生成这三个“声部”和谐共奏的新配方(JMAS-VAE)。槽点则是这“新配方”的调制过程有点复杂,引入的自适应权重和边际参数增加了训���和调参的“玄学”成分,且实验结论高度依赖于所选的教师模型(WavLM),换一个“老师”可能结论又得重写。
📌 核心摘要
本文针对现有语音变分自编码器(VAE)在统一语音重建、理解和生成任务上表现不平衡的问题(尤其是理解能力差),系统性地研究了蒸馏损失函数的设计空间。作者探索了三种将自监督学习(SSL)模型知识蒸馏到VAE潜在空间的方式:时间轴对齐(TAS)、维度轴对齐(DAS)和联合边际对齐(JMAS)。关键创新在于提出了JMAS损失,它不仅进行逐帧对齐,还通过边际余弦相似度和边际距离序列相似度损失来约束特征分布的结构一致性。此外,论文引入了基于梯度范数的自适应加权策略来动态平衡各项损失。大量实验表明,采用自适应加权的JMAS-VAE在重建、理解和生成三项任务的综合得分上取得了最优平衡,显著优于传统VAE和仅进行时间轴对齐的语义VAE。研究揭示了不同对齐方式对语义和声学信息保留的偏向性,为设计统一的语音表示提供了重要见解。
40 Listening Deepfake Detection: A New Perspective Beyond Speaking-Centric Forgery Analysis
✅ 7.5分 | #语音伪造检测 #数据集 #多模态 #音视频 | arxiv
👥 作者与机构
- 第一作者:Miao Liu(根据arXiv常见格式推断,可能来自某高校或研究机构,原文未提供具体机构信息)
- 通讯作者:Fangda Wei(根据arXiv常见格式推断,可能来自同一机构,原文未提供具体机构信息)
- 其他作者:Jing Wang, Xinyuan Qian(根据arXiv常见格式推断,可能来自同一机构,原文未提供具体机构信息) (注:提供的论文摘要中未包含作者所属机构信息,以上为基于arXiv论文常见格式的推断。完整论文全文通常在标题页或脚注中包含机构信息。)
💡 毒舌点评
亮点在于敏锐地捕捉到了现有深度伪造检测研究的“盲区”——只盯着“说谎的嘴”,却忽略了“倾听的脸”,这个视角的转换很有启发性,为领域打开了新方向。槽点则是新创的“ListenForge”数据集规模可能有限(基于5种生成方法),且提出的MANet模型虽然有效,但其复杂度和在真实世界海量、多变的“聆听”场景下的泛化能力,恐怕还有待更严苛的考验。
📌 核心摘要
本文首次提出了“聆听深度伪造检测”这一新任务,旨在识别视频中人物在倾听状态下(非说话时)的伪造反应,弥补了现有研究主要集中于“说话”场景的不足。为解决此任务数据稀缺的问题,作者构建了首个专门数据集ListenForge,包含由五种不同头部生成方法合成的伪造聆听视频。针对聆听伪造中细微的运动不一致性,作者设计了一个名为MANet的运动感知与音频引导网络,该网络通过捕捉听众视频的细微运动,并利用说话者的音频语义来引导跨模态特征融合,从而有效检测伪造。实验表明,现有的说话深度伪造检测模型在聆听场景下性能显著下降(AUC约60%),而MANet在ListenForge数据集上取得了优越性能(AUC达94.5%)。该工作强调了超越传统“说话中心”范式进行深度伪造检测的必要性,并为交互场景下的多模态伪造分析开辟了新方向。
41 Comparison of window shapes and lengths in short-time feature extraction for classification of heart sound signals
✅ 6.5分 | #音频分类 #生物声学 #信号处理 #基准测试 | arxiv
👥 作者与机构
- 第一作者:Mahmoud Fakhry(推断)
- 通讯作者:Abeer FathAllah Brery(推断)
- 其他作者:无
- 所属机构:论文摘要及提供的链接中未明确标注作者所属机构。根据arXiv上作者姓名及研究领域推断,可能来自某大学或研究机构的电子工程、计算机科学或生物医学工程系。(推断)
💡 毒舌点评
亮点:这篇论文的“实验设计”堪称强迫症福音,把窗函数这个信号处理中的基础细节掰开揉碎了比较,得出了“高斯窗75毫秒”这个具体结论,对工程实践有直接的指导意义,比那些只会堆砌复杂模型的论文实在多了。 槽点:创新深度略显“单薄”,本质上是在一个非常狭窄的参数空间(9种窗函数组合)里做网格搜索,读起来像一份详尽的实验报告而非一篇突破性的研究论文。而且,把“矩形窗是常用选项但效果最差”作为主要发现之一,有点像在说“众所周知的事实”,冲击力不足。
📌 核心摘要
本文针对心音信号(PCG)分类任务中,因信号非-stationarity而采用滑动窗口分段提取特征时,窗函数形状和长度选择缺乏系统性研究的问题,进行了一项实验性评估。作者使用双向长短期记忆网络(biLSTM)作为分类器,系统比较了三种窗函数形状(高斯窗、三角窗、矩形窗)与三种窗长度(具体值需从全文获取,摘要未列全)的组合对分类性能的影响。实验在公开数据集上进行,提取统计特征后训练模型。核心发现是:高斯窗整体表现最佳,在75毫秒长度时性能最优,且优于一个基线方法;三角窗在75毫秒时与高斯窗性能接近;而矩形窗表现最差。该研究为心音信号预处理中的窗函数选择提供了明确的实证依据,具有直接的工程应用价值。
42 Transformer Based Machine Fault Detection From Audio Input
✅ 6.5分 | #音频事件检测 #音频理解 #时频分析 #迁移学习 | arxiv
👥 作者与机构
- 第一作者:Kiran Voderhobli Holla (论文中未明确标注机构,根据arXiv常见情况及联系邮箱(如有)推断可能来自学术机构或研究实验室,但论文摘要及提供的链接信息中未提及具体机构名称)
- 通讯作者:未明确标注
- 其他作者:无
💡 毒舌点评
亮点:敏锐地抓住了Vision Transformer(ViT)在图像领域的成功,将其思路迁移到音频频谱图分析这一具体工业场景,立意清晰,方向具有前瞻性。槽点:摘要读起来像是一篇综述或研究计划的引言,缺乏具体的实验方法、数据集、模型细节和量化结果的支撑,更像是在“画饼”而非“展示成果”,让人怀疑这是否是一篇完整的论文。
📌 核心摘要
本文旨在探讨基于Transformer的架构在机器故障音频检测任务上相对于传统卷积神经网络(CNN)的潜在优势。要解决的问题是传统CNN在处理频谱图时固有的局部性和平移不变性等归纳偏置,可能并非完全适用于捕捉音频信号中复杂的全局依赖关系。采用的方法是利用Transformer架构(如ViT)直接处理频谱图,利用其自注意力机制建模长程依赖,并与CNN生成的嵌入表示进行对比。主要发现和实际意义在于,理论上Transformer因归纳偏置更少,在数据充足时应能超越CNN,为工业预测性维护提供更强大的声音分析工具。然而,论文的局限性极为明显:摘要部分仅提出了假设和研究方向,未提供任何具体的实验设计、模型配置、数据集信息、对比结果或性能指标,核心贡献和效果无从验证。