论文速递 | 语音/音乐/音频论文速递

UniSRM: A Unified Speech Reward Model for Reasoning-Based Fine-grained Assessment

📄 UniSRM: A Unified Speech Reward Model for Reasoning-Based Fine-grained Assessment #语音质量评估 #强化学习 #多任务学习 #模型评估 🔥 10/10 | 前10% | #语音质量评估 | #统一多任务强化学习 | #强化学习 #多任务学习 | arxiv 学术质量 7/7 | 影响力 1.5/2 | 可复现性 2/2 | 置信度 0.8 👥 作者与机构 Yuanyuan Wang (香港中文大学), Dongchao Yang (香港中文大学), Yayue Deng (香港中文大学), Zhiyong Wu (香港中文大学, 清华大学), Yiwen Guo (独立研究者), Helen Meng (香港中文大学), Xixin Wu (香港中文大学)。 💡 毒舌点评这篇工作直击语音生成评估的核心痛点——依赖昂贵、主观的人工 MOS 评估，或是片面、不透明的自动指标。它提出的 UniSRM 试图用一个统一模型解决成对偏好、质量打分、场景一致性和多轮对话评估四大任务，野心不小。两阶段训练（SFT + GRPO）和“理由一致性奖励”（RCR）是核心创新，意图让模型“说得清、判得准”。实验结果在作者自建的基准上确实亮眼，尤其是上下文相关的任务（T3/T4）优势明显。然而，它也并非无懈可击：首先，数据构建严重依赖强生成模型（Gemini, GPT-4.1）的标注，其“地面真值”本身可能带有偏见，模型本质上在学习模仿另一个大模型的评判逻辑。其次，计算开销（480 GPU 小时用于 GRPO）与复杂度不低，限制了其作为轻量级评估器的部署。最后，尽管声称“统一”，但其任务和维度划分是预设且固定的，对于未来可能出现的全新评估维度或任务类型的扩展性未作讨论。 ...

Word-Level Modeling with Alignment-Aware Acoustic Fusion for Text-Assisted Intelligibility Prediction in Listeners with Hearing Loss

📄 Word-Level Modeling with Alignment-Aware Acoustic Fusion for Text-Assisted Intelligibility Prediction in Listeners with Hearing Loss #语音质量评估 #语音识别 #信号处理 #注意力机制 ✅ 7.7/10 | 前25% | #语音质量评估 | #词级正确性建模与声学融合 | #语音识别 #信号处理 | arxiv 学术质量 5.8/7 | 影响力 1.2/2 | 可复现性 0.7/2 | 置信度 0.9 👥 作者与机构作者: Kazushi Nakazawa 机构: 未提及（论文未明确说明） 💡 毒舌点评这篇论文在技术路线上是清晰且正确的，作者准确抓住了“句子级目标”与“词级信号”之间的粒度不匹配问题，并提出了一个合理的“参考条件化词级建模”框架。然而，论文的“声学融合”创新部分，其核心贡献（字符级对齐的Top-10头选择）带来的性能提升幅度相当有限（F1仅提升0.02），使得整个架构的复杂性显得有些“用力过猛”。此外，论文完全缺乏与当前主流非侵入式或端到端方法的对比，只在自己的“文本辅助”设定内打转，极大地限制了其结论的普适性和影响力。开源信息的完全缺失更是让本已受限的可复现性雪上加霜，对于一篇方法论工作而言是不小的遗憾。 📌 核心摘要本文针对CPC3挑战赛中听障听众的文本辅助语音可懂度预测任务，指出传统句子级回归方法存在训练信号与预测目标的粒度不匹配问题。为此，论文提出一种参考条件化的词级正确性建模方法。该方法使用冻结的Whisper编码器处理降质语音，通过教师强制的Whisper解码器处理规范转录文本，从而获得文本条件化的解码器状态。为补充纯文本解码特征，模型进一步融合了两个声学分支：一个基于字符级交叉注意力对齐的“本地声学分支”，用于提取每个参考词对应的局部声学证据；一个基于编码器掩码平均池化的“全局声学分支”，用于提供整体声学难度的校准信号。最终，模型预测每个参考词被正确感知的概率，并通过掩码平均得到句子级可懂度分数。在CPC3官方评估集上的实验表明，所提出的联合融合模型在词级指标（错误词F1， MCC）和句子级指标（相关系数， RMSE）上均优于仅使用解码器状态的基线模型，且该趋势在使用Whisper medium骨干网络时得以保持。论文通过消融实验证明了字符级动态对齐优于子词全头对齐，并强调了教师强制参考条件化相比基于解码假设后处理的优越性。 🔗 开源详情代码：未提及。模型权重：未提及。数据集：未提及具体的CPC3数据集下载链接或开放协议。论文评估基于CPC3官方评估集，但未说明数据集获取方式。 Demo：未提及。复现材料：未提供训练代码、配置文件、检查点或详细附录。仅提供了论文中的实验设置概述。论文中引用的开源项目： Whisper: https://github.com/openai/whisper WhisperX: https://github.com/m-bain/whisperX NISQA: 仅提及名称，未提供具体链接。 TorchAudio-Squim: 仅提及名称，未提供具体链接。 🏗️ 方法概述和架构本文提出的模型旨在将句子级可懂度分数预测重新定义为参考条件下的词级正确性建模问题。其核心架构（如论文图2所示）围绕一个完全冻结的Whisper模型构建，并添加了三个可训练的模块：一个投影层将解码器状态映射到共享空间、一个可训练的严重程度嵌入、以及一个轻量级的词级分类器。所有训练仅作用于这些新增组件。方法可分为以下几个核心组件和数据流： ...

语音/音乐/音频论文速递 2026-05-25

语音/音乐/音频论文速递 2026-05-25 共分析 19 篇论文 ⚡ 今日概览 📥 抓取 19 篇 → 🔬 深度分析完成 🏷️ 热门方向方向数量分布 #语音质量评估 3篇 ███ #语音识别 3篇 ███ #信号处理 3篇 ███ #音频分类 1篇 █ #语音编码 1篇 █ #音频深度伪造检测 1篇 █ #统一音频模型 1篇 █ #医疗音频 1篇 █ 📊 论文评分排行榜（19 篇，按分数降序）排名论文评分分档主任务 🥇 Frame-Aligned Fusion of Canary and WavLM for Non-Intrus 10.0分前10% #语音质量评估 🥈 Evaluating the Temporal Detection Capability of Integra 10.0分前10% #音频分类 🥉 UniSRM: A Unified Speech Reward Model for Reasoning-Bas 10.0分前10% #语音质量评估 4. AffectCodec: Emotion-Preserving Neural Speech Codec wit 10.0分前10% #语音编码 5. MixFake: Benchmarking and Enhancing Audio Deepfake Dete 10.0分前10% #音频深度伪造检测 6. A study on weakly-supervised training approaches for ph 9.7分前10% #语音识别 7. Broad learning system with robust adaptive kernel 8.7分前25% #信号处理 8. Articulatory strategy as a source of variation in acous 8.5分前25% #语音识别 9. StepAudio 2.5 Technical Report 8.3分前25% #统一音频模型 10. Comprehensive Dataset and Signal Processing Framework f 8.0分前25% #医疗音频 11. Word-Level Modeling with Alignment-Aware Acoustic Fusio 7.7分前25% #语音质量评估 12. Convex Low-resource Accent-Robust Language Detection in 7.5分前25% #语音识别 13. Diffusion Domain Expansion: Learning to Coordinate Pre- 7.4分前50% #扩散模型 14. EvalVerse: Pipeline-Aware and Expert-Calibrated Benchma 7.1分前50% #音视频 15. Copula-Induced Correntropy for Robust Conjugate Gradien 7.0分前50% #信号处理 16. Cost-Effective Model Evaluation with Meta-Learning 5.4分后50% #迁移学习 17. Natural Yet Challenging to Detect: Robust In-the-Wild T 5.2分后50% #语音合成 18. Self-Calibration DOA Estimation for Movable Antenna Sys 4.0分后50% #声源定位 19. 6G Communication Networks Enabling Embodied Agents: Arc 2.7分后50% #信号处理 📋 论文列表 🥇 Frame-Aligned Fusion of Canary and WavLM for Non-Intrusive Intelligibility Prediction of Hearing-Aid-Processed Speech 🔥 10.0/10 | 前10% | #语音质量评估 | #模型融合 | #多模态模型 #预训练 | arxiv ...

A Semantically Consistent Dataset for Data-Efficient Query-Based Universal Sound Separation

📄 A Semantically Consistent Dataset for Data-Efficient Query-Based Universal Sound Separation ✅ 7.0/10 | 前50% | arxiv ← 返回 2026-05-23 语音/音乐/音频论文速递

Abstraction Induces the Brain Alignment of Language and Speech Models

Acoustic Interference: A New Paradigm Weaponizing Acoustic Latent Semantic for Universal Jailbreak against Large Audio Language Models

📄 Acoustic Interference: A New Paradigm Weaponizing Acoustic Latent Semantic for Universal Jailbreak against Large Audio Language Models ✅ 7.0/10 | 前50% | arxiv ← 返回 2026-05-23 语音/音乐/音频论文速递

ADEPT: RL-Aligned Agentic Decoding of Emotion via Evidence Probing Tools — From Consensus Learning to Ambiguity-Driven Emotion Reasoning

📄 ADEPT: RL-Aligned Agentic Decoding of Emotion via Evidence Probing Tools — From Consensus Learning to Ambiguity-Driven Emotion Reasoning ✅ 7.2/10 | 前50% | arxiv ← 返回 2026-05-23 语音/音乐/音频论文速递

AG-REPA: Causal Layer Selection for Representation Alignment in Audio Flow Matching

📄 AG-REPA: Causal Layer Selection for Representation Alignment in Audio Flow Matching ✅ 6.5/10 | 前50% | arxiv ← 返回 2026-05-23 语音/音乐/音频论文速递

AgentSteerTTS: A Multi-Agent Closed-Loop Framework for Composite-Instruction Text-to-Speech

📄 AgentSteerTTS: A Multi-Agent Closed-Loop Framework for Composite-Instruction Text-to-Speech ✅ 7.0/10 | 前50% | arxiv ← 返回 2026-05-23 语音/音乐/音频论文速递

Alethia: a Foundational Encoder for Voice Deepfakes

📄 Alethia: a Foundational Encoder for Voice Deepfakes 🔥 8.0/10 | 前25% | arxiv ← 返回 2026-05-23 语音/音乐/音频论文速递