Word-Level Modeling with Alignment-Aware Acoustic Fusion for Text-Assisted Intelligibility Prediction in Listeners with Hearing Loss

📄 Word-Level Modeling with Alignment-Aware Acoustic Fusion for Text-Assisted Intelligibility Prediction in Listeners with Hearing Loss #语音质量评估 #语音识别 #信号处理 #注意力机制 ✅ 7.7/10 | 前25% | #语音质量评估 | #词级正确性建模与声学融合 | #语音识别 #信号处理 | arxiv 学术质量 5.8/7 | 影响力 1.2/2 | 可复现性 0.7/2 | 置信度 0.9 👥 作者与机构 作者: Kazushi Nakazawa 机构: 未提及(论文未明确说明) 💡 毒舌点评 这篇论文在技术路线上是清晰且正确的,作者准确抓住了“句子级目标”与“词级信号”之间的粒度不匹配问题,并提出了一个合理的“参考条件化词级建模”框架。然而,论文的“声学融合”创新部分,其核心贡献(字符级对齐的Top-10头选择)带来的性能提升幅度相当有限(F1仅提升0.02),使得整个架构的复杂性显得有些“用力过猛”。此外,论文完全缺乏与当前主流非侵入式或端到端方法的对比,只在自己的“文本辅助”设定内打转,极大地限制了其结论的普适性和影响力。开源信息的完全缺失更是让本已受限的可复现性雪上加霜,对于一篇方法论工作而言是不小的遗憾。 📌 核心摘要 本文针对CPC3挑战赛中听障听众的文本辅助语音可懂度预测任务,指出传统句子级回归方法存在训练信号与预测目标的粒度不匹配问题。为此,论文提出一种参考条件化的词级正确性建模方法。该方法使用冻结的Whisper编码器处理降质语音,通过教师强制的Whisper解码器处理规范转录文本,从而获得文本条件化的解码器状态。为补充纯文本解码特征,模型进一步融合了两个声学分支:一个基于字符级交叉注意力对齐的“本地声学分支”,用于提取每个参考词对应的局部声学证据;一个基于编码器掩码平均池化的“全局声学分支”,用于提供整体声学难度的校准信号。最终,模型预测每个参考词被正确感知的概率,并通过掩码平均得到句子级可懂度分数。在CPC3官方评估集上的实验表明,所提出的联合融合模型在词级指标(错误词F1, MCC)和句子级指标(相关系数, RMSE)上均优于仅使用解码器状态的基线模型,且该趋势在使用Whisper medium骨干网络时得以保持。论文通过消融实验证明了字符级动态对齐优于子词全头对齐,并强调了教师强制参考条件化相比基于解码假设后处理的优越性。 🔗 开源详情 代码:未提及。 模型权重:未提及。 数据集:未提及具体的CPC3数据集下载链接或开放协议。论文评估基于CPC3官方评估集,但未说明数据集获取方式。 Demo:未提及。 复现材料:未提供训练代码、配置文件、检查点或详细附录。仅提供了论文中的实验设置概述。 论文中引用的开源项目: Whisper: https://github.com/openai/whisper WhisperX: https://github.com/m-bain/whisperX NISQA: 仅提及名称,未提供具体链接。 TorchAudio-Squim: 仅提及名称,未提供具体链接。 🏗️ 方法概述和架构 本文提出的模型旨在将句子级可懂度分数预测重新定义为参考条件下的词级正确性建模问题。其核心架构(如论文图2所示)围绕一个完全冻结的Whisper模型构建,并添加了三个可训练的模块:一个投影层将解码器状态映射到共享空间、一个可训练的严重程度嵌入、以及一个轻量级的词级分类器。所有训练仅作用于这些新增组件。方法可分为以下几个核心组件和数据流: ...

2026-05-25 · 更新于 2026-06-19 · 3 min · 511 words

语音/音乐/音频论文速递 2026-05-25

语音/音乐/音频论文速递 2026-05-25 共分析 19 篇论文 ⚡ 今日概览 📥 抓取 19 篇 → 🔬 深度分析完成 🏷️ 热门方向 方向 数量 分布 #语音质量评估 3篇 ███ #语音识别 3篇 ███ #信号处理 3篇 ███ #音频分类 1篇 █ #语音编码 1篇 █ #音频深度伪造检测 1篇 █ #统一音频模型 1篇 █ #医疗音频 1篇 █ 📊 论文评分排行榜(19 篇,按分数降序) 排名 论文 评分 分档 主任务 🥇 Frame-Aligned Fusion of Canary and WavLM for Non-Intrus 10.0分 前10% #语音质量评估 🥈 Evaluating the Temporal Detection Capability of Integra 10.0分 前10% #音频分类 🥉 UniSRM: A Unified Speech Reward Model for Reasoning-Bas 10.0分 前10% #语音质量评估 4. AffectCodec: Emotion-Preserving Neural Speech Codec wit 10.0分 前10% #语音编码 5. MixFake: Benchmarking and Enhancing Audio Deepfake Dete 10.0分 前10% #音频深度伪造检测 6. A study on weakly-supervised training approaches for ph 9.7分 前10% #语音识别 7. Broad learning system with robust adaptive kernel 8.7分 前25% #信号处理 8. Articulatory strategy as a source of variation in acous 8.5分 前25% #语音识别 9. StepAudio 2.5 Technical Report 8.3分 前25% #统一音频模型 10. Comprehensive Dataset and Signal Processing Framework f 8.0分 前25% #医疗音频 11. Word-Level Modeling with Alignment-Aware Acoustic Fusio 7.7分 前25% #语音质量评估 12. Convex Low-resource Accent-Robust Language Detection in 7.5分 前25% #语音识别 13. Diffusion Domain Expansion: Learning to Coordinate Pre- 7.4分 前50% #扩散模型 14. EvalVerse: Pipeline-Aware and Expert-Calibrated Benchma 7.1分 前50% #音视频 15. Copula-Induced Correntropy for Robust Conjugate Gradien 7.0分 前50% #信号处理 16. Cost-Effective Model Evaluation with Meta-Learning 5.4分 后50% #迁移学习 17. Natural Yet Challenging to Detect: Robust In-the-Wild T 5.2分 后50% #语音合成 18. Self-Calibration DOA Estimation for Movable Antenna Sys 4.0分 后50% #声源定位 19. 6G Communication Networks Enabling Embodied Agents: Arc 2.7分 后50% #信号处理 📋 论文列表 🥇 Frame-Aligned Fusion of Canary and WavLM for Non-Intrusive Intelligibility Prediction of Hearing-Aid-Processed Speech 🔥 10.0/10 | 前10% | #语音质量评估 | #模型融合 | #多模态模型 #预训练 | arxiv ...

2026-05-25 · 更新于 2026-06-19 · 9 min · 1773 words

A Semantically Consistent Dataset for Data-Efficient Query-Based Universal Sound Separation

📄 A Semantically Consistent Dataset for Data-Efficient Query-Based Universal Sound Separation ✅ 7.0/10 | 前50% | arxiv ← 返回 2026-05-23 语音/音乐/音频论文速递

2026-05-23 · 更新于 2026-06-19 · 1 min · 21 words

Abstraction Induces the Brain Alignment of Language and Speech Models

📄 Abstraction Induces the Brain Alignment of Language and Speech Models #** #未明确列出 #脑部对齐 #语言模型 #语音模型 #内在维度 #意义抽象 #fMRI #ECoG 🔥 8.0/10 | 前25% | #** | #未明确列出 | #脑部对齐 #语言模型 | arxiv ← 返回 2026-05-23 语音/音乐/音频论文速递

2026-05-23 · 更新于 2026-06-19 · 1 min · 37 words

Acoustic Interference: A New Paradigm Weaponizing Acoustic Latent Semantic for Universal Jailbreak against Large Audio Language Models

📄 Acoustic Interference: A New Paradigm Weaponizing Acoustic Latent Semantic for Universal Jailbreak against Large Audio Language Models ✅ 7.0/10 | 前50% | arxiv ← 返回 2026-05-23 语音/音乐/音频论文速递

2026-05-23 · 更新于 2026-06-19 · 1 min · 28 words

ADEPT: RL-Aligned Agentic Decoding of Emotion via Evidence Probing Tools — From Consensus Learning to Ambiguity-Driven Emotion Reasoning

📄 ADEPT: RL-Aligned Agentic Decoding of Emotion via Evidence Probing Tools — From Consensus Learning to Ambiguity-Driven Emotion Reasoning ✅ 7.2/10 | 前50% | arxiv ← 返回 2026-05-23 语音/音乐/音频论文速递

2026-05-23 · 更新于 2026-06-19 · 1 min · 29 words

AG-REPA: Causal Layer Selection for Representation Alignment in Audio Flow Matching

📄 AG-REPA: Causal Layer Selection for Representation Alignment in Audio Flow Matching ✅ 6.5/10 | 前50% | arxiv ← 返回 2026-05-23 语音/音乐/音频论文速递

2026-05-23 · 更新于 2026-06-19 · 1 min · 22 words

AgentSteerTTS: A Multi-Agent Closed-Loop Framework for Composite-Instruction Text-to-Speech

📄 AgentSteerTTS: A Multi-Agent Closed-Loop Framework for Composite-Instruction Text-to-Speech ✅ 7.0/10 | 前50% | arxiv ← 返回 2026-05-23 语音/音乐/音频论文速递

2026-05-23 · 更新于 2026-06-19 · 1 min · 19 words

Alethia: a Foundational Encoder for Voice Deepfakes

📄 Alethia: a Foundational Encoder for Voice Deepfakes 🔥 8.0/10 | 前25% | arxiv ← 返回 2026-05-23 语音/音乐/音频论文速递

2026-05-23 · 更新于 2026-06-19 · 1 min · 18 words

Any-Diffusion: Unified Multimodal Understanding and Generation with Masked Discrete Diffusion

📄 Any-Diffusion: Unified Multimodal Understanding and Generation with Masked Discrete Diffusion ✅ 6.5/10 | 前50% | arxiv ← 返回 2026-05-23 语音/音乐/音频论文速递

2026-05-23 · 更新于 2026-06-19 · 1 min · 21 words