语音交互 | 语音/音乐/音频论文速递

Instruct-FD: Can Your Full-Duplex Speech System Follow Turn-Taking Instructions?

📄 Instruct-FD: Can Your Full-Duplex Speech System Follow Turn-Taking Instructions? 标签：#语音交互 #音频理解 #Transformer #模型评估 7.2/10 | 创新 1.4/2 | 严谨 1.2/1.5 | 实验 1.2/1.5 | 清晰 0.9/1 | 影响 1/1.5 | 开源 0/1.5 | 复现 0.3/0.5 | 工程 1.2/1.5 ✅ 7.2/10 | 前50% | 文档类型：数据集与基准 | 评分置信度：高 | #语音交互 | #Transformer | #音频理解 #模型评估 | arxiv 👥 作者与机构第一作者：Yuzhi Tang（Boson AI）通讯作者：Yuzhi Tang（Boson AI）作者列表：Yuzhi Tang, Wentao Ma, Xiling Zhao, Ahmad Salimi, Sepehr Harfi Moridani, Dongming Shen, Jixuan Wang, Abdulrahman Abdulrazzag, Murdock Aubry, Yu-Hua Chen, Daniel Lee, Jaewon Lee, Jonah Mackey, Silin Meng, Nicholas Stranges, Chenxu Xiong, Hao Yu, Yi Zhu, Mu Li, Alex Smola （全部来自Boson AI） 💡 毒舌点评本文敏锐地抓住了全双工对话系统中“可控轮次管理”这一被忽略的关键评估缺口，并构建了一套逻辑自洽、设计巧妙的评估框架，将轮次行为形式化为指令跟随任务，是基准建设工作的良好范例。主要短板在于作为一项旨在成为“标准基准”的工作，其核心产物（代码、数据集）完全未开源，严重限制了社区的复用和后续发展；评估模型数量（6个）和语言覆盖（仅英语）的局限性也影响了其作为广泛适用基准的即时影响力。此外，依赖合成数据和LLM判官的评估范式，其向复杂真实场景的泛化能力仍需进一步验证。 ...

Safeguards for Speech2Speech LLM-Assistants: A Case Study in Automotive Applications

📄 Safeguards for Speech2Speech LLM-Assistants: A Case Study in Automotive Applications 标签：#语音交互 #大语言模型 #语音大模型 #流式处理 #实时处理 6.5/10 | 创新 1.2/2 | 严谨 1.2/1.5 | 实验 1/1.5 | 清晰 0.8/1 | 影响 1/1.5 | 开源 0/1.5 | 复现 0.1/0.5 | 工程 1.2/1.5 ✅ 6.5/10 | 前50% | 文档类型：系统技术报告 | 评分置信度：高 | #语音交互 | #大语言模型 | #语音大模型 #流式处理 | arxiv 👥 作者与机构第一作者：Gregor Endler (codemanufaktur GmbH, Germany) 通讯作者：未说明作者列表：Gregor Endler (codemanufaktur GmbH, Germany), Sebastian Kraus (codemanufaktur GmbH, Germany), Lukas Stappen (BMW Group, Germany) 💡 毒舌点评本文精准地抓住了将前沿S2S LLM助手部署到汽车等安全关键领域时，核心防护措施面临的工程“落地难”问题，实验设计扎实、数据详实，工程参考价值很高。然而，论文本质上是一份高质量的“评测报告”而非技术创新方案，其核心贡献在于系统性地揭示现有方案的瓶颈（延迟、确定性不足），而非提出突破性的新防护方法，因此创新性受限。 ...

Cross-Subject Semantic Decoding with Shared-Space Alignment for Generalized Neural Representation Learning

📄 Cross-Subject Semantic Decoding with Shared-Space Alignment for Generalized Neural Representation Learning 标签：#语音交互 #迁移学习 #低资源 #音频理解 #Transformer 6.3/10 | 创新 1.2/2 | 严谨 1.3/1.5 | 实验 0.9/1.5 | 清晰 0.9/1 | 影响 0.8/1.5 | 开源 0/1.5 | 复现 0.3/0.5 | 工程 0.9/1.5 ✅ 6.3/10 | 前50% | 文档类型：方法研究 | 评分置信度：高 | #语音交互 | #迁移学习 | #低资源 #音频理解 | arxiv 👥 作者与机构第一作者：Ji-Hoon Heo（韩国高丽大学人工智能系）通讯作者：Seong-Whan Lee（韩国高丽大学人工智能系）作者列表：Ji-Hoon Heo（韩国高丽大学人工智能系）、Aleksandra Joanna Wisniewska（韩国高丽大学人工智能系）、Seo-Hyun Lee（韩国高丽大学脑与认知工程系）、Seong-Whan Lee（韩国高丽大学人工智能系） 💡 毒舌点评论文将神经科学中的共享响应模型（SRM）巧妙地应用于解码任务，并设计了时间分块对齐策略，在方法论上体现了不错的洞察力。然而，该方法的实验验证仅基于一个规模有限（9名被试）的临床ECoG数据集和被动听播客任务，其宣称的“跨被试泛化”能力在更复杂、更真实的BCI场景（如主动想象语音或低信噪比环境）中是否成立，是一个巨大的问号。评估指标（如Top-10准确率仅5%）的实用性也值得商榷。论文在方法描述上存在一些关键细节的缺失，且未提供任何代码或复现材料，使其影响力和可信度大打折扣。 ...

Efficient Chain-of-Modality Reasoning via Progressive Compression for Spoken Language Models

📄 Efficient Chain-of-Modality Reasoning via Progressive Compression for Spoken Language Models 标签：#语音交互 #课程学习 #语音大模型 #端到端 #高效推理 7.6/10 | 创新 1.8/2 | 严谨 1.1/1.5 | 实验 1/1.5 | 清晰 0.9/1 | 影响 1.2/1.5 | 开源 0/1.5 | 复现 0.4/0.5 | 工程 1.2/1.5 ✅ 7.6/10 | 前25% | 文档类型：方法研究 | 评分置信度：高 | #语音交互 | #课程学习 | #语音大模型 #端到端 | arxiv 👥 作者与机构第一作者：Pengchao Feng（上海交通大学，上海创新研究院，中国上海）通讯作者：未说明作者列表：Pengchao Feng（上海交通大学，上海创新研究院，中国上海）、Chao-Hong Tan（通义实验室，阿里巴巴集团，中国上海）、Qian Chen（通义实验室，阿里巴巴集团，中国杭州）、Wen Wang（通义实验室，阿里巴巴集团，美国森尼维尔）、Xiangang Li（通义实验室，阿里巴巴集团，中国杭州）、Xie Chen（上海交通大学，上海创新研究院，中国上海） 💡 毒舌点评亮点在于首次系统性地将高效推理（压缩思维链）的概念引入语音语言模型，并提出了一个完整的、基于课程学习的端到端训练框架。实验在多个口语数学问答基准上验证了其精度-效率优势。短板显著：工程细节和可复现性支持严重不足，未提供代码、模型或可下载的数据集；评估高度受限于英语数学问答任务，泛化性未得验证；对压缩策略依赖外部工具（LLMLingua-2）且未讨论其在SLM语境下的适配性或潜在瓶颈。 ...

End-to-End Markov State Sequence Learning for Auditory Attention Decoding

📄 End-to-End Markov State Sequence Learning for Auditory Attention Decoding 标签：#语音交互 #端到端 #音频理解 #Transformer #模型评估 8.3/10 | 创新 1.7/2 | 严谨 1.4/1.5 | 实验 1.4/1.5 | 清晰 0.9/1 | 影响 0.8/1.5 | 开源 1/1.5 | 复现 0.3/0.5 | 工程 0.8/1.5 🔥 8.3/10 | 前25% | 文档类型：方法研究 | 评分置信度：高 | #语音交互 | #端到端 | #音频理解 #Transformer | arxiv 👥 作者与机构第一作者：Yushan Yashengjiang（中国科学技术大学，语音及语言信息处理国家工程研究中心，NERC-SLIP）通讯作者：Jie Zhang（中国科学技术大学，语音及语言信息处理国家工程研究中心，NERC-SLIP）作者列表： Yushan Yashengjiang（中国科学技术大学，NERC-SLIP） Jie Zhang（中国科学技术大学，NERC-SLIP） Miao Sun（广州海事大学，信息与通信工程学院） Huadong Liang（iFLYTEK Company, Ltd.，人工智能研究院） Xin Li（iFLYTEK Company, Ltd.，人工智能研究院；中国科学技术大学，信息科学技术学院） Zhen-Hua Ling（中国科学技术大学，NERC-SLIP） 💡 毒舌点评本文将序列判别训练（CRF）引入听觉注意力解码（AAD）以改善独立窗口训练与推理不匹配的问题，视角新颖且有效。实验在动态切换和静态数据集上均显示了稳定提升，消融分析清晰地归因于“序列感知发射学习”。然而，最佳因果解码延迟（23.3秒）对实时应用而言仍过高，且泛化性（如跨被试、跨设备）未被探讨，这限制了其临床转化潜力。同时，对静态数据集性能提升的机制解释可以更深入。 ...

Harness TTS: Towards Context-Aware Expressive Speech Synthesis with Harness Layer

📄 Harness TTS: Towards Context-Aware Expressive Speech Synthesis with Harness Layer 标签：#语音合成 #提示学习 #大语言模型 #语音交互 #高效推理 6.2/10 | 创新 1.2/2 | 严谨 1/1.5 | 实验 0.8/1.5 | 清晰 0.9/1 | 影响 1/1.5 | 开源 0/1.5 | 复现 0.1/0.5 | 工程 1.2/1.5 ✅ 6.2/10 | 前50% | 文档类型：方法研究 | 评分置信度：高 | #语音合成 | #提示学习 | #大语言模型 #语音交互 | arxiv 👥 作者与机构第一作者：Shengfan Shen（所属机构：MiLM Plus, Xiaomi Inc., China 和 HNU – Hunan University，邮箱shenshengfan@hnu.edu.cn）通讯作者：Shuai Wang（南京大学，邮箱shuaiwang@nju.edu.cn）作者列表：Shengfan Shen（MiLM Plus, Xiaomi Inc. 和 HNU – Hunan University）、Di Wu（MiLM Plus, Xiaomi Inc.）、Xingchen Song（MiLM Plus, Xiaomi Inc.）、Dinghao Zhou（MiLM Plus, Xiaomi Inc.）、Pengyu Cheng（MiLM Plus, Xiaomi Inc.）、Sixiang Lyu（MiLM Plus, Xiaomi Inc.）、Jian Luan（MiLM Plus, Xiaomi Inc.）、Shuai Wang（南京大学）。其他作者（Di Wu 至 Jian Luan）所属机构均标注为 MiLM Plus, Xiaomi Inc., China。此外，作者列表前注明了 WeNet Open Source Community。 💡 毒舌点评这篇论文将TTS的风格控制问题成功地简化为一个工程上可解的封闭集路由问题，并在工业界常用的TTS引擎上验证了其可行性和初步效果，工程实用价值突出。然而，其核心创新在于系统集成与问题重构，而非底层算法或模型上的突破；评估体系完全依赖教师模型生成的“真值”，且不开源任何核心组件，使得其学术贡献的可信度与可复现性大打折扣，更像是一个内部技术方案的初步报告。 ...

Robust Summarization of Doctor-Patient Conversations: TalTech Systems for the Beyond Transcription Challenge

📄 Robust Summarization of Doctor-Patient Conversations: TalTech Systems for the Beyond Transcription Challenge 标签：#语音交互 #强化学习 #医疗音频 #语音大模型 #参数高效微调 6.3/10 | 创新 1.2/2 | 严谨 0.8/1.5 | 实验 1/1.5 | 清晰 0.8/1 | 影响 1/1.5 | 开源 0/1.5 | 复现 0.3/0.5 | 工程 1.2/1.5 ✅ 6.3/10 | 前50% | 文档类型：系统技术报告 | 评分置信度：高 | #语音交互 | #强化学习 | #医疗音频 #语音大模型 | arxiv 👥 作者与机构第一作者：Aivo Olev (TalTech, Estonia) 通讯作者：未说明作者列表：Aivo Olev (TalTech, Estonia)、Tanel Alumäe (TalTech, Estonia) 💡 毒舌点评亮点：论文展示了一套完整且在竞赛中双赛道获胜的端到端工程化流程——从基于WER的零样本模型筛选，到SFT+DAPO RL的微调策略，再到LLM-as-judge独立评估——为构建可靠的长音频临床文档生成系统提供了清晰且可复制的路线图。RL优化Concept F1未导致幻觉率上升或笔记过度冗长的实证结论具有重要参考价值；文本SFT到语音输入的跨模态迁移发现同样是一个值得关注的工程洞见。短板：1）研究深度存在明显的“实用主义”短板——对DAPO相比标准PPO在长序列生成上究竟在哪些具体案例中表现更好、token级损失聚合如何缓解奖励稀释，缺乏实证对比或案例分析；2）核心组件（微调后模型权重、训练代码、数据处理流水线）均未开源，严重限制了技术贡献的可验证性和社区传播；3）官方测试集排名指标第一名仅领先第二名0.003（0.543 vs 0.540），胜利并不稳固；4）域外鲁棒性结论建立在仅3条真实录音之上，本质上是轶事性质的。 ...

AnovaX: A Local, Multi-Agent Voice Assistant with LLM Planning, Typed Executors, and Adaptive Recovery

📄 AnovaX: A Local, Multi-Agent Voice Assistant with LLM Planning, Typed Executors, and Adaptive Recovery 标签：#语音交互 #端到端 #音频理解 #Transformer #模型评估 4.8/10 | 创新 1/2 | 严谨 1/1.5 | 实验 0.2/1.5 | 清晰 0.8/1 | 影响 0.3/1.5 | 开源 0/1.5 | 复现 0.3/0.5 | 工程 1.2/1.5 📝 4.8/10 | 后50% | 文档类型：系统技术报告 | 评分置信度：高 | #语音交互 | #端到端 | #音频理解 #Transformer | arxiv 👥 作者与机构第一作者：Raunak B Sinha（BITS Pilani, India）通讯作者：未说明作者列表：Raunak B Sinha（BITS Pilani, India） 💡 毒舌点评论文精心构建了一个“本地、可审计”的语音助手工程案例，其模块化设计（如类型化执行器与自适应恢复循环）展现了清晰的系统思维。然而，全文的核心问题在于：这更像一份详尽的“技术备忘录”或“项目文档”，而非一篇经过严格学术检验的研究论文。缺乏任何定量评估、与现有系统的性能对比，以及开源代码，使得其所有设计选择和宣称的“实用”优势都停留在“作者自述”层面，无法被社区验证、复现或比较。对于语音/音频领域的研究者而言，其贡献更是隔靴搔痒。 ...

Dialogs: a studio-quality expressive conversational Russian speech corpus for dialog assistants

📄 Dialogs: a studio-quality expressive conversational Russian speech corpus for dialog assistants 标签：#语音合成 #语音交互 #低资源 #音频理解 #Transformer 7.8/10 | 创新 1.5/2 | 严谨 1/1.5 | 实验 1.2/1.5 | 清晰 1/1 | 影响 1/1.5 | 开源 1/1.5 | 复现 0.1/0.5 | 工程 1/1.5 ✅ 7.8/10 | 前25% | 文档类型：数据集与基准 | 评分置信度：高 | #语音合成 | #语音交互 | #低资源 #音频理解 | arxiv 👥 作者与机构第一作者：Ilya Shigabeev（Langswap，俄罗斯）通讯作者：未说明作者列表：Ilya Shigabeev（Langswap，俄罗斯）、Ilya Latyshev（Langswap，俄罗斯） 💡 毒舌点评论文成功填补了俄语高质量对话语音数据的空白，开源诚意十足，数据集质量评估扎实。然而，核心创新仅停留在“录制+标注”的组合，对数据构建的深层挑战（如标注一致性验证、风格边界分析）探讨不足，且仅用VITS2进行概念验证，未展示数据集在真实复杂场景下的实际价值。概念验证实验过于薄弱，缺乏必要的对比和消融实验，使其证明力大打折扣。 📌 核心摘要本文旨在解决俄语缺乏高质量、带情感标签的对话语音数据集，以支持表达性对话系统训练的问题。作者构建了名为“Dialogs”的数据集，包含20.6小时由专业木偶剧演员在录音室面对面对话录制的俄语语音，采样率为44.1 kHz立体声，分割为11,796条语句，涵盖3名说话人和12种情感/风格标签。核心创新在于结合了录音室质量、对话语境和每条语句的情感标注。通过众包MOS测试评估表明，Dialogs在音频质量和可懂度上与现有优质朗读语料库（Ruslan, Natasha）相当，而在表达性和对话语自然度上显著更高（分别高约0.23-0.25和0.24-0.30分）。作者进一步使用VITS2模型进行概念验证训练，合成语音的表达性（MOS 2.56）和对话语感（2.59）评分高于可懂度（2.28），表明模型吸收了数据集的韵律风格。该数据集已开源，采用OpenRAIL许可证。主要局限包括数据来自专业演员的“表演”而非真实自发对话，且各说话人数据量不均衡，限制了单独使用的泛化能力。 ...

Real-time Generation of Listener Nodding via Prediction of Kinematic Parameters for Avatar Dialogue Systems

📄 Real-time Generation of Listener Nodding via Prediction of Kinematic Parameters for Avatar Dialogue Systems 标签：#语音交互 #多任务学习 #实时处理 #Transformer #音频理解 6.9/10 | 创新 0.9/2 | 严谨 1/1.5 | 实验 1/1.5 | 清晰 0.8/1 | 影响 0.5/1.5 | 开源 1.2/1.5 | 复现 0.3/0.5 | 工程 1.2/1.5 ✅ 6.9/10 | 前50% | 文档类型：方法研究 | 评分置信度：高 | #语音交互 | #多任务学习 | #实时处理 #Transformer | arxiv 👥 作者与机构第一作者：Kazushi Kato（京都大学，katou@sap.ist.i.kyoto-u.ac.jp）通讯作者：未明确标注（按邮箱推断可能为 Tatsuya Kawahara，kawahara@i.kyoto-u.ac.jp）作者列表：Kazushi Kato（京都大学，katou@sap.ist.i.kyoto-u.ac.jp）、Koji Inoue（京都大学，inoue@sap.ist.i.kyoto-u.ac.jp）、Taiga Mori（京都大学，mori@sap.ist.i.kyoto-u.ac.jp）、Divesh Lala（京都大学，lala@sap.ist.i.kyoto-u.ac.jp）、Tatsuya Kawahara（京都大学，kawahara@i.kyoto-u.ac.jp） 💡 毒舌点评本文将 VAP 的双通道注意力框架从"何时点头"拓展到"怎样点头"，思路清晰、实验完整且代码开源，对于做对话交互 avatar 的同行是一份不错的工程参考。但本质上仍是把一个成熟架构换了个头——多任务学习和 fine-tune 策略缺乏新颖的理论洞察，Kinematic 参数预测的离散化分类（repetitions 仅 3 类）和 z-score 归一化处理过于粗糙，主观评估中 proposed+stochastic 方案与 proposed+proposed 方案在所有指标上均无显著差异（p>0.2），说明运动形态预测的精度和可信度仍有较大提升空间。论文仅在单语（日语）单场景（attentive listening）数据集上验证，且数据集未公开发布，可复现性受限。 ...