语音对话系统

Towards True Speech-to-Speech Models Without Text Guidance

📄 Towards True Speech-to-Speech Models Without Text Guidance #语音对话系统 #大语言模型 #端到端 #预训练 #流式处理 🔥 9.1/10 | 前10% | #语音对话系统 | #大语言模型 #端到端 | #大语言模型 #端到端学术质量 6.5/7 | 选题价值 1.8/2 | 复现加成 0.8 | 置信度高 👥 作者与机构第一作者：Xingjian Zhao (Fudan University, MOSI.AI) 通讯作者：Xipeng Qiu (Fudan University, Shanghai Innovation Institute) 作者列表：Xingjian Zhao (Fudan University, MOSI.AI)、Zhe Xu (Fudan University, Shanghai Innovation Institute, MOSI.AI)、Luozhijie Jin (Fudan University, Shanghai Innovation Institute, MOSI.AI)、Yang Wang (Fudan University, MOSI.AI)、Hanfu Chen (Fudan University, MOSI.AI)、Yaozhou Jiang (Fudan University, MOSI.AI)、Ke Chen (Fudan University, Shanghai Innovation Institute, MOSI.AI)、Ruixiao Li (Fudan University, Shanghai Innovation Institute, MOSI.AI)、Mingshu Chen (Fudan University, MOSI.AI)、Ruiming Wang (Fudan University, MOSI.AI)、Wenbo Zhang (Fudan University, Shanghai Innovation Institute, MOSI.AI)、Qinyuan Cheng (Fudan University, MOSI.AI)、Zhaoye Fei (Fudan University, MOSI.AI)、Shimin Li (MOSI.AI)、Xipeng Qiu (Fudan University, Shanghai Innovation Institute) 机构：复旦大学、上海创新研究院、MOSI.AI。 💡 毒舌点评这篇工作真正意义上逼近了“无文本指导”的语音大模型愿景，其“模态分层”设计从隐藏状态相似性分析中获得灵感，是工程直觉与理论分析的漂亮结合。然而，其高质量合成数据的依赖（特别是助理端语音）和庞大的模型参数量，可能使其在“真实性”和部署门槛上面临现实挑战，离真正廉价、通用的语音交互还有一步之遥。 ...

VoxPrivacy: A Benchmark for Evaluating Interactional Privacy of Speech Language Models

📄 VoxPrivacy: A Benchmark for Evaluating Interactional Privacy of Speech Language Models #语音对话系统 #基准测试 #隐私保护 #多用户 🔥 8.0/10 | 前25% | #语音对话系统 | #基准测试 | #隐私保护 #多用户学术质量 7.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Yuxiang Wang（香港中文大学（深圳），深圳湾区研究院）通讯作者：未明确说明（根据署名惯例，最后一位作者Zhizheng Wu可能为通讯作者，但论文未明确标注）。作者列表： Yuxiang Wang (香港中文大学（深圳），深圳湾区研究院) Hongyu Liu (香港中文大学（深圳）) Dekun Chen (香港中文大学（深圳）) Xueyao Zhang (香港中文大学（深圳）) Zhizheng Wu (香港中文大学（深圳），深圳湾区研究院，澳门城市大学，Amphion Technology Co., Ltd.) 💡 毒舌点评亮点：论文像一位敏锐的侦探，为“语音大模型在共享环境中如何保守秘密”这一被忽视的关键问题立了案、建了卷宗（三层级基准），并通过大规模“审讯”（评估）揪出了当前模型“嘴不严”（交互隐私能力弱）的通病，为领域敲响了警钟。短板：然而，论文的“破案”能力（分析）远强于“结案”能力（解决方案）。其提出的微调路径更像是一个证明方向可行的“示例”，而非一个完整、鲁棒的解决方案。同时，整个“案发现场”（基准）完全由合成语音构成，尽管做了验证，但“真实犯罪现场”（真实隐私泄露场景）的复杂性可能被低估。 🔗 开源详情代码：论文中未提及具体代码仓库链接，但承诺将开源基准数据集、训练集和微调模型。模型权重：承诺开源基于Kimi-Audio微调的模型权重（“Ours: Kimi-Audio-sft”）。数据集：承诺公开VoxPrivacy基准数据集（32.86小时）、Real-VoxPrivacy验证子集（586 utterances）以及用于训练的4000+小时数据集。具体获取方式未在提供的内容中说明。 Demo：论文开头提供了一个Demo页面链接：https://myflashbarry.github.io/VoxPrivacy.github.io/。复现材料：附录提供了详尽的材料，包括：所有提示模板（生成、润色、评估）、评估标准详细规则（A/B/C分类）、训练集统计数据与示例、对抗攻击详情、说话者验证能力分析等。论文中引用的开源项目：CosyVoice2（TTS）， Whisper-large-v3（ASR）， Deepseek， Gemini， ChatGPT（用于数据生成），以及多个用于构建训练集的公开语音/音频数据集。 📌 核心摘要问题：随着语音语言模型（SLS）进入智能家居等多用户共享环境，模型需要区分不同说话者以管理信息流。一个关键的未被评估的能力是“交互隐私”——即防止��个用户的私密信息被泄露给另一个用户。现有基准要么只评估对话能力，要么只关注全局敏感信息，忽略了依赖上下文和说话者身份的隐私。方法核心：提出VoxPrivacy，首个系统评估SLS交互隐私的基准。其核心是设计了三层级任务结构：Tier 1（遵循“别告诉别人”的直接命令）、Tier 2（使用声纹作为密钥，只向主人披露）、Tier 3（在无明确指令下，自主推断信息是否私密并加以保护）。基准包含7107个样本，32.86小时英中双语合成音频，并构建了一个小型真人录音子集（Real-VoxPrivacy）用于验证。创新性：与已有工作相比，VoxPrivacy首次将交互隐私和说话者感知的响应生成作为独立的评估维度；其三层任务设计覆盖了从简单指令到复杂常识推理的能力谱；基准构建结合了多LLM生成、自动清洗、人工验证和可控TTS合成，保证了质量和多样性。主要实验结果：对9个SLS的评估显示，交互隐私是当前模型的重大缺陷。大多数开源模型在Tier 2和Tier 3上的准确率接近50%（随机猜测）。强闭源模型（如Gemini-2.5-pro）表现更好，但在更难的Tier 3（主动推理）上也出现明显性能下降。关键数据见下表。在Real-VoxPrivacy上的评估证实了合成数据上的结论。表2: Tier 1（直接命令）部分模型性能（Accuracy (%)） ...

WearVox: An Egocentric Multichannel Voice Assistant Benchmark for Wearables

📄 WearVox: An Egocentric Multichannel Voice Assistant Benchmark for Wearables #语音对话系统 #基准测试 #多通道 #语音大模型 #鲁棒性 ✅ 7.5/10 | 前25% | #语音对话系统 | #基准测试 | #多通道 #语音大模型学术质量 6.5/7 | 选题价值 1.0/2 | 复现加成 0.0 | 置信度高 👥 作者与机构第一作者：Zhaojiang Lin（Meta，标记为联合第一作者）通讯作者：未说明（论文未明确指定通讯作者，但提供了邮箱zhaojiang@meta.com, sunkaicn@meta.com, yongxu@meta.com, lunadong@meta.com）作者列表：Zhaojiang Lin（Meta）、Yong Xu（Meta，联合第一作者）、Kai Sun（Meta，联合第一作者）、Jing Zheng（Meta）、Yin Huang（Meta）、Surya Teja Appini（Meta）、Krish Narang（Meta）、Renjie Tao（Meta）、Ishan Kapil Jain（Meta）、Siddhant Arora（Carnegie Mellon University，工作于Meta）、Ruizhi Li（Meta）、Yiteng Huang（Meta）、Kaushik Patnaik（Meta）、Wenfang Xu（Meta）、Suwon Shon（Meta）、Yue Liu（Meta）、Ahmed A Aly（Meta）、Anuj Kumar（Meta）、Florian Metze（Meta）、Xin Luna Dong（Meta） 💡 毒舌点评亮点在于它精准地定义了可穿戴语音助手独有的“坑”（自我中心音频、多通道、运动噪声、旁听对话），并用一个设计精良、场景丰富的测试集（WearVox）把这些坑量化了，直接戳穿了当前所谓“先进”语音大模型在真实世界中的脆弱性。短板则是案例研究部分提出的多通道模型（MC WearLlama）虽然验证了方向，但更像是一个概念验证（PoC）而非一套完整的解决方案，模型本身未开源，且多通道处理方式（仅拼接两个通道）相对简单，离真正的端到端多模态融合还有距离。 ...

Full-Duplex Interaction in Spoken Dialogue Systems: A Comprehensive Study from the ICASSP 2026 HumDial Challenge

📄 Full-Duplex Interaction in Spoken Dialogue Systems: A Comprehensive Study from the ICASSP 2026 HumDial Challenge #语音对话系统 #端到端 #基准测试 #多模态模型 ✅ 6.5/10 | 前25% | #语音对话系统 | #端到端 | #基准测试 #多模态模型 | arxiv 学术质量 4.0/7 | 选题价值 1.8/2 | 复现加成 0.5 | 置信度中 👥 作者与机构第一作者：未说明（作者列表按姓氏字母顺序排列，未明确指出第一作者）通讯作者：未说明（论文中未明确标注通讯作者，但提供了共同联系邮箱）作者列表：Chengyou Wang (Audio, Speech and Language Processing Group (ASLP@NPU), School of Computer Science, Northwestern Polytechnical University, Xi’an, China)、Hongfei Xue (同上)、Guojian Li (同上)、Zhixian Zhao (同上)、Shuiyuan Wang (未说明具体单位，仅列姓名)、Shuai Wang (未说明具体单位，仅列姓名)、Xin Xu (未说明具体单位，仅列姓名)、Hui Bu (AISHELL, China)、Lei Xie (Audio, Speech and Language Processing Group (ASLP@NPU), School of Computer Science, Northwestern Polytechnical University, Xi’an, China) 💡 毒舌点评本文为全双工语音对话系统的研究提供了一套详尽、实用的“考试大纲”和“模拟题库”，其数据集构建和评测框架设计是当前该领域急需的公共产品，对推动后续研究非常有益；但作为一篇“综合性研究”，它更像是一个挑战赛报告和资源发布文档，缺乏自身提出的、经过严格验证的新型模型或核心算法，学术增量主要体现在“评测”而非“建模”上。 ...

MiniCPM-o 4.5: Towards Real-Time Full-Duplex Omni-Modal Interaction

📄 MiniCPM-o 4.5: Towards Real-Time Full-Duplex Omni-Modal Interaction #语音对话系统 #多模态模型 #端到端 #流式处理 #强化学习 🔥 8.5/10 | 前25% | #语音对话系统 | #多模态模型 | #端到端 #流式处理 | arxiv 学术质量 6.0/7 | 选题价值 1.8/2 | 复现加成 1.0 | 置信度高 👥 作者与机构第一作者：Junbo Cui（论文中未明确标注“第一作者”，根据作者列表排序推断）通讯作者：未明确说明（论文中标注为“Corresponding authors”，但未指明具体个人）作者列表：Junbo Cui, Bokai Xu, Chongyi Wang, Tianyu Yu, Weiyue Sun, Yingjing Xu, Tianran Wang, Zhihui He, Wenshuo Ma, Tianchi Cai, Jiancheng Gui, Luoyuan Zhang, Xian Sun, Fuwei Huang, Moye Chen, Zhuo Lin, Hanyu Liu, Qingxin Gui, Qingzhe Han, Yuyang Wen, Huiping Liu, Rongkang Wang, Yaqi Zhang, Hongliang Wei, Chi Chen, You Li, Kechen Fang, Jie Zhou, Yuxuan Li, Guoyang Zeng, Chaojun Xiao, Yankai Lin, Xu Han, Maosong Sun, Zhiyuan Liu, Yuan Yao. （所属机构为MiniCPM-o Team, OpenBMB，论文未提供各作者具体所属部门） 💡 毒舌点评亮点在于将“全双工多模态交互”这一前沿概念落地为一个可运行的、高效的开源系统，其Omni-Flow框架的设计思想具有启发性。短板在于，虽然展示了强大的基础能力，但论文中对于模型在复杂、长时、动态真实场景下的“主动行为”鲁棒性和稳定性验证相对有限，更像是一个能力很强的“全能选手”初登舞台，而非经过严苛实战检验的“特种兵”。 ...

Qualitative Evaluation of Language Model Rescoring in Automatic Speech Recognition

📄 Qualitative Evaluation of Language Model Rescoring in Automatic Speech Recognition #语音识别 #模型评估 #语音对话系统 #语言模型 ✅ 6.5/10 | 前25% | #语音识别 | #模型评估 | #语音对话系统 #语言模型 | arxiv 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 -0.5 | 置信度中 👥 作者与机构第一作者：Thibault Bañeras-Roux（未说明）通讯作者：未说明作者列表：Thibault Bañeras-Roux（未说明）、Mickaël Rouvier（未说明）、Jane Wottawa（未说明）、Richard Dufour（未说明） 💡 毒舌点评亮点：论文直击ASR领域过度依赖WER的痛点，提出的POSER和EmbER两个评估指标角度新颖，尝试将语法和语义维度引入误差分析，思路具有启发性。短板：摘要中仅提出了概念和指标定义，却完全没有展示任何实验设计、对比数据和结果验证，这使得其提出的指标有效性成疑，更像一篇观点性短文而非完整的研究论文。 🔗 开源详情代码：论文中未提及代码链接模型权重：论文中未提及数据集：论文中未提及 Demo：论文中未提及复现材料：论文中未提及论文中引用的开源项目：未提及 📌 核心摘要要解决什么问题：自动语音识别系统的评估长期依赖于单一的词错误率（WER），该指标虽简单但粗粒度，无法区分和深入分析不同类型的转录错误（如语法错误、语义偏差）。方法核心是什么：本文提出在ASR系统中，利用语言模型进行假设重打分（rescoring）步骤时，引入两个新的评估指标：1）POSER（词性错误率），衡量转录结果在词性序列层面的语法准确性；2）EmbER（嵌入错误率），通过词嵌入计算错误转录词与正确词之间的语义距离，并加权到错误率中，以衡量语义层面的保真度。与已有方法相比新在哪里：超越了纯粹基于字符串匹配的WER，首次系统性地提出将语言模型的语言学知识（语法和语义）具象化为可量化的评估指标，旨在从更深层次理解语言模型对ASR输出的优化效果。主要实验结果如何：论文中未提供具体数值。摘要仅介绍了指标的定义和理念，未报告任何实验设置、对比基线、数据集以及具体的结果数字。实际意义是什么：为ASR系统的评估和改进提供了更细粒度的诊断工具，有助于研究者理解语言模型在语音识别后处理中的具体贡献（是更正了语法还是提升了语义连贯性），从而指导更针对性的模型优化。主要局限性是什么：缺乏实验验证是最大的局限。论文摘要未呈现任何实验来证明所提指标的有效性、合理性以及它们与人类感知或下游任务性能的相关性。指标的具体计算方式（如如何聚合词嵌入距离）也未在摘要中详述。 🏗️ 模型架构论文中未提及具体模型架构。本文重点在于提出新的评估方法/指标，而非一个新的语音识别或语言模型架构。其核心是描述一种评估流程：在标准ASR流水线中，于生成转录假设之后、输出最终结果之前，加入一个语言模型重打分步骤，并用POSER和EmbER对重打分前后的结果进行质性分析。 ...

StarDrinks: An English and Korean Test Set for SLU Evaluation in a Drink Ordering Scenario

📄 StarDrinks: An English and Korean Test Set for SLU Evaluation in a Drink Ordering Scenario #语音识别 #语音对话系统 #大语言模型 #多语言 #数据集 ✅ 7.5/10 | 前25% | #数据集 | #语音对话系统 | #语音识别 #大语言模型 | arxiv 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Marcely Zanon Boito（NAVER LABS Europe）通讯作者：stardrinks@naverlabs.com（邮箱，团队联系人）作者列表：Marcely Zanon Boito（NAVER LABS Europe）、Caroline Brun（NAVER LABS Europe）、Inyoung Kim（NAVER LABS Europe）、Denys Proux（NAVER LABS Europe）、Salah Ait-Mokhtar（NAVER LABS Europe）、Nikolaos Lagos（NAVER LABS Europe）、Jean-Luc Meunier（NAVER LABS Europe）、Ioan Calapodescu（NAVER LABS Europe） 💡 毒舌点评亮点：精准切入了一个被广泛使用却缺乏可靠评测基准的垂直场景（多语言饮料点单），数据集构建流程设计严谨（基于真实收据、母语者录音、人工校验），并明确指出当前强模型（Whisper, GPT-4o）在此类“现实变体”面前的脆弱性，具有很强的工程和评估指导意义。短板：作为一篇“数据集”论文，其“核心方法”部分（即数据收集和验证）虽然扎实但创新有限；基线评估虽全面但略显单薄，未尝试更前沿的上下文偏差矫正（Contextual Biasing）或领域自适应ASR模型，使得“现有模型不行”的结论说服力稍弱；此外，数据集规模（共~550条）对于深度学习时代来说偏小。 ...

Step-Audio-R1.5 Technical Report

📄 Step-Audio-R1.5 Technical Report #语音对话系统 #强化学习 #语音大模型 #预训练 #基准测试 ✅ 7.5/10 | 前25% | #语音对话系统 | #强化学习 | #语音大模型 #预训练 | arxiv 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度中 👥 作者与机构第一作者：Yuxin Zhang（StepFun；上海交通大学；Nanyang Technological University）通讯作者：Fei Tian（StepFun；邮箱：tianfei@stepfun.com）作者列表：Yuxin Zhang（StepFun，上海交通大学，Nanyang Technological University），Xiangyu Tony Zhang（University of New South Wales），Daijiao Liu（StepFun，University of New South Wales），Fei Tian（StepFun），Yayue Deng（StepFun），Jun Chen（StepFun），Qingjian Lin（StepFun），Haoyang Zhang（StepFun，Nanyang Technological University），Yuxin Li（StepFun，Nanyang Technological University），Jinglan Gong（StepFun），Yechang Huang（StepFun），Liang Zhao（StepFun），Chengyuan Yao（StepFun），Hexin Liu（Nanyang Technological University），Eng Siong Chng（Nanyang Technological University），Xuerui Yang（StepFun），Gang Yu（StepFun），Xiangyu Zhang（StepFun），Daxin Jiang（StepFun） 💡 毒舌点评这篇论文敏锐地指出了当前音频推理模型训练中“为答对而答”的机械感问题，并提出了一个颇具潜力的解决方案（RLHF），实验也显示其对话能力有显著提升。然而，模型在最能体现交互能力的AudioMC基准上得分（41.15）仍落后于Gemini 3系列，且核心的“评分标准奖励模型”的具体实现和训练数据细节未在文中公开，这让其宣称的“突破”打了折扣，更像是一个工程改进而非范式革新。 ...

A Dataset of Robot-Patient and Doctor-Patient Medical Dialogues for Spoken Language Processing Tasks

📄 A Dataset of Robot-Patient and Doctor-Patient Medical Dialogues for Spoken Language Processing Tasks #语音对话系统 #数据集 #大语言模型 #模型评估 #语音识别 ✅ 7.5/10 | 前25% | #语音对话系统 | #数据集 | #大语言模型 #模型评估学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 1.0 | 置信度高 👥 作者与机构第一作者：Heriberto Cuayáhuitl（University of Lincoln, School of Engineering and Physical Sciences）通讯作者：未说明（论文中未明确指定通讯作者）作者列表： Heriberto Cuayáhuitl（University of Lincoln, School of Engineering and Physical Sciences） Grace Jang（Lincoln Medical School, Universities of Lincoln and Nottingham） 💡 毒舌点评亮点：数据集规模（111+小时）和收集方法（结合远程操控机器人与真实医患对话）在公开免费资源中独树一帜，并创新性地设计了模拟ASR噪声的评估协议。短板：对LLM的评估停留在通用多选题任务上，未能深入设计更能体现医疗对话复杂性和安全性的评测，使得这项重要的数据资源在论文中的价值释放略显不足，更像一个“半成品”基准。 ...

DOMA: Leveraging Diffusion Language Models with Adaptive Prior for Intent Classification and Slot Filling

📄 DOMA: Leveraging Diffusion Language Models with Adaptive Prior for Intent Classification and Slot Filling #语音对话系统 #意图识别 #槽填充 #扩散模型 #鲁棒性 🔥 8.5/10 | 前25% | #语音对话系统 | #扩散模型 | #意图识别 #槽填充学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Siqi Yang（电子科技大学）通讯作者：Fan Zhou（电子科技大学；智能数字媒体技术四川省重点实验室；喀什电子与信息产业研究院）作者列表：Siqi Yang（电子科技大学），Yue Lei（电子科技大学），Wenxin Tai（电子科技大学），Jin Wu（电子科技大学），Jia Chen（电子科技大学），Ting Zhong（电子科技大学），Fan Zhou*（电子科技大学；智能数字媒体技术四川省重点实验室；喀什电子与信息产业研究院） 💡 毒舌点评这篇论文巧妙地将扩散语言模型（DLM）的并行生成能力用于纠正ASR转录错误，并通过一个轻量级的自适应先验模块来解决DLM可能“改对为错”的痛点，想法很实用。不过，整个框架的性能瓶颈和复杂度高度依赖于所使用的DLM（如LLaDA），自适应先验模块本身也可能引入新的错误（例如错误地掩码了本应保留的token），论文对此的边界讨论不足。 🔗 开源详情代码：论文提供了代码仓库链接：https://github.com/ICDM-UESTC/DOMA。模型权重：论文未提及DOMA中的自适应先验（AP）模块权重是否开源。所使用的DLM（LLaDA-8B-Instruct）为第三方开源模型。数据集：论文使用的是公开的基准数据集（SLURP, ATIS, SNIPS），未提及对数据集的修改或私有部分。 Demo：论文中未提及在线演示。复现材料：论文提供了关键的超参数设置（假设数N=5，门控阈值p=0.5，生成长度64，扩散步数32）、优化器学习率（1e-5）、训练轮数（10 epochs）以及骨干模型（RoBERTa-base），但未提供更详细的训练配置（如batch size）、检查点、完整训练日志或附录中的额外设置。论文中引用的开源项目：论文明确提到使用了开源的LLaDA模型（[14] Nie et al., ICLR 2025 Workshop），以及作为下游骨干的RoBERTa [20]。ASR使用了Whisper Large-v3。 📌 核心摘要本文针对自动语音识别（ASR）错误会传播并损害下游口语理解（SLU）任务（如意图分类和槽填充）性能的问题，提出了一个模型无关的框架DOMA。DOMA的核心是使用扩散语言模型（DLM）对ASR转录文本进行细化，并引入了一个自适应先验（AP）机制来引导DLM的生成过程。具体来说，DOMA首先使用DLM生成多个候选细化假设，然后利用一个轻量级的、可训练的AP模块（包含自注意力和门控机制）来识别并保留原始ASR转录中可能正确的token，从而构建一个部分掩码的初始序列，而非从完全掩码开始生成。这有助于减少DLM的过度纠正，同时减少所需的扩散步数，提升推理效率。在SLURP、ATIS和SNIPS三个基准数据集上的实验表明，DOMA在多种基线模型（如RoBERTa, SpokenCSE）上一致提升了ICSF性能，相对提升最高达3.2%（例如，DOMA+SpokenCSE在SLURP上的IC准确率从85.51%提升至88.26%）。同时，与自回归LLM细化方法相比，DOMA将推理延迟降低了34.8%（RTF从0.66降至0.43）。该框架的意义在于为提升SLU系统对ASR错误的鲁棒性提供了一种高效、通用的后处理方案。主要局限性在于其效果依赖于强大的预训练DLM（如LLaDA-8B），且AP模块的训练需要额外数据和计算资源。 ...