语音大模型

Towards Streaming Target Speaker Extraction via Chunk-wise Interleaved Splicing of Autoregressive Language Model

📄 Towards Streaming Target Speaker Extraction via Chunk-wise Interleaved Splicing of Autoregressive Language Model #语音分离 #自回归模型 #流式处理 #实时处理 #语音大模型 🔥 8.5/10 | 前25% | #语音分离 | #自回归模型 | #流式处理 #实时处理 | arxiv 学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Shuhai Peng (1) 通讯作者：Zhiyong Wu (1,†) 作者列表： Shuhai Peng (1) Hui Lu (2) Jinjiang Liu (1) Liyang Chen (1) Guiping Zhong (3) Jiakui Li (3) Huimeng Wang (2) Haiyun Li (1) Liang Cao (1) Shiyin Kang (3) Zhiyong Wu (1,†) 机构信息：论文中未明确给出机构1、2、3的具体名称。根据作者上标标注，作者分属三个不同机构。 💡 毒舌点评这篇论文的亮点在于首次将自回归生成模型成功适配到流式目标说话人提取任务中，并通过“分块交错拼接”这一工程上优雅的设计解决了训练与推理的不匹配问题，实现了100%的推理稳定性，且性能在低延迟下超越了传统判别式模型。然而，其短板也十分明显：所有实验均在单一的Libri2Mix数据集上进行，对于更复杂、噪声更多样的真实场景（如远场、强混响）的泛化能力未得到验证，这使得其“超越离线基线”的结论显得有些封闭和乐观。 ...

MTR-DuplexBench: Towards a Comprehensive Evaluation of Multi-Round Conversations for Full-Duplex Speech Language Models

📄 MTR-DuplexBench: Towards a Comprehensive Evaluation of Multi-Round Conversations for Full-Duplex Speech Language Models #语音对话系统 #基准测试 #语音大模型 #实时处理 #模型评估 ✅ 评分：7.5/10 | arxiv 👥 作者与机构第一作者：He Zhang（清华大学）通讯作者：论文未明确指定通讯作者。根据作者列表和脚注（Equal contribution. Corresponding author.），He Zhang 和 Wenqian Cui 可能为共同第一作者，且其中一人为通讯作者，但未明确区分。其他作者： Wenqian Cui（香港中文大学） Haoning Xu（香港中文大学） Xiaohui Li（华为技术有限公司） Lei Zhu（华为技术有限公司） Haoli Bai（华为技术有限公司） Shaohua Ma（清华大学） Irwin King（香港中文大学） 💡 毒舌点评亮点：这篇论文精准地抓住了全双工语音模型评测中的“阿喀琉斯之踵”——如何在连续、重叠的对话流中进行公平、可复现的轮次级评估。其提出的轮次分割算法像一把精准的手术刀，试图将混沌的对话流解剖成可分析的片段，这份工程和评测的巧思值得点赞。槽点：然而，作为一个“裁判员”，自己不开源（代码、数据、评估脚本），却要求大家按照你的新规则来比赛，这多少有点“只许州官放火”的味道。而且，全文高度依赖GPT-4o当“裁判的裁判”，让人不禁怀疑这到底是评测FD-SLMs，还是在变相测试GPT-4o的“打分”能力。 🔗 开源详情论文中未提及任何开源计划。未提供代码、模型权重、评测数据集或评估脚本的获取方式。这是一个重大缺陷，限制了该基准的可复现性和社区采纳度。 📌 核心摘要这篇论文旨在解决当前全双工语音语言模型（FD-SLMs）评测体系的一个关键缺陷：缺乏对多轮、连续对话能力的系统性评估。现有基准多关注单轮交互或特定对话特性（如打断），忽略了模型在多轮语境下维持指令遵循、安全等核心能力的一致性。为此，作者提出了MTR-DuplexBench，一个全新的多轮全双工对话评测基准。其核心贡献是设计了一套全双工轮次分割方法，通过结合语音活动检测、GPT-4o语义理解和聚类算法，将连续的对话音频自动、稳定地切分为离散的“轮次”，从而解决了“边界模糊”和“上下文不一致”的评测难题。该基准构建了覆盖四大维度的评测集：对话质量（使用自然对话数据）、对话特性（如平滑交接、打断等）、指令遵循和安全（使用合成数据）。实验以Moshi模型为基线，揭示了其在多轮交互中性能（如成功率、延迟）普遍衰减的规律，证明了该基准的有效性。主要局限性在于评测高度依赖外部大模型（GPT-4o），且未开源任何资源，可能影响其可复现性和广泛应用。 🏗️ 模型架构注意：本论文的核心贡献是评测基准（Benchmark），而非提出新的语音模型。因此，“模型架构”部分描述的是其评测框架的整体架构和工作流程。评测框架的核心是实现对FD-SLMs进行轮次级（turn-by-turn）的自动化评估。其完整流程如下：输入：双通道音频（用户和助手），以及待评测的FD-SLM。轮次分割模块（核心创新）：信息提取：使用Whisper-timestamped和Silero VAD，从两个通道的音频中提取带有时间戳的语音段转录文本。 GPT-4o语义分割：将提取出的所有语音段按时间排序后，输入给GPT-4o，利用其语义理解能力判断用户发言的起止点，生成候选轮次边界。此步骤重复6次以获取多个候选结果。多数投票与聚类：将6次分割结果进行聚类。如果两个候选轮次在时间上重叠超过30%，则将它们合并为一个新候选轮次，其起止时间取所有合并轮次的中位数。仅保留被投票超过1次（即至少在2次GPT分割中出现）的轮次。最终重叠解决：合并所有在时间上仍有重叠的候选轮次，得到最终的用户轮次划分（FinalTurns）。上下文对齐与推理：根据分割出的用户轮次[C.start, C.end]，为助手分配响应时间段[C.start, C_next.end]。关键设计：在助手的响应时间段内，将下一用户轮次的音频静音，并将该时间段内助手通道的历史音频替换为真实（Ground Truth）语音。这确保了模型在推理时，其上下文（历史对话）与评测场景严格一致，避免了因模型早期回答偏离真实对话而导致的“上下文漂移”问题。将处理后的、对齐的音频流输入待评测的FD-SLM，获取其在当前轮次的响应。多维度评估：对模型在每个轮次的输出，根据不同的评测维度（对话质量、对话特性等），调用相应的评估流程和指标（如GPT-score、成功率、延迟、拒绝率）进行打分。输出：模型在各个评测维度、各个轮次上的量化得分。 💡 核心创新点全双工轮次分割方法论： ...

MoshiRAG: Asynchronous Knowledge Retrieval for Full-Duplex Speech Language Models

📄 MoshiRAG: Asynchronous Knowledge Retrieval for Full-Duplex Speech Language Models #语音对话系统 #语音大模型 #流式处理 #实时处理 🔥 评分：8.5/10 | arxiv 👥 作者与机构第一作者：Chung-Ming Chien（推断，基于论文作者顺序）通讯作者：Alexandre Défossez（推断，作为Moshi原始模型的主要作者及本研究的资深作者）其他作者：Manu Orsini, Eugene Kharitonov, Neil Zeghidour, Karen Livescu 机构：论文未在提供节选中明确列出所有作者机构。根据领域常识和致谢推断，主要作者可能来自 Meta FAIR（Alexandre Défossez, Manu Orsini, Eugene Kharitonov, Neil Zeghidour）和 Google（Karen Livescu）。Chung-Ming Chien可能为学生或合作研究员。 💡 毒舌点评亮点：巧妙地利用了语音对话中“开口说废话”到“讲重点”之间的时间差（关键词延迟），塞进了一个异步检索过程，让全双工模型能“一边应付你一边查资料”，这个工程巧思是本文最大的智慧。槽点：整个系统严重依赖合成的“完美”对话数据来训练检索触发和整合，到了真实世界用户结结巴巴、ASR错误百出的场景，那个精巧的时间差和触发机制会不会立刻失灵？这可能是未来最大的挑战。 🔗 开源详情代码：论文提到代码在GitHub开源，地址为 https://github.com/kyutai-labs/moshi-rag。模型权重：论文未明确说明是否开源MoshiRAG的模型权重。原始Moshi模型权重可能已开源。数据集：论文详细描述了合成数据生成流程，但未提及是否公开生成的语音或文本数据集。在线Demo：论文提到“Moshi RAG demo”，但未提供具体链接。依赖的开源工具：论文引用了多个开源项目，包括Moshi模型、Mimi编码器、ARC-Encoder、Gemma模型、Tavily搜索API（商业）、HaluEval数据集、CommonVoice数据集等。 📌 核心摘要本文旨在解决全双工语音语言模型（如Moshi）事实性不足的核心问题，同时不牺牲其高交互性。问题：全双工模型能实时打断和回应，但因训练数据规模远小于文本，其知识储备和事实准确性较弱。方法：提出了MoshiRAG，一个模块化框架。它在Moshi模型中引入一个特殊的<ret>检索触发令牌。当模型预测到用户提出知识密集型问题时，会生成<ret>，并异步调用外部检索后端（如LLM或搜索引擎）。利用模型生成回答时从“开场白”到“核心信息”之间的自然延迟（关键词延迟），在后台完成检索，并将检索到的文本参考信息编码后注入模型，用于生成后续基于事实的回答。效果：在多个语音问答基准上，MoshiRAG的事实性显著超越原始Moshi及其他多数公开的语音语言模型，接近GPT-4o Audio的水平，同时其端到端关键词延迟（E2EKD）保持较低水平，并在全双工交互基准上表现优异。局限性：系统性能依赖于流式ASR的准确性和检索延迟；当前检索触发完全基于训练数据模式，缺乏动态决策能力；主要使用合成数据训练，真实场景泛化性待验证。 🏗️ 模型架构 MoshiRAG是一个由三个主要组件构成的模块化系统：前端：增强的Moshi全双工模型 (7B参数) - 输入：用户语音（经Mimi编码器编码为语音令牌 s^u）。 - 输出：自回归地生成两个并行流：模型语音令牌 s^m 和模型文本转写令牌 t^m（带填充）。 - 核心修改： - 引入特殊文本令牌 <ret> 作为检索触发信号。 - 增加了一个参考文本编码器（采用预训练的ARC-Encoder，压缩比4:1），用于将检索到的文本参考文档编码为嵌入序列 emb^ref。 - 信息注入机制（加法注入）：当<ret>在时间步 i_ret 被预测后，等待检索延迟 d 秒。之后，参考文档的编码嵌入通过一个可训练的线性层投影，并以流式方式（逐时间步）加到Moshi主干Transformer的输入嵌入 h_i 上，形成 h'_i。公式为：h'_i = h_i + proj(emb^ref_{i-(i_ret + d/f_r)})，其中 f_r 是Moshi的帧率（12.5Hz）。前端：流式ASR模型 (1B参数) - 功能：独立于Moshi，实时接收用户语音流并转写为文本，为检索后端提供对话上下文。 - 特点：低延迟（0.5秒），参数量小，计算开销低。后端：异步检索系统 - 触发：在<ret>被预测后，系统收集ASR和Moshi输出的文本转写，形成对话上下文。 - 处理：将上下文发送给检索后端。后端可以是基于LLM的检索（如Gemma 3 27B，根据上下文生成参考文本）或基于搜索的检索（如Tavily API，获取网页摘要）。 - 输出：返回一段文本参考文档。 - 时序：设计目标是在2秒内完成检索，以确保在Moshi说出关键词（核心信息）前将信息注入。 ...

VoxMind: An End-to-End Agentic Spoken Dialogue System

📄 VoxMind: An End-to-End Agentic Spoken Dialogue System #语音对话系统 #语音大模型 #端到端 #数据集 🔥 评分：8.5/10 | arxiv 👥 作者与机构共同第一作者：Tianle Liang（浙江大学；China University of Petroleum-Beijing at Karamay），Yifu Chen（浙江大学），Shengpeng Ji（浙江大学）通讯作者：Zhou Zhao（浙江大学，zhaozhou@zju.edu.cn）其他作者：Yijun Chen（China University of Petroleum-Beijing at Karamay），Zhiyang Jia（China University of Petroleum-Beijing at Karamay），Jingyu Lu（浙江大学），Fan Zhuo（浙江大学），Xueyi Pu（浙江大学），Yangzhuo Li（厦门大学） 💡 毒舌点评亮点：VoxMind把文本Agent那套"先想后说"的套路成功塞进了端到端语音模型里，还顺手用"辅助LLM异步捞工具"治好了工具一多就卡顿的绝症，实验硬到能把Gemini-2.5-Pro按在地上摩擦。槽点：470小时的训练数据全靠TTS合成，遇到真人说话时的"嗯…那个…"、结巴和背景噪音立刻掉7个点；所谓"Think-before-Speak"本质上就是在语音流里硬插了一段文本CoT，延迟该高还是高，作者自己也承认这是"必要的 trade-off"——翻译一下就是"我知道慢，但先忍着"。 🔗 开源详情代码：完全开源，GitHub地址为 https://github.com/MM-Speech/VoxMind。论文未给出具体stars数量与框架版本依赖细节。模型权重：基于开源模型StepAudio2进行监督微调。论文未明确说明是否将微调后的权重上传至HuggingFace等平台，但代码仓库公开通常暗示可复现。数据集：开源AgentChat数据集，总规模约470小时。包含： AgentChat-Tool（约109小时，14,805条）：覆盖单工具选择、多工具选择、参数填充、并行调用、主动检索、环境反馈观察等场景。 AgentChat-Normal（约361小时，38,681条）：覆盖常识推理（ARC/SciQ）、数学推理（GSM8K）、课本知识与开放域对话。补充数据：No-Tool跨模态数据（5.09小时）、Security安全数据、Text纯文本数据。预训练权重：基于StepAudio2基座模型。在线Demo：论文中未提及在线体验地址。依赖工具/模型：PyTorch, DeepSpeed, CosyVoice2（语音合成）, SeedTTS（音色多样化）, Qwen-plus（数据清洗、CoT生成与质量评估）, Gemini-2.5-Flash（自动评估器）。 📌 核心摘要端到端语音对话模型在自然交互上进步迅速，但普遍缺乏处理复杂任务的agent能力（工具调用、规划、推理）。本文首先形式化定义了"端到端语音智能体"的四大维度——画像（Profile）、记忆（Memory）、规划（Planning）与执行（Action Execution），填补了该领域理论标准的空白。在此基础上提出VoxMind框架，引入"Think-before-Speak"机制，使模型在生成语音响应前显式产出结构化推理链（Chain-of-Thought）；并构建470小时的AgentChat数据集，包含工具交互与通用对话数据，且全部标注了推理轨迹与工具调用标签。为解决大规模工具库带来的推理延迟爆炸问题，VoxMind设计了多智能体动态工具管理架构：主agent专注于推理与行动，辅助LLM异步从全局工具池中检索候选工具，仅当主agent判定本地工具不足时才动态扩容局部工具集，从而将推理延迟与工具库规模解耦。实验表明，VoxMind的任务总体完成率达74.57%，较基线StepAudio2（34.88%）相对提升113.79%，并超越闭源模型Gemini-2.5-Pro（71.51%）；同时在VoiceBench通用对话评测上保持了与基线相当的能力。局限在于显式推理引入了额外的推理延迟，且AgentChat数据依赖TTS合成，与真实口语的自发性和不流畅性存在差距。 ...

Contextual Biasing for ASR in Speech LLM with Common Word Cues and Bias Word Position Prediction

📄 Contextual Biasing for ASR in Speech LLM with Common Word Cues and Bias Word Position Prediction #语音识别 #语音大模型 #迁移学习 #领域适应 🔥 评分：8.0/10 | arxiv 👥 作者与机构第一作者：Sashi Novitasari（推断为论文主要执行者，但论文中未明确标注）通讯作者：George Saon（推断为项目负责人或资深作者，基于其在作者列表中的位置及在Granite-Speech项目中的核心角色）其他作者：Takashi Fukuda, Kurata Gakuto（推断与第一作者同属一个团队）所属机构：论文中未明确标注作者所属机构。但根据论文中使用的核心模型“Granite-Speech”由IBM团队开发，以及作者姓名和常见的研究合作模式，高度推断所有作者均来自IBM研究院（IBM Research）。具体可能涉及IBM的语音与自然语言处理研究部门。 💡 毒舌点评这篇论文的亮点在于它巧妙地绕开了传统语音上下文偏置对专业G2P（字素到音素）工具的依赖，用“常见词”当“语音拐杖”，让普通用户也能给AI“开小灶”，思路非常接地气且实用。槽点则是实验规模和深度有点“小家子气”，只在英语数据上验证了方法的有效性，对于多语言、超大规模词表的场景能否扛得住，以及“常见词”列表的构建和覆盖度问题，都缺乏更深入的探讨，感觉像是一个完成度很高的原型系统报告。 🔗 开源详情代码：论文中提到了“GitHub Issue”的链接，但这是arXiv HTML版本用于报告问题的模板链接，并非论文代码仓库。论文正文未明确提供代码开源地址。模型权重：论文使用了IBM开源的 Granite-Speech-3.3-8b 架构和 granite-3.3-8b-instruct 作为基座。但论文中提出的方法的微调后模型权重是否开源，未在文中说明。数据集：实验使用了多个公开数据集：LibriSpeech, CommonVoice 17.0, AMI, VoxPopuli, SPGISpeech, Gigaspeech。Voicemail数据集可能需要申请。MIT 10K词列表是公开的。预训练权重：基于公开的Granite-Speech预训练权重进行微调。在线Demo：论文中未提及在线演示链接。引用的开源项目： Granite-Speech: IBM的开源语音大模型。 SoundChoice G2P: 用于字素到音素转换的模型（来自SpeechBrain工具包）。 LoRA: 用于高效微调大语言模型的技术。 Q-Former: 源自BLIP-2视觉语言模型的架构。总结：论文依赖于多个开源项目（Granite-Speech, LoRA等），但其核心贡献——基于常见词提示的上下文偏置方法及训练代码——未在论文中声明开源。 ...

VoxSafeBench: Not Just What Is Said, but Who, How, and Where

📄 VoxSafeBench: Not Just What Is Said, but Who, How, and Where #基准测试 #语音大模型 #音频理解 #音频安全 🔥 评分：8.5/10 | arxiv 👥 作者与机构第一作者：无法从摘要中明确判断通讯作者：无法从摘要中明确判断其他作者：Yuxiang Wang, Hongyu Liu, Yijiang Xu, Qinke Ni, Li Wang, Wan Lin, Kunyu Feng, Dekun Chen, Xu Tan, Lei Wang, Jie Shi, Zhizheng Wu 注：所提供的论文摘要中未包含任何作者所属机构信息。根据要求，无法从联系邮箱、致谢等处进行推断，故仅列出作者姓名。 💡 毒舌点评这篇论文的亮点在于它敏锐地抓住了语音大模型（SLM）从“玩具”走向“工具”时必须面对的残酷现实：话不能只听内容，还得看谁说、怎么说、在哪儿说。它设计的“双层评估框架”像一把精准的手术刀，剖开了当前模型在语音情境理解上的虚胖——感知能力在线，但“社会智商”掉线。槽点嘛，就是它主要是个“体检报告”而非“药方”，指出了病灶（语音接地鸿沟）但没开药，而且依赖于现有模型的感知能力作为评估前提，如果感知本身就不准，结论就得打个问号。 🔗 开源详情代码：是。论文摘要明确指出“Code and data are publicly available”，并提供了项目主页链接：https://amphionteam.github.io/VoxSafeBench_demopage/。通常此类项目会托管在GitHub。模型权重：摘要未提及。VoxSafeBench是评估基准，本身不包含模型权重。它用于评估其他SLM。数据集：是。摘要明确指出数据公开，应包含在项目主页提供的链接中。预训练权重：不适用。基准不涉及预训练。在线Demo：项目主页链接（...demopage/）很可能包含在线演示或交互式示例。引用的开源项目：摘要未提及具体依赖的开源工具或模型。 📌 核心摘要这篇论文旨在解决一个关键问题：当语音大模型（SLM）进入多用户共享环境时，仅基于文本内容的安全对齐策略是不足的，说话人身份、副语言特征和声学场景等音频上下文信息会根本性地改变请求的性质。为此，作者提出了VoxSafeBench，这是一个首个联合评估SLM在安全、公平和隐私三个社会维度对齐能力的基准测试。其核心方法是采用“双层设计”：Tier1使用文本和音频匹配的输入评估内容中心风险；Tier2则聚焦于音频条件风险，即文本转录无害但正确响应依赖于声学线索的场景。通过设计中间感知探针，作者验证了前沿SLM能够检测相关声学线索，但仍然无法据此做出恰当的社会性响应。主要发现是，在22个双语任务上，模型在纯文本中表现出的鲁棒安全护栏，在语音场景下显著退化：对于说话人和场景条件的风险安全意识下降，当人口差异通过声音传达时公平性受损，当上下文线索通过声音传递时隐私保护失效。这揭示了普遍存在的“语音接地鸿沟”。该工作的实际意义在于为评估和改进SLM在实际复杂声学环境中的社会智能提供了关键的诊断工具和衡量标准。 🏗️ 模型架构注意：VoxSafeBench本身是一个评估基准（Benchmark），而非一个具体的模型。因此，它没有传统意义上的“模型架构”。它的“架构”指的是其评估框架的设计。 ...