Adaptive Turn-Taking for Real-time Multi-Party Voice Agents

📄 Adaptive Turn-Taking for Real-time Multi-Party Voice Agents #数据增强 #流式处理 6.7/10 | 创新 1.4/2 | 严谨 1.1/1.5 | 实验 1.2/1.5 | 清晰 1/1 | 影响 0.7/1.5 | 开源 0/1.5 | 复现 0.3/0.5 | 工程 1/1.5 ✅ 6.7/10 | 后50% | #数据增强 | #数据增强 | #流式处理 | arxiv 👥 作者与机构 Soumyajit Mitra, Prabhat Pandey, Abhinav Jain, Shanmukha Sahith, K V Vijay Girish。机构:Amazon AGI, IIT Kharagpur, India。 💡 毒舌点评 这篇论文试图用“角色扮演”来解决一个语音对话中的棘手问题——“谁该说话”,想法是不错的。但它就像一个训练有素的演员,在剧本(合成数据)和特定舞台(RolePlayConv评估集)上表现完美,可一旦到了真实、混乱、没有剧本的会议(NOTSOFAR-1)或者去掉提词器(文本转录),演技就大打折扣。最致命的是,它精心设计的整套“表演”系统——从数据、评估到角色分配——大部分都是自产自销、自我验证的闭环,代码和数据集都锁在仓库里,这严重削弱了它声称的“突破性”价值。说白了,这是一篇工程上细致、实验上自洽,但在开放性和真实世界通用性上自我设限的系统论文。 📌 核心摘要 本文针对多方语音对话中轮次转换(即决定何时发言)的难题,提出了ModeratorLM。这是一个基于语音大语言模型(LLM)的角色扮演代理,其是否介入对话的行为取决于一个明确指定的角色(如“主持人”)。系统采用分块流式处理方式。作者还引入了ModeratorLM-Think变体,它在做出决策前,会结合对话上下文和指定角色进行链式思维推理。为了训练模型,他们构建了大规模合成数据集RolePlayConv。实验表明,与没有角色条件的基线模型相比,ModeratorLM-Think在轮次转换的精确率、召回率上均有大幅提升(精确率提升超40%,召回率提升超70%),并显著减少了误打断。消融实验分析了分块策略和文本转录的影响。 ...

2026-06-12 · 更新于 2026-06-12 · 2 min · 349 words

Endpoint Anticipation for Low-Latency Spoken Dialogue

📄 Endpoint Anticipation for Low-Latency Spoken Dialogue #多任务学习 #流式处理 8.2/10 | 创新 1.4/2 | 严谨 1.3/1.5 | 实验 1.4/1.5 | 清晰 1/1 | 影响 1.2/1.5 | 开源 0/1.5 | 复现 0.5/0.5 | 工程 1.4/1.5 🔥 8.2/10 | 前25% | #多任务学习 | #多任务学习 | #流式处理 | arxiv 👥 作者与机构 Udupa (Sathvik Udupa), Watanabe (Shinji Watanabe), Schwarz (Petr Schwarz), Cernocky (Jan Černocký)。 1 Brno University of Technology, Czechia 2 Carnegie Mellon University, United States 联系邮箱:{udupa, schwarzp, cernocky}@fit.vut.cz, shinjiw@ieee.org ...

2026-06-12 · 更新于 2026-06-12 · 2 min · 340 words

Lip Forcing: Few-Step Autoregressive Diffusion for Real-time Lip Synchronization

📄 Lip Forcing: Few-Step Autoregressive Diffusion for Real-time Lip Synchronization #自回归模型 #扩散模型 #流式处理 6.8/10 | 创新 1.5/2 | 严谨 1.2/1.5 | 实验 1/1.5 | 清晰 1/1 | 影响 0.4/1.5 | 开源 0/1.5 | 复现 0.5/0.5 | 工程 1.2/1.5 ✅ 6.8/10 | 前50% | #语音合成 | #自回归模型 | #扩散模型 #流式处理 | arxiv 👥 作者与机构 论文标题: Lip Forcing: Few-Step Autoregressive Diffusion for Real-time Lip Synchronization arXiv ID: 2606.11180 作者: Paul Hyunbin Cho, Jinhyuk Jang, SeokYoung Lee, Joungbin Lee, Siyoon Jin, Heeseong Shin, Jung Yi, Yunjin Park, Chulmin Park, Seungryong Kim† 机构: 1KAIST AI, 2AIPARK ...

2026-06-11 · 更新于 2026-06-12 · 3 min · 437 words

ANCHOR: Autoregressive Non-intrusive Chunk-Ordered Refinement for Joint Multi-Resolution Speech Quality Modeling

📄 ANCHOR: Autoregressive Non-intrusive Chunk-Ordered Refinement for Joint Multi-Resolution Speech Quality Modeling #语音质量评估 #自回归模型 #多任务学习 #流式处理 8/10 | 创新 1.4/2 | 严谨 1.1/1.5 | 实验 1.3/1.5 | 清晰 1/1 | 影响 0.8/1.5 | 开源 0.4/1.5 | 复现 0.5/0.5 | 工程 1.5/1.5 🔥 8/10 | 前25% | #语音质量评估 | #多任务学习 | #自回归模型 #流式处理 | arxiv 👥 作者与机构 Zhuoyan Tao (University of Southern California, USA), Jiatong Shi (Carnegie Mellon University, USA), Hye-jin Shim, Shinji Watanabe ...

2026-06-10 · 更新于 2026-06-12 · 2 min · 318 words

FlashTTS: Fast Streaming TTS with MTP Acceleration and X-pred Mean Flow Distillation

📄 FlashTTS: Fast Streaming TTS with MTP Acceleration and X-pred Mean Flow Distillation #语音合成 #流式处理 7.9/10 | 创新 1.2/2 | 严谨 1.3/1.5 | 实验 1.3/1.5 | 清晰 1/1 | 影响 1.2/1.5 | 开源 0/1.5 | 复现 0.5/0.5 | 工程 1.4/1.5 ✅ 7.9/10 | 前25% | #语音合成 | #流式处理 | arxiv 👥 作者与机构 Hanke Xie, Xiaming Ren, Dake Guo, Ruonan You, Wenhao Li, Jingbin Hu, Guobin Ma, Huakang Chen, Kejie Xu, Rui Huang, Weiguo Tan, Xianrong Wang, Lei Xi Audio, Speech and Language Processing Group (ASLP@NPU), School of Software, Northwestern Polytechnical University; Huawei Technologies Co., Ltd ...

2026-06-09 · 更新于 2026-06-12 · 2 min · 284 words

MeanVC 2: Robust Low-Latency Streaming Zero-Shot Voice Conversion

📄 MeanVC 2: Robust Low-Latency Streaming Zero-Shot Voice Conversion #语音合成 #生成模型 #流式处理 #鲁棒性 #数据增强 #正则化微调 6.9/10 | 创新 1.4/2 | 严谨 1.2/1.5 | 实验 0.9/1.5 | 清晰 1/1 | 影响 0.8/1.5 | 开源 0.3/1.5 | 复现 0.5/0.5 | 工程 0.8/1.5 ✅ 6.9/10 | 前50% | #语音转换 | #生成对抗网络 | #语音合成 #生成模型 | arxiv 👥 作者与机构 马国彬1,谢旭1,赵品枫3,马佳琪1,江翰科1,贾景bin1,郭延波1,谢磊1,2,朱鹏程3 1 西北工业大学软件学院,音频、语音与语言处理组 (ASLP@NPU),中国 2 新南威尔士大学,澳大利亚 3 WeNet开源社区,中国 💡 毒舌点评 这篇工作在解决流式VC的实际痛点上做得扎实,将训练效率和推理延迟的提升量化得很清楚。FRC和UTTE的设计动机明确,且都有消融实验支持。但创新性略显不足,FRC本质上是对注意力掩码的层间调度,UTTE的结构也较为常见。实验对比基线较弱,缺乏与近期(如SeedVC等)强力SOTA的直接比较。作者声称的“鲁棒性”提升,其评估规模(30个说话人)和退化模型的多样性值得商榷。此外,代码未开源使得其声称的可复现性目前仍为空头支票。总体是一篇扎实的工程优化论文,但理论新意和实验全面性有提升空间。 📌 核心摘要 本文针对流式零样本语音转换中存在的训练效率低、小分块设置下质量下降以及参考音频质量敏感等局限性,提出了MeanVC 2系统。其核心创新在于:1) 引入未来感知分块策略(FRC),通过为扩散Transformer(DiT)的每一层分配不同的注意力掩码,分层调度过去和未来的感受野,并移除了原有的干净分块教师强迫机制。这使模型能够利用有限的未来上下文,在仅40毫秒的小分块设置下稳定生成,并将首包延迟从211毫秒降至110毫秒,同时将训练峰值内存消耗降低约60%。2) 提出通用音色标记编码器(UTTE),它不直接从参考梅尔谱图中提取细粒度特征,而是将全局说话人嵌入映射为一组“通用音色标记”(包含可学习的先验和针对目标说话人的调制),并利用源语音的瓶颈特征作为查询,通过交叉注意力检索发音相关的音色细节,从而解耦音色表示与参考音频质量,提升了鲁棒性。实验表明,MeanVC 2在说话人相似度(SSIM)和语音质量(DNSMOS)上优于MeanVC基线和StreamVoice+,且在低质量参考音频条件下表现更优。 ...

2026-06-09 · 更新于 2026-06-12 · 4 min · 702 words

IRAF: Interference-Resilient Adaptive Fusion for Noise-Robust End-to-End Full-Duplex Spoken Dialogue Systems

📄 IRAF: Interference-Resilient Adaptive Fusion for Noise-Robust End-to-End Full-Duplex Spoken Dialogue Systems #流式处理 6.5/10 ✅ 6.5/10 | 前50% | #语音对话系统 | #流式处理 | arxiv 👥 作者与机构 Zhong Tao, Jiajun Deng, Nikita Kuzmin, Yinke Zhu, Tianxiang Cao, Tristan Tsoi, Zhili Tan, Simon Lui, Xunying Liu 1 The Chinese University of Hong Kong, China 2 AudioLab Hong Kong, Huawei Leibniz Research Center, China 3 Nanyang Technological University, Singapore 💡 毒舌点评 这篇文章抓��了全双工对话系统在真实噪声环境中的一个切实痛点——干扰语音污染条件输入。IRAF的思路直观,即“不确定的就不信”,用一个轻量门控去缩放可能被污染的音频特征,这听起来简单直接,甚至有些“土办法”的味道。论文声称这是“首次”尝试解决E2E全双工系统的这类问题,但方法本身(用一个Speaker Embedding做引导的注意力门控)在语音分离、说话人日志等领域已有大量影子,创新深度有限。实验在两个数据集上做了,也加了消融,看起来扎实,但缺少与更多近期SOTA的直接对比,说服力打了折扣。最让人皱眉的是,整个门控的监督信号(目标说话人活跃帧)在训练时依赖完美的说话人活动分割,这在真实在线场景中如何获取?论文对此避而不谈。一个严重依赖“干净”训练信号来应对“嘈杂”现实的方法,其泛化能力要打个大大的问号。总的来说,这是一篇工程上合理、实验上尚可、但理论新意和实际部署可行性存疑的工作。 📌 核心摘要 本文针对端到端双通道全双工语音对话系统在存在干扰说话人的现实环境中性能下降的问题,提出了IRAF(干扰鲁棒自适应融合)模块。该问题源于干扰语音被错误编码为用户查询,污染了大语言模型(LLM)的条件输入,导致轮次管理错误和响应质量降低。IRAF是一个轻量级、流式兼容的模块,它在每一帧接收用户音频嵌入和目标说话人嵌入,通过一个小型Transformer网络预测一个可靠性门控值\(g_t \in [0,2]\)。\(g_t\)用于缩放用户音频表示,然后与代理文本嵌入融合后送入LLM。IRAF与整个模型联合端到端训练,并引入一个辅助二分类损失(权重0.1)来引导门控学习区分目标说话人活跃帧与干扰帧。在MS-MARCO和InstructS2S-200K数据集上的实验表明,与仅用噪声增强训练的基线(NoisyAug)相比,IRAF在多种干扰条件下均显著提升了响应质量(BLEU, sBERT)和交互性能(RSR, SSR),并降低了响应延迟。消融实验和SNR分析进一步证实了该方法的有效性和泛化性。 ...

2026-06-08 · 更新于 2026-06-12 · 1 min · 151 words

Watch, Remember, Reason: Human-View Video Understanding with MLLMs

📄 Watch, Remember, Reason: Human-View Video Understanding with MLLMs #多模态模型 #流式处理 6.4/10 | 创新 1.5/2 | 严谨 1.2/1.5 | 实验 1/1.5 | 清晰 1/1 | 影响 0.5/1.5 | 开源 0/1.5 | 复现 0.2/0.5 | 工程 1/1.5 ✅ 6.4/10 | 前50% | #多模态模型 | #流式处理 | arxiv 👥 作者与机构 作者:Jiahao Meng, Yue Tan, Qi Xu, Kuan Gao, Weisong Liu, Yanwei Li, Jason Li, Lingdong Kong, Haochen Wang, Qianyu Zhou, Jiangning Zhang, Guangliang Cheng, Yunhai Tong, Lu Qi, Minghsuan Yang 机构:J. Meng, Y. Tan, Y. Tong 隶属于北京大学智能科学与技术学院;Q. Xu, L. Qi 隶属于武汉大学;K. Gao, Y. Li 隶属于上海交通大学;J. Li 隶属于南洋理工大学;H. Wang, W. Liu 隶属于中国科学院自动化研究所(CASIA);Q. Zhou 隶属于东京大学;G. Cheng 隶属于利物浦大学;J. Zhang 隶属于浙江大学;L. Kong 隶属于新加坡国立大学;M. Yang 隶属于加州大学默塞德分校。 ...

2026-06-08 · 更新于 2026-06-12 · 2 min · 247 words

Audio Interaction Model

📄 Audio Interaction Model #流式处理 9.8/10 | 创新 1.5/2 | 严谨 1.3/1.5 | 实验 1.4/1.5 | 清晰 1/1 | 影响 1.5/1.5 | 开源 1.1/1.5 | 复现 0.5/0.5 | 工程 1.5/1.5 🔥 9.8/10 | 前50% | #流式处理 | #流式处理 | arxiv 👥 作者与机构 11位作者。机构包括南洋理工大学(NTU)、新加坡国立大学(NUS)、香港中文大学(CUHK)。 💡 毒舌点评 这篇论文的动机确实抓住了当前音频大模型的一个痛点:离线、单任务、不实时。提出的“音频交互模型”概念听起来很前沿,也构建了听起来很宏大的SoundFlow框架和庞大的数据集StreamAudio-2M。但仔细审视,有几个问题让它离顶尖工作有些距离:1) “交互”的定义过于狭窄,本质上是决定“何时说话”,缺乏真正的对话协商或情感反馈循环。与Moshi等全双工系统的对比不够深入。2) 数据集完全合成,其合成流水线(尤其是LLM规划场景)引入的分布偏见和现实性未得到充分验证,附录的2小时真实数据验证规模太小。3) 关键评估指标(如主动响应基准)过于粗糙,仅用准确率,未评估响应质量或时机恰当性。4) 论文声称的部分开源(提供项目页和数据集)与完全开源(代码、模型权重)有差距,影响了可复现性评分。总体而言,这是一篇扎实的工程与系统构建工作,在特定任务(如流式训练)上显示了有效性,但理论深度和对“交互”本质的探索不足,更像一个针对特定问题的精巧解决方案,而非一个具有深远影响力的新范式。 📌 核心摘要 本文针对当前大型音频语言模型(LALMs)离线、单任务的局限,提出了“音频交互模型”这一新范式,并设计了SoundFlow框架予以实现。Audio-Interaction模型能够以流式方式持续监听音频流,并实时决定是保持沉默还是进行响应,从而在统一框架下融合了传统音频理解任务(如对话、ASR)和流式原生能力(如同声传译、主动帮助)。核心贡献包括:1)提出SoundFlow框架,涵盖从数据构建、流式训练到异步推理的全流程;2)构建了大规模流式音频数据集StreamAudio-2M(2.6M项,302k小时);3)提出了评估主动响应能力的Proactive-Sound-Bench。实验表明,Audio-Interaction在主流音频基准上保持了竞争力,同时解锁了离线模型无法实现的流式能力。 🔗 开源详情 代码:论文中未提及明确的代码仓库链接。论文提供了项目主页:https://xzf-thu.github.io/Audio-Interaction。 模型权重:论文中未提及模型权重的直接下载链接或开源仓库。模型基于Qwen2.5-Omni-3B初始化。 数据集:论文明确提供了StreamAudio-2M数据集的链接:https://huggingface.co/datasets/zhifeixie/StreamAudio-2M。 Demo:论文中未提及在线演示链接。 复现材料:论文在附录中提供了详细的训练超参数配置(附录E,表11)、算法伪代码(算法1-4)、数据集构建流程(附录B.4)以及评估基准定义(附录D),为复现提供了重要信息。 🏗️ 方法概述和架构 SoundFlow是一个端到端的框架,旨在实现“感知-决策-响应”循环。其核心架构包含三大组件,协同工作以支持流式交互: 交互数据合成: 时频联合预处理模块 (TFJP):一个轻量级的预处理流水线,用于将短音频片段拼接成长流前进行平滑处理,使其更自然、更适合下游训练。该模块通过迭代执行静音裁剪(silence_cut)、噪声估计与去除(denoise)、核心信息定位(core_locate)、边界对齐(boundary_norm)和频谱平滑(spec_smooth)等操作来实现。其中,boundary_norm使用半个音频块的对齐步长 δ = 1/2,spec_smooth使用长度为 ω 的短窗进行平滑。该过程由算法1详细描述。 分层音频事件选择:为解决简单随机拼接导致的事件冲突和语境不连贯问题,采用层次化的事件策划流水线:(i) 场景规划:使用LLM从随机匹配的音频标注中规划一个完整的高级场景,包含多个主题或子事件;(ii) 事件细化:将每个主题细化为具体的音频事件序列,并为每个事件分配一个音频片段;(iii) 片段落地:通过检索或生成两种机制获取最终音频片段。该设计旨在生成语义连贯性和环境合理性的长流音频。 流式训练: 流式建模:模型以增量方式处理固定长度的音频块(本实现中为400ms)。在每个时间步,模型预测一个特殊的控制令牌 \(d_t \in \{\texttt{<silent>}, \texttt{}\}\) 来决定是继续监听还是开始响应。这形成了统一的“感知-决策-响应”序列过程。 上下文记忆与理解感知静音训练:为解决训练中观察到的两个关键失败模式:(1) 上下文保留不足(模型容易忽略早期上下文),引入历史回顾训练,在序列后期插入关于前面内容的问题;(2) 误触发(模型容易对交互无关的声学事件做出响应),在训练中加入大量经由智能体验证的静音音频,要求模型在这些情况下保持沉默。 双损失多步流式转换:模型从Qwen2.5-Omni-3B初始化。训练损失包含两个部分:标准语言建模损失 \(\mathcal{L}_{\text{LM}}\) 和流式控制令牌预测损失 \(\mathcal{L}_{\text{stream}}\),由权重 \(\lambda\) 平衡。整个训练包含四个阶段:(1) 格式训练:使用离线数据教模型目标序列格式和<Spe_token>的使用;(2) 适配器训练:训练适配器将分块的声学表示映射到语言模型空间;(3) 大规模流式监督训练:在核心能力(音频理解、ASR、口语对话)上联合优化适配器和语言模型;(4) 指令微调:在复杂流式行为(持续辅助、理解感知干预、主动响应)上进一步训练模型,使用交错序列数据。 异步交互推理: 采用FIFO调度的异步推理方案以实现实时稳定交互。编码器作为纯生产者,持续处理音频流块并将其声学表示追加到时间有序队�� \(\mathcal{Q}\)。解码器作为事件驱动的消费者,其触发逻辑基于上一个生成的令牌 \(r_{t-1}\):如果 \(r_{t-1} \in \{\texttt{<eos>}, \texttt{<silent>}\}\),解码器会清空队列 \(\mathcal{Q}\) 并将其特征吸入KV缓存,然后生成一个控制令牌;否则,解码器执行自回归文本生成步骤,不触碰队列。这种“触发时清空”的机制消除了推理停顿,并将响应完成后恢复监听的首帧延迟降低了4.5倍。该过程由算法3详细描述。 ...

2026-06-05 · 更新于 2026-06-12 · 4 min · 718 words

VoCodec: A Low-bitrate Streamable Neural Speech Codec with Voicing-driven Quantization

📄 VoCodec: A Low-bitrate Streamable Neural Speech Codec with Voicing-driven Quantization #语音编码 #流式处理 7.2/10 | 创新 1.3/2 | 严谨 1.2/1.5 | 实验 1.4/1.5 | 清晰 1/1 | 影响 1/1.5 | 开源 0/1.5 | 复现 0.5/0.5 | 工程 0.8/1.5 ✅ 7.2/10 | 前50% | #语音编码 | #流式处理 | arxiv 👥 作者与机构 第一作者:Xiao-Hang Jiang (江晓航)。 机构:中国科学技术大学,清华大学。 💡 毒舌点评 这篇工作的核心想法——给浊音多分点比特,清音少分点——本身是合理的,甚至可以说是回归了经典语音处理的一个常识。但问题在于,为了证明这个“显而易见”的道理,论文的实验和论证显得有些“小题大做”。作者用了一套看似复杂的神经网络框架,但核心的决策模块(浊音检测器)却异常简单粗暴(能量阈值),这就像用高射炮打蚊子,而高射炮的瞄准镜还是个固定的。此外,论文在多个关键细节上语焉不详(GAN训练、LSTM状态、IVQ的具体贡献),使得这项工作的可复现性和分析深度打了折扣。它更像是一次对StreamCodec的成功“调参”和“魔改”,而非一次深刻的技术突破。所谓27%的比特率节省,在特定条件下成立,但推广性存疑。 📌 核心摘要 VoCodec是一个面向低比特率场景的可流式神经语音编解码器。其核心创新在于提出“发声驱动量化”策略:通过一个基于基频能量的简单阈值检测器判断每帧是浊音还是清音,然后对感知更重要的浊音帧使用精细的残差标量-向量量化(RSVQ),而对清音帧使用粗糙的单标量量化(SQ)。论文在LibriTTS(16kHz)和VCTK(48kHz)数据集上进行了实验,表明VoCodec在1.1 kbps(16kHz)下的感知质量(MUSHRA)优于同为流式的StreamCodec,并接近计算量大得多的BigCodec。进一步的ABX测试显示,VoCodec以1.1 kbps的码率达到了与SQCodec等模型在1.5 kbps下相当的感知质量,实现了约27%的比特率节省。消融实验(VoCodec-r)通过反转量化策略,验证了为浊音帧分配更多比特的有效性。然而,该方法在理论分析深度、关键实现细节的披露、以及在复杂声学环境下的泛化能力验证方面存在不足。 🔗 开源详情 代码:论文中未提及代码开源链接。 模型权重:论文中未提及模型权重开源链接。 数据集:论文中使用了 LibriTTS 和 VCTK 数据集。获取链接如下: LibriTTS: 通常通过 LibriSpeech 官方工具或 HuggingFace 获得(论文未提供直接链接)。 VCTK: https://datashare.ed.ac.uk/handle/10283/3443。 Demo:论文中提供了语音样本演示页面:https://pb20000090.github.io/VoCodec/。 复现材料:论文未提供训练代码、检查点、具体训练脚本或配置文件的下载链接。 论文中引用的开源项目: StreamCodec:作为VoCodec的基础架构,论文未提供其代码仓库的具体链接。 HiFi-GAN:被用作解码器的vocoder,其官方代码仓库为 https://github.com/jik876/hifi-gan。 SoundStream 和 Encodec:作为相关工作被引用,提供了官方实现链接。 SQCodec:论文指出其官方发布仅提供了16 kHz下1.5 kbps的实现,未提供完整开源仓库。 🏗️ 方法概述和架构 VoCodec采用全因果的编码器-解码器架构,适用于流式传输。其整体流程如图1所示,包含四个核心组件:编码器、发声检测器、发声驱动量化器和解码器。 ...

2026-06-05 · 更新于 2026-06-12 · 3 min · 456 words