RTCFake: Speech Deepfake Detection in Real-Time Communication

📄 RTCFake: Speech Deepfake Detection in Real-Time Communication #语音伪造检测 #一致性学习 #数据集 #实时处理 ✅ 7.0/10 | 前25% | #语音伪造检测 | #一致性学习 | #数据集 #实时处理 | arxiv 学术质量 6.5/7 | 选题价值 1.8/2 | 复现加成 0.8 | 置信度 高 👥 作者与机构 第一作者:Jun Xue(武汉大学,计算机科学与工程学院,网络空间安全专业,Key Laboratory of Aerospace Information Security and Trusted Computing, Ministry of Education) 通讯作者:Yanzhen Ren(武汉大学,计算机科学与工程学院) 作者列表:Jun Xue(武汉大学,计算机科学与工程学院)、Zhuolin Yi(武汉大学,计算机科学与工程学院)、Yihuan Huang(武汉大学,计算机科学与工程学院)、Yanzhen Ren(武汉大学,计算机科学与工程学院)、Yujie Chen(北京航空航天大学)、Cunhang Fan(安徽大学,计算机科学与技术学院)、Zicheng Su(武汉大学,计算机科学与工程学院)、Yongcheng Zhang(武汉大学,计算机科学与工程学院)、Bo Cai(武汉大学,计算机科学与工程学院) 💡 毒舌点评 亮点:论文首次系统性地指出了真实RTC传输环境对语音伪造检测的“黑盒”挑战,并针对性地构建了大规模配对数据集和基于语言学单元的训练策略,问题定义精准且工程落地意图明确。短板:所提的“音素引导一致性学习”本质上是特征对齐的损失函数改进,创新性相对有限;实验部分虽然全面,但核心方法(PCL)相比简单的混合训练(Mix)带来的提升幅度(EER从7.33%降至5.81%)并非革命性,说服力中等。 📌 核心摘要 解决的问题:现有的语音深度伪造检测研究主要针对离线场景,忽略了真实实时通信(RTC)过程中由噪声抑制、编解码、数据包丢失等黑盒处理模块引入的复杂、耦合且动态的失真,导致检测模型跨平台泛化和噪声鲁棒性差。 方法核心:提出首个针对RTC场景的大规模语音深度伪造数据集RTCFake(约600小时),并通过主流通信平台进行真实传输构建配对的离线/在线语音。基于观察到音素级表征比帧级表征在传输前后更稳定,提出了音素引导的一致性学习(PCL)策略,在训练时约束模型学习跨传输条件的音素级不变特征。 新在哪里:数据层面,首次构建了覆盖多生成模型、多RTC平台、多噪声场景的配对数据集;方法层面,首次利用语音的音素结构作为稳定锚点,引导检测模型学习领域不变的鉴别性特征,区别于以往基于帧级特征或简单数据增强的方法。 主要实验结果: 在RTCFake评估集上,提出的PCL方法取得了最佳的平均EER(5.81%),优于仅离线训练(9.60%)、仅在线训练(8.96%)和混合数据训练(7.33%)。 跨平台泛化实验表明,PCL方法在已见和未见通信平台上均显著优于基线方法,尤其在未见平台上的EER稳定且最低。 噪声鲁棒性实验证明,在多种未见噪声条件下,PCL方法的性能稳定性优于其他训练策略。 实际意义:为在真实、复杂的RTC环境中部署语音伪造检测系统提供了关键的数据基础和一种有效的建模范式,有助于提升视频会议、社交软件等场景下的语音交互安全。 主要局限性:未考虑真实世界中录音/播放硬件的异质性、用户行为多样性等终端侧变量与平台处理管线的交互影响;在极端噪声或某些平台的强非线性失真下仍存在性能差距。 🏗️ 模型架构 本文并未提出一个全新的检测模型架构,而是在已有的SOTA检测模型框架上引入了一种新的训练策略。其核心流程如下: ...

2026-04-28 · 更新于 2026-06-18 · 2 min · 337 words

Dilated CNNs for Periodic Signal Processing: A Low-Complexity Approach

📄 Dilated CNNs for Periodic Signal Processing: A Low-Complexity Approach #语音增强 #信号处理 #低资源 #实时处理 ✅ 6.5/10 | 前50% | #语音增强 | #信号处理 | #低资源 #实时处理 | arxiv 学术质量 5.0/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度 中 👥 作者与机构 第一作者:未说明 通讯作者:未说明 作者列表:Eli Gildish(未说明), Michael Grebshtein(未说明), Igor Makienko(未说明) 💡 毒舌点评 论文的亮点在于其明确的工程导向,即为资源受限环境(如边缘设备、嵌入式系统)设计一种低复杂度、高效率的周期性信号处理方案,其“重采样+复用网络”的思路具有一定的实用巧思。然而,最大的短板在于摘要中完全没有提供任何具体的实验数据、对比基线或性能指标,使得“性能相当”的结论缺乏说服力,也让人无法判断其创新的实际分量。 🔗 开源详情 根据提供的论文摘要内容: 代码:论文中未提及代码链接。 模型权重:未提及。 数据集:未提及。 Demo:未提及。 复现材料:未提及训练细节、配置、检查点或附录说明。 论文中引用的开源项目:摘要中未提及。 总结:论文中未提及任何开源计划。 📌 核心摘要 问题:周期性信号(如语音、音乐、医疗信号)的去噪和波形估计是信号处理的核心任务。现有深度学习方法计算开销大,且通常需要为每个新信号单独训练模型,不适用于资源受限场景。 方法核心:提出一种名为R-DCNN的轻量级方法。其核心思想是利用重采样技术,将不同基频的信号在时间尺度上对齐,从而能够复用同一个预训练的扩张卷积神经网络(DCNN)的权重,无需为每个新信号重新训练。 创新点:该方法实现了“单样本训练,多信号泛化”。通过轻量的重采样步骤,使得一个训练好的网络可以处理不同基频的信号,同时保持了较低的计算复杂度。 主要实验结果:论文摘要中声称,R-DCNN在性能上与自回归(AR)等经典方法以及为每个观测单独训练的传统DCNN相当。但摘要中未提供任何具体的数值结果、对比表格或图表。 实际意义:该方法特别适合部署在功耗和计算资源严格受限的环境中(如物联网设备、便携式医疗仪器、嵌入式传感器),能够在不牺牲精度的前提下实现高效的信号去噪与估计。 主要局限性:根据摘要信息,其主要局限性在于:a) 缺乏具体的实验验证细节,无法评估其声称的“性能相当”是否在各种条件下成立;b) 方法的有效性可能高度依赖于信号周期性的假设和重采样步骤的精度。 🏗️ 模型架构 根据摘要描述,R-DCNN的整体架构包含两个核心部分:重采样模块和扩张卷积神经网络(DCNN)。 ...

2026-04-24 · 更新于 2026-06-18 · 1 min · 117 words

Full-Duplex Interaction in Spoken Dialogue Systems: A Comprehensive Study from the ICASSP 2026 HumDial Challenge

📄 Full-Duplex Interaction in Spoken Dialogue Systems: A Comprehensive Study from the ICASSP 2026 HumDial Challenge #语音对话系统 #基准测试 #数据集 #实时处理 ✅ 6.5/10 | 前25% | #语音对话系统 | #基准测试 | #数据集 #实时处理 | arxiv 学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Chengyou Wang(西北工业大学计算机学院,音频、语音与语言处理组 (ASLP@NPU)) 通讯作者:Lei Xie(西北工业大学计算机学院,音频、语音与语言处理组 (ASLP@NPU)) 作者列表:Chengyou Wang(西北工业大学ASLP@NPU)、Hongfei Yue(西北工业大学ASLP@NPU)、Guojian Li(南京大学)、Zhixian Zhao(未说明)、Shuiyuan Wang(未说明)、Shuai Wang(未说明)、Xin Xu(未说明)、Hui Bu(AISHELL)、Lei Xie(西北工业大学ASLP@NPU) 💡 毒舌点评 亮点:该论文的核心价值在于“修路”而非“造车”——它首次系统性地为“全双工语音对话”这一前沿但混乱的领域提供了标准化的评估基准(HumDial-FDBench)和高质量的双通道真人录音数据集,填补了关键空白,为后续研究提供了可比较的标尺。短板:论文本身更像一份详尽的挑战赛技术报告,而非提出一个具有突破性性能的新模型或算法;其评估框架依赖外部ASR和LLM进行行为分类,可能引入额外误差和不可控变量。 🔗 开源详情 代码:论文中未提及评估框架或分析代码的链接。仅提供了数据集的GitHub链接:https://github.com/ASLP-lab/HumDial-FDBench 模型权重:未提及。论文评估的是其他团队或公司的模型。 数据集:公开。通过上述GitHub链接获取。 Demo:未提及。 复现材料:论文详细描述了数据集构建流程、评估指标计算方法(包括公式)和评分规则,提供了复现评估所需的大部分信息。但缺少ASR和LLM的具体配置。 论文中引用的开源项目:Paraformer (ASR), Silero-VAD (VAD), DeepSeek (数据生成与行为分类), Moshi, Freeze-Omni, Osum-EChat (被评估模型), Easy-Turn (基线组件)。 📌 核心摘要 问题:传统语音对话系统基于严格的轮流发言模式,缺乏人类自然对话中同时听与说的全双工交互能力,导致对话不自然、响应不及时。 方法核心:为解决评估难题,论文基于ICASSP 2026 HumDial Challenge,提出了一个名为HumDial-FDBench的综合基准测试,并配套发布了一个高质量的双通道真人录音数据集。 创新点:这是首个专门针对全双工交互(处理打断、重叠语音、拒绝无效输入等)的评估框架和配套数据集。数据集采用“LLM生成脚本+真人录制”的两阶段方法构建,以保证对话的自然性和交互现象的覆盖度。 主要实验结果:论文建立了一个公开排行榜,对比了多种开源(如Freeze-Omni, Moshi)和闭源(如Gemini-2.5)模型。结果显示,现有模型在处理打断和拒绝场景时仍存在显著不足。例如,在最终得分榜上,最佳团队“Cookie asr”得分为76.6,而基线系统仅为56.4。具体结果见下表: 团队 打断得分 (Int.) 拒绝得分 (Rej.) 平均延迟 (s) 延迟得分 (D-Sco.) 最终得分 排名 Cookie asr 79.3 72.2 1.260 79.9 76.6 1 Badcat 89.7 57.8 1.632 72.6 73.5 2 SenseDialog 76.4 60.9 1.237 80.5 71.0 3 Gemini-2.5 79.8 36.5 1.301 79.0 62.3 – Baseline 75.9 35.2 2.531 60.0 56.4 6 Freeze-Omni 29.6 50.2 2.578 59.5 43.8 – Moshi 35.4 22.8 2.876 56.3 34.5 – 实际意义:为全双工语音对话系统的研究和开发提供了急需的、标准化的评估工具和高质量数据,有助于公平比较不同方法,推动该领域向更自然、响应更及时的方向发展。 主要局限性:评估框架本身依赖外部的ASR和LLM进行行为分类,其准确性可能影响最终评分。论文作为挑战赛总结,未提出解决全双工交互难题的根本性新模型。 🏗️ 模型架构 论文本身并未提出一个新的对话模型架构,而是提出了一个评估框架(HumDial-FDBench)和数据集。其核心是定义如何评估一个全双工对话系统。 ...

2026-04-24 · 更新于 2026-06-18 · 1 min · 204 words

Sema: Semantic Transport for Real-Time Multimodal Agents

📄 Sema: Semantic Transport for Real-Time Multimodal Agents #实时处理 #信号处理 #多模态模型 #跨模态 ✅ 6.5/10 | 前50% | #实时处理 | #信号处理 | #多模态模型 #跨模态 | arxiv 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 -0.5 | 置信度 中 👥 作者与机构 第一作者:Jiaying Meng (Unaffiliated) 通讯作者:未说明 作者列表:Jiaying Meng (Unaffiliated), Bojie Li (Pine AI) 💡 毒舌点评 这篇论文提出了一个极具前瞻性的“语义传输”范式,敏锐地抓住了为AI模型而非人类优化媒体传输这一核心矛盾,理论框架清晰。然而,其最大的短板在于所有结论均基于仿真,缺乏一个端到端的真实系统实现和验证,使得“颠覆性”的结论在工程落地层面显得有些悬空。 🔗 开源详情 代码:论文中未提及代码链接。 模型权重:未提及。 数据集:评估中使用了公开数据集LibriSpeech和OSWorld,但论文本身未提供新数据集。 Demo:未提及。 复现材料:未提供训练细节、配置文件、检查点或详细附录说明。论文主要描述了系统设计和仿真评估方法。 论文中引用的开源项目:论文引用了多个开源项目作为其组件的替代或基础,包括:SpeechTokenizer (Zhang et al., 2024), EnCodec (Défossez et al., 2023), CosyVoice (Du and others, 2024), Layton (Qu et al., 2025), FlexTok (Bachmann and others, 2025), PaddleOCR, Apple Vision framework, Whisper (Radford et al., 2023), Qwen2.5-VL (Wang and others, 2025a), HiFi-GAN (Kong et al., 2020)。 📌 核心摘要 要解决的问题:当前多模态AI智能体(如语音助手、电脑操控智能体)使用为人类实时通信(RTC)设计的网络协议栈传输原始音频和屏幕截图,这导致了巨大的带宽和延迟开销,因为这些协议优化的是人类感知的保真度和播放流畅性,而AI模型处理的是离散的语义事件。 方法核心:提出Sema系统,其核心思想是“传输意义,而非信号”。在上行链路(客户端到服务器),用离散的语义令牌(如语音令牌、混合屏幕表示)替代原始媒体;在下行链路(服务器到客户端),将语音合成器(vocoder)移至客户端,并采用突发式令牌交付,消除抖动缓冲。 与已有方法相比新在哪里:与传统RTC(如WebRTC、Opus/WebP编码)相比,Sema实现了根本性的范式转变:从优化信号级失真(Shannon-Weaver Level A)转向优化任务级语义保真(Level B)。具体创新包括:(1) 在客户端进行语义令牌化而非在服务器端编码;(2) 设计了结合无损结构化文本(无障碍树/OCR)和紧凑视觉令牌的混合屏幕表示;(3) 利用AI模型的“事件时间容忍度”实现突发交付。 主要实验结果:在广域网仿真条件下,Sema相比基线(Opus 32kbps音频,WebP质量80截图)实现了音频上行带宽减少64倍(从12KB/3秒降至188B),屏幕上行带宽减少130-210倍(从700KB降至3-5KB)。同时,下游任务准确率(语音识别WER、屏幕导航和文本任务成功率)与原始基线相比差距在0.7个百分点以内。关键结果见下表和图: 表1:每轮上行载荷中位数对比 ...

2026-04-24 · 更新于 2026-06-18 · 2 min · 266 words

Before the Mic: Physical-Layer Voiceprint Anonymization with Acoustic Metamaterials

📄 Before the Mic: Physical-Layer Voiceprint Anonymization with Acoustic Metamaterials #语音匿名化 #信号处理 #鲁棒性 #实时处理 ✅ 7.5/10 | 前25% | #语音匿名化 | #信号处理 | #鲁棒性 #实时处理 | arxiv 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度 高 👥 作者与机构 第一作者:Zhiyuan Ning(西北大学) 通讯作者:未说明 作者列表: Zhiyuan Ning(西北大学) Zhanyong Tang(西北大学) Xiaojiang Chen(西北大学) Zheng Wang(利兹大学) 💡 毒舌点评 亮点在于开创性地将声学超材料引入声纹保护领域,提供了一种无需信任设备、无需耗能的物理层解决方案,思路非常新颖且实验验证扎实。短板是当前的刚性外壳形态可能影响美观和佩戴舒适度,且其核心依赖于特定频率的声学干扰,未来若出现能精准分离声纹特征与语音内容的新型攻击,其鲁棒性可能面临挑战。 🔗 开源详情 代码:论文中提及了“GitHub Issue”,但未提供明确的代码仓库链接。无法确认是否开源。 模型权重:不适用。 数据集:未提及公开数据集。 Demo:未提及在线演示。 复现材料:论文提供了关键的设计参数和仿真示意图,但未提供可直接用于制造的完整工程文件(如CAD模型、打印参数)或复现脚本。 论文中引用的开源项目:提到了使用COMSOL Multiphysics进行仿真,以及Google Speech-to-Text进行评估,但这些是商业工具或服务,并非论文贡献的开源项目。 论文中未提及明确的开源计划。 📌 核心摘要 这篇论文针对在公共场景(如会议、演讲)中,不可信录音设备可能导致声纹泄露且事后无法补救的问题,提出了EchoMask——首个基于声学超材料的物理层实时声纹匿名化系统。其核心方法是在声音到达麦克风前,通过精心设计的被动声学结构对特定低频段(300-700Hz)进行选择性干扰,该频段对说话人识别至关重要但对语音可懂度影响较小。与已有软件和硬件方法相比,EchoMask的新颖之处在于其工作在物理层,不依赖可信的麦克风硬件、固件或软件,且无需外部供电。实验结果表明,在8种麦克风和5种说话人识别系统上,EchoMask能将失配率(MMR)提升至90%以上,同时保持高语音可懂度(词准确率>95%)和高感知质量(MOS>4)。该工作的实际意义在于为不可信环境下的声纹隐私提供了一种低成本、易部署的物理屏障。主要局限性在于系统当前为刚性3D打印结构,可能影响美观和舒适度,且其干扰频带固定,缺乏动态调谐能力以应对未来更复杂的自适应攻击。 🏗️ 模型架构 EchoMask是一个物理系统,而非传统的计算模型。其“架构”由三个协同工作的物理组件构成: ...

2026-04-23 · 更新于 2026-06-18 · 2 min · 236 words

Towards Streaming Target Speaker Extraction via Chunk-wise Interleaved Splicing of Autoregressive Language Model

📄 Towards Streaming Target Speaker Extraction via Chunk-wise Interleaved Splicing of Autoregressive Language Model #语音分离 #自回归模型 #流式处理 #实时处理 #语音大模型 🔥 8.5/10 | 前25% | #语音分离 | #自回归模型 | #流式处理 #实时处理 | arxiv 学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Shuhai Peng (1) 通讯作者:Zhiyong Wu (1,†) 作者列表: Shuhai Peng (1) Hui Lu (2) Jinjiang Liu (1) Liyang Chen (1) Guiping Zhong (3) Jiakui Li (3) Huimeng Wang (2) Haiyun Li (1) Liang Cao (1) Shiyin Kang (3) Zhiyong Wu (1,†) 机构信息:论文中未明确给出机构1、2、3的具体名称。根据作者上标标注,作者分属三个不同机构。 💡 毒舌点评 这篇论文的亮点在于首次将自回归生成模型成功适配到流式目标说话人提取任务中,并通过“分块交错拼接”这一工程上优雅的设计解决了训练与推理的不匹配问题,实现了100%的推理稳定性,且性能在低延迟下超越了传统判别式模型。然而,其短板也十分明显:所有实验均在单一的Libri2Mix数据集上进行,对于更复杂、噪声更多样的真实场景(如远场、强混响)的泛化能力未得到验证,这使得其“超越离线基线”的结论显得有些封闭和乐观。 ...

2026-04-23 · 更新于 2026-06-18 · 2 min · 316 words

BEAT: Tokenizing and Generating Symbolic Music by Uniform Temporal Steps

📄 BEAT: Tokenizing and Generating Symbolic Music by Uniform Temporal Steps #音乐生成 #自回归模型 #实时处理 #数据集 #音频生成 🔥 评分:8.5/10 | arxiv 👥 作者与机构 根据论文标题页信息,作者为: 第一作者:Lekai Qian 通讯作者:Ziyu Wang (根据常规学术论文作者排序惯例推断,论文未明确标注) 其他作者:Haoyu Gu, Jingwei Zhao 论文未明确标注作者所属机构。根据arXiv论文的常见情况及作者姓名推测,作者可能来自中国的高校或研究机构(如清华大学、北京大学、中国科学院等),但论文正文中未提供明确信息。 💡 毒舌点评 亮点:把钢琴卷帘(Piano-roll)这种“笨重”的2D表示,巧妙地“压扁”成按拍(beat)分组的稀疏token序列,既保留了时间网格的规整性,又获得了堪比事件序列的紧凑性,这个“鱼与熊掌兼得”的思路非常优雅。 槽点:模型规模(150M)相对保守,在当今大模型时代略显“迷你”,限制了其性能上限和作为通用音乐表示的潜力;此外,实验主要集中在西方音乐传统(MIDI, 4/4拍),对其他音乐文化的普适性有待验证。 🔗 开源详情 代码:论文明确提供了GitHub仓库链接 (https://anonymous.4open.science/w/BEAT-349F/),表明代码将开源。 模型权重:论文提及了在线Demo页面,暗示预训练模型权重可能随代码一同发布。 数据集:使用了公开的Lakh MIDI Dataset和MuseScore Collection,但经过了特定的过滤和处理。论文未提及发布新的数据集。 在线 Demo:提供了匿名Demo页面 (https://anonymous.4open.science/w/BEAT-349F/) 供体验。 依赖的开源项目:论文中提及了MusPy(用于评估)、LLaMA(作为模型架构参考)等开源工具。 📌 核心摘要 本文针对符号音乐生成中主流的事件序列(event-based)tokenization方法隐含处理时间规律、导致模型需额外学习时间网格的问题,提出了一种名为BEAT的新型网格化tokenization框架。其核心思想是将音乐在时间上均匀离散化为“拍”(beat)作为基本单位,将每拍内每个音高的活动状态(起音、持续、静音)编码为一个“模式”(pattern)令牌,并与音高、力度信息组合,形成按拍组织的稀疏令牌序列。这种方法显式地融入了音乐时间均匀性的归纳偏置。实验表明,在音乐续写和实时伴奏生成任务上,BEAT在节奏一致性(JS GC)、分布相似性(FMD)等客观指标和主观听感评价上均优于REMI、Compound Word等基线方法。进一步分析显示,BEAT表示更紧凑、具有更好的可压缩性,能更有效地捕捉长程结构,并天然支持实时流式生成。该工作为符号音乐表示学习提供了一个兼具理论优雅性和实践有效性的新方向。 🏗️ 模型架构 BEAT的核心并非一个全新的模型架构,而是一种新的音乐表示(tokenization)方案,该方案可无缝接入标准的自回归Transformer语言模型。 完整输入输出流程: 输入:多轨符号音乐(如MIDI),被表示为三维张量 (轨道数 P, 时间步数 T) 的钢琴卷帘矩阵,每个元素取值 {0(静音), 1(起音), 2(持续)},并附带力度信息。 编码阶段(BEAT Encoding): 步骤1(拍内编码):以固定时间步长 τ(默认为4个十六分音符,即一拍)将钢琴卷帘分割为 N 个“拍段” B(i)。对于每个拍段内的每个音高 p,将其 τ 个时间步的状态向量通过三进制转整数编码为一个“模式令牌” PAT_x。同时,计算该音高在此拍内的平均力度,编码为“力度令牌” VEL_x。 步骤2(拍级组装):识别当前拍段内的活跃音高集合,按音高降序排列。第一个音高使用绝对音高索引作为“音高令牌” PIT_d,后续音高使用与前一音高的相对音程差作为音高令牌。这样,一个拍的内容被表示为一组 (PIT_d, PAT_s, VEL_v) 三元组的序列。若该拍全休止,则用一个特殊的 REST 令牌表示。 步骤3(序列构建):在每个拍的序列前插入 BEAT 令牌作为分隔符。在每小节开始处插入 BAR 令牌。对于多轨音乐,在每个拍的轨道内容前插入乐器令牌 INS_x。最终,所有拍的序列按时间顺序拼接,形成完整的令牌序列。 建模阶段:将上述令牌序列输入标准的16层Transformer解码器(150M参数,遵循LLaMA架构),使用自回归方式建模令牌的联合概率分布,训练时最小化交叉熵损失。 输出与解码:模型自回归生成令牌序列。解码器通过识别绝对/相对音高令牌来重建拍段和钢琴卷帘,最终还原为可播放的符号音乐。 关键设计选择理由: ...

2026-04-22 · 更新于 2026-06-18 · 2 min · 335 words

MTR-DuplexBench: Towards a Comprehensive Evaluation of Multi-Round Conversations for Full-Duplex Speech Language Models

📄 MTR-DuplexBench: Towards a Comprehensive Evaluation of Multi-Round Conversations for Full-Duplex Speech Language Models #语音对话系统 #基准测试 #语音大模型 #实时处理 #模型评估 ✅ 评分:7.5/10 | arxiv 👥 作者与机构 第一作者:He Zhang(清华大学) 通讯作者:论文未明确指定通讯作者。根据作者列表和脚注(Equal contribution. Corresponding author.),He Zhang 和 Wenqian Cui 可能为共同第一作者,且其中一人为通讯作者,但未明确区分。 其他作者: Wenqian Cui(香港中文大学) Haoning Xu(香港中文大学) Xiaohui Li(华为技术有限公司) Lei Zhu(华为技术有限公司) Haoli Bai(华为技术有限公司) Shaohua Ma(清华大学) Irwin King(香港中文大学) 💡 毒舌点评 亮点:这篇论文精准地抓住了全双工语音模型评测中的“阿喀琉斯之踵”——如何在连续、重叠的对话流中进行公平、可复现的轮次级评估。其提出的轮次分割算法像一把精准的手术刀,试图将混沌的对话流解剖成可分析的片段,这份工程和评测的巧思值得点赞。 槽点:然而,作为一个“裁判员”,自己不开源(代码、数据、评估脚本),却要求大家按照你的新规则来比赛,这多少有点“只许州官放火”的味道。而且,全文高度依赖GPT-4o当“裁判的裁判”,让人不禁怀疑这到底是评测FD-SLMs,还是在变相测试GPT-4o的“打分”能力。 🔗 开源详情 论文中未提及任何开源计划。未提供代码、模型权重、评测数据集或评估脚本的获取方式。这是一个重大缺陷,限制了该基准的可复现性和社区采纳度。 📌 核心摘要 这篇论文旨在解决当前全双工语音语言模型(FD-SLMs)评测体系的一个关键缺陷:缺乏对多轮、连续对话能力的系统性评估。现有基准多关注单轮交互或特定对话特性(如打断),忽略了模型在多轮语境下维持指令遵循、安全等核心能力的一致性。为此,作者提出了MTR-DuplexBench,一个全新的多轮全双工对话评测基准。其核心贡献是设计了一套全双工轮次分割方法,通过结合语音活动检测、GPT-4o语义理解和聚类算法,将连续的对话音频自动、稳定地切分为离散的“轮次”,从而解决了“边界模糊”和“上下文不一致”的评测难题。该基准构建了覆盖四大维度的评测集:对话质量(使用自然对话数据)、对话特性(如平滑交接、打断等)、指令遵循和安全(使用合成数据)。实验以Moshi模型为基线,揭示了其在多轮交互中性能(如成功率、延迟)普遍衰减的规律,证明了该基准的有效性。主要局限性在于评测高度依赖外部大模型(GPT-4o),且未开源任何资源,可能影响其可复现性和广泛应用。 🏗️ 模型架构 注意:本论文的核心贡献是评测基准(Benchmark),而非提出新的语音模型。因此,“模型架构”部分描述的是其评测框架的整体架构和工作流程。 评测框架的核心是实现对FD-SLMs进行轮次级(turn-by-turn) 的自动化评估。其完整流程如下: 输入:双通道音频(用户和助手),以及待评测的FD-SLM。 轮次分割模块(核心创新): 信息提取:使用Whisper-timestamped和Silero VAD,从两个通道的音频中提取带有时间戳的语音段转录文本。 GPT-4o语义分割:将提取出的所有语音段按时间排序后,输入给GPT-4o,利用其语义理解能力判断用户发言的起止点,生成候选轮次边界。此步骤重复6次以获取多个候选结果。 多数投票与聚类:将6次分割结果进行聚类。如果两个候选轮次在时间上重叠超过30%,则将它们合并为一个新候选轮次,其起止时间取所有合并轮次的中位数。仅保留被投票超过1次(即至少在2次GPT分割中出现)的轮次。 最终重叠解决:合并所有在时间上仍有重叠的候选轮次,得到最终的用户轮次划分(FinalTurns)。 上下文对齐与推理: 根据分割出的用户轮次[C.start, C.end],为助手分配响应时间段[C.start, C_next.end]。 关键设计:在助手的响应时间段内,将下一用户轮次的音频静音,并将该时间段内助手通道的历史音频替换为真实(Ground Truth)语音。这确保了模型在推理时,其上下文(历史对话)与评测场景严格一致,避免了因模型早期回答偏离真实对话而导致的“上下文漂移”问题。 将处理后的、对齐的音频流输入待评测的FD-SLM,获取其在当前轮次的响应。 多维度评估: 对模型在每个轮次的输出,根据不同的评测维度(对话质量、对话特性等),调用相应的评估流程和指标(如GPT-score、成功率、延迟、拒绝率)进行打分。 输出:模型在各个评测维度、各个轮次上的量化得分。 💡 核心创新点 全双工轮次分割方法论: ...

2026-04-22 · 更新于 2026-06-18 · 2 min · 237 words

语音/音乐/音频论文速递 2026-04-22

语音/音乐/音频论文速递 2026-04-22 共分析 21 篇论文 ⚡ 今日概览 📥 抓取 21 篇 → 🔬 深度分析完成 🏷️ 热门方向 方向 数量 分布 语音识别 5篇 █████ 语音合成 4篇 ████ 基准测试 4篇 ████ 模型评估 4篇 ████ 多语言 3篇 ███ 音频大模型 3篇 ███ 数据增强 3篇 ███ 大语言模型 3篇 ███ 📊 论文评分排行榜(20 篇,按分数降序) 排名 论文 评分 🥇 Qwen3.5-Omni Technical Report 9.5分 🥈 Benign Fine-Tuning Breaks Safety Alignment in Audio LLM 9.5分 🥉 UAF: A Unified Audio Front-end LLM for Full-Duplex Spee 9.0分 4 HalluAudio: A Comprehensive Benchmark for Hallucination 9.0分 5 Voice of India: A Large-Scale Benchmark for Real-World 8.5分 6 BEAT: Tokenizing and Generating Symbolic Music by Unifo 8.5分 7 ATRIE: Adaptive Tuning for Robust Inference and Emotion 8.5分 8 Reducing the Offline-Streaming Gap for Unified ASR Tran 8.0分 9 Deep Supervised Contrastive Learning of Pitch Contours 8.0分 10 Disentangling Damage from Operational Variability: A La 8.0分 11 Text-To-Speech with Chain-of-Details: modeling temporal 7.5分 12 Towards Streaming Target Speaker Extraction via Chunk-w 7.5分 13 APRVOS: 1st Place Winner of 5th PVUW MeViS-Audio Track 7.5分 14 NVBench: A Benchmark for Speech Synthesis with Non-Verb 7.5分 15 Detecting Hallucinations in SpeechLLMs at Inference Tim 7.5分 16 MTR-DuplexBench: Towards a Comprehensive Evaluation of 7.5分 17 Tadabur: A Large-Scale Quran Audio Dataset 7.0分 18 Environmental Sound Deepfake Detection Using Deep-Learn 6.5分 19 Audio Spoof Detection with GaborNet 6.5分 20 Comparison of sEMG Encoding Accuracy Across Speech Mode 6.0分 21 MoVE: Translating Laughter and Tears via Mixture of Voc N/A 📋 论文列表 🥇 Qwen3.5-Omni Technical Report 🔥 9.5分 | #语音合成 #语音识别 #音频大模型 #预训练 | arxiv ...

2026-04-22 · 更新于 2026-06-18 · 8 min · 1620 words

Full-Duplex-Bench-v3: Benchmarking Tool Use for Full-Duplex Voice Agents Under Real-World Disfluency

📄 Full-Duplex-Bench-v3: Benchmarking Tool Use for Full-Duplex Voice Agents Under Real-World Disfluency #语音对话系统 #基准测试 #实时处理 #大语言模型 🔥 评分:8.0/10 | arxiv 👥 作者与机构 第一作者:Guan-Ting Lin (台湾大学) 通讯作者:Hung-yi Lee (台湾大学) 其他作者:Chen Chen (英伟达), Zhehuai Chen (英伟达) 💡 毒舌点评 亮点:终于有人用真实的、结结巴巴的人话来拷问那些号称“实时对话”的语音AI了,而不是用完美的TTS自欺欺人。特别是对“自我纠正”(“去纽约…啊不,波士顿”)这种致命场景的测试,直击当前系统的软肋。 槽点:论文本身是个“裁判”而非“运动员”,它很尽责地指出了选手们(GPT-Realtime, Gemini等)的弱点,但并没有给出如何训练出更好选手的秘方。此外,100条语音的测试集对于覆盖复杂现实场景可能还是略显单薄。 🔗 开源详情 代码与数据集:论文提供了 GitHub 仓库链接(https://daniellin94144.github.io/FDB-v3-demo/)和 CC BY-SA 4.0 许可证,强烈暗示基准的数据集、评估脚本和可能的Demo代码已开源。 在线Demo:提供了在线演示链接(https://daniellin94144.github.io/FDB-v3-demo/)。 模型:评估的模型(GPT-Realtime, Gemini Live等)均为第三方API或开源模型(如Ultravox),论文未发布新模型权重。 引用开源项目:论文依赖 LiveKit 实时语音代理框架进行系统部署和评估。 📌 核心摘要 这篇论文针对当前全双工语音代理评估缺乏真实性(依赖合成语音)和任务简单性(单步调用)的问题,提出了Full-Duplex-Bench-v3 (FDB-v3) 基准。该基准的核心创新在于使用100条真实人类录音(含五种不流畅性注释),在四个任务域中设计了需要多步API链式调用的场景,并特别包含了21个测试意图中途自我纠正的案例。通过对GPT-Realtime、Gemini Live等六个主流系统(包括一个级联基线)的评估,论文发现:1)在任务完成率上,GPT-Realtime领先;2)Gemini Live 3.1延迟最低但“静默工作”(只调用工具不说话)比例高;3)自我纠正和多步推理在复杂场景下仍是所有系统的最普遍失败模式。该工作为语音代理的研发提供了贴近现实的评估标尺,并指明了平衡响应速度与对话灵活性的未来方向。 🏗️ 模型架构 本文不提出新模型,而是评估现有模型。 其评估框架的整体流程如下: 输入:来自真实人类录音的音频流,其中包含自然产生的不流畅现象(填充词、停顿、错误开头、自我纠正等)。 系统处理:音频流被送入待评估的语音代理系统。论文评估了六种配置: 端到端语音到语音模型:GPT-Realtime, Gemini Live 2.5/3.1, Grok, Ultravox v0.7。这些模型内部集成语音识别、语言理解和语音生成。 级联流水线基线:Whisper (ASR) -> GPT-4o (LLM,负责推理和工具调用) -> OpenAI TTS (语音合成)。 工具执行:所有系统均通过 LiveKit 实时语音代理框架 连接到本地模拟的API。这些Mock API(如search_flights, book_ticket)具有确定性、零延迟的响应,以隔离模型本身的推理和参数传递性能。 输出与评估:系统输出包括生成的语音和工具调用日志。评估从四个维度进行: 工具使用准确性:工具选择F1值、参数语义准确性、任务完成率(Pass@1)。 对话质量:由GPT-4o评判的响应质量。 轮流发言动态:轮流发言率、基础延迟(用户说完到系统开始响应)、打断率、填充句率。 延迟分解:首词延迟、首次工具调用延迟、任务完成延迟(通过GPT-4o分析ASR片段,分离填充语句和关键信息句)。 💡 核心创新点 真实不流畅语音基准:构建了首个完全由真实人类语音组成、并系统性标注了五种不流畅类别(填充词、停顿、犹豫、错误开头、自我纠正)的工具使用评估集,极大提升了评估的生态效度。 自我纠正与状态回滚测试:专门设计了21个场景,测试语音代理能否识别用户在单次发言中改变意图(如更改目的地、日期),并正确更新下游API参数,这是对动态状态管理的直接考验。 多步函数链式调用:每个场景都需要跨四个任务域(旅行身份、金融账单、住房位置、电商支持)进行多步API调用,评估了模型在真实语音条件下进行复杂推理和规划的能力。 全面的多维度评估体系:不仅评估工具调用准确性,还深入分析了延迟构成、轮流发言行为(如“静默工作者”现象)、以及不同不流畅类型对性能的影响,揭示了速度、准确性与对话流畅性之间的核心权衡。 🔬 细节详述 训练数据:不涉及模型训练。基准数据集包含100条录音,来自12位说话者(含母语及非母语者),在非受控环境下使用日常麦克风录制。每个说话者被分配10个跨域场景,其中21个包含自我纠正事件。 评估指标: 工具选择F1:精确率与召回率的调和平均。 参数准确性:由GPT-4o评判语义正确性,允许日期格式、缩写等合理变体。 任务完成率 (Pass@1):二元指标,要求工具选择、参数准确性、响应质量全部完美。 响应质量:由GPT-4o评判是否自然且完整地满足了用户意图。 轮流发言指标:包括轮流发言率、基础延迟(Δt)、打断率(Δt < 0)、填充句率。 延迟分解:首词延迟、工具调用延迟、任务完成延迟(通过GPT-4o识别关键信息句起始时间)。 关键超参数/设置: Mock API:本地执行,确定性输出,零延迟。 评估模型:使用GPT-4o作为评判器(用于参数准确性、响应质量、关键信息识别)。 难度分级:Easy(单步)、Medium(两步,中等歧义)、Hard(多步,约束冲突)。 实验硬件/推理:所有云端模型评估在单一固定服务器区域执行,以确保延迟比较公平。未提及具体GPU型号和训练细节,因为本文是评估工作。 📊 实验结果 主要指标对比(表2): ...

2026-04-20 · 更新于 2026-06-18 · 2 min · 372 words