Full-Duplex-Bench-v3: Benchmarking Tool Use for Full-Duplex Voice Agents Under Real-World Disfluency

📄 Full-Duplex-Bench-v3: Benchmarking Tool Use for Full-Duplex Voice Agents Under Real-World Disfluency #语音对话系统 #基准测试 #实时处理 #大语言模型 🔥 评分:8.0/10 | arxiv 👥 作者与机构 第一作者:Guan-Ting Lin (台湾大学) 通讯作者:Hung-yi Lee (台湾大学) 其他作者:Chen Chen (英伟达), Zhehuai Chen (英伟达) 💡 毒舌点评 亮点:终于有人用真实的、结结巴巴的人话来拷问那些号称“实时对话”的语音AI了,而不是用完美的TTS自欺欺人。特别是对“自我纠正”(“去纽约…啊不,波士顿”)这种致命场景的测试,直击当前系统的软肋。 槽点:论文本身是个“裁判”而非“运动员”,它很尽责地指出了选手们(GPT-Realtime, Gemini等)的弱点,但并没有给出如何训练出更好选手的秘方。此外,100条语音的测试集对于覆盖复杂现实场景可能还是略显单薄。 🔗 开源详情 代码与数据集:论文提供了 GitHub 仓库链接(https://daniellin94144.github.io/FDB-v3-demo/)和 CC BY-SA 4.0 许可证,强烈暗示基准的数据集、评估脚本和可能的Demo代码已开源。 在线Demo:提供了在线演示链接(https://daniellin94144.github.io/FDB-v3-demo/)。 模型:评估的模型(GPT-Realtime, Gemini Live等)均为第三方API或开源模型(如Ultravox),论文未发布新模型权重。 引用开源项目:论文依赖 LiveKit 实时语音代理框架进行系统部署和评估。 📌 核心摘要 这篇论文针对当前全双工语音代理评估缺乏真实性(依赖合成语音)和任务简单性(单步调用)的问题,提出了Full-Duplex-Bench-v3 (FDB-v3) 基准。该基准的核心创新在于使用100条真实人类录音(含五种不流畅性注释),在四个任务域中设计了需要多步API链式调用的场景,并特别包含了21个测试意图中途自我纠正的案例。通过对GPT-Realtime、Gemini Live等六个主流系统(包括一个级联基线)的评估,论文发现:1)在任务完成率上,GPT-Realtime领先;2)Gemini Live 3.1延迟最低但“静默工作”(只调用工具不说话)比例高;3)自我纠正和多步推理在复杂场景下仍是所有系统的最普遍失败模式。该工作为语音代理的研发提供了贴近现实的评估标尺,并指明了平衡响应速度与对话灵活性的未来方向。 🏗️ 模型架构 本文不提出新模型,而是评估现有模型。 其评估框架的整体流程如下: 输入:来自真实人类录音的音频流,其中包含自然产生的不流畅现象(填充词、停顿、错误开头、自我纠正等)。 系统处理:音频流被送入待评估的语音代理系统。论文评估了六种配置: 端到端语音到语音模型:GPT-Realtime, Gemini Live 2.5/3.1, Grok, Ultravox v0.7。这些模型内部集成语音识别、语言理解和语音生成。 级联流水线基线:Whisper (ASR) -> GPT-4o (LLM,负责推理和工具调用) -> OpenAI TTS (语音合成)。 工具执行:所有系统均通过 LiveKit 实时语音代理框架 连接到本地模拟的API。这些Mock API(如search_flights, book_ticket)具有确定性、零延迟的响应,以隔离模型本身的推理和参数传递性能。 输出与评估:系统输出包括生成的语音和工具调用日志。评估从四个维度进行: 工具使用准确性:工具选择F1值、参数语义准确性、任务完成率(Pass@1)。 对话质量:由GPT-4o评判的响应质量。 轮流发言动态:轮流发言率、基础延迟(用户说完到系统开始响应)、打断率、填充句率。 延迟分解:首词延迟、首次工具调用延迟、任务完成延迟(通过GPT-4o分析ASR片段,分离填充语句和关键信息句)。 💡 核心创新点 真实不流畅语音基准:构建了首个完全由真实人类语音组成、并系统性标注了五种不流畅类别(填充词、停顿、犹豫、错误开头、自我纠正)的工具使用评估集,极大提升了评估的生态效度。 自我纠正与状态回滚测试:专门设计了21个场景,测试语音代理能否识别用户在单次发言中改变意图(如更改目的地、日期),并正确更新下游API参数,这是对动态状态管理的直接考验。 多步函数链式调用:每个场景都需要跨四个任务域(旅行身份、金融账单、住房位置、电商支持)进行多步API调用,评估了模型在真实语音条件下进行复杂推理和规划的能力。 全面的多维度评估体系:不仅评估工具调用准确性,还深入分析了延迟构成、轮流发言行为(如“静默工作者”现象)、以及不同不流畅类型对性能的影响,揭示了速度、准确性与对话流畅性之间的核心权衡。 🔬 细节详述 训练数据:不涉及模型训练。基准数据集包含100条录音,来自12位说话者(含母语及非母语者),在非受控环境下使用日常麦克风录制。每个说话者被分配10个跨域场景,其中21个包含自我纠正事件。 评估指标: 工具选择F1:精确率与召回率的调和平均。 参数准确性:由GPT-4o评判语义正确性,允许日期格式、缩写等合理变体。 任务完成率 (Pass@1):二元指标,要求工具选择、参数准确性、响应质量全部完美。 响应质量:由GPT-4o评判是否自然且完整地满足了用户意图。 轮流发言指标:包括轮流发言率、基础延迟(Δt)、打断率(Δt < 0)、填充句率。 延迟分解:首词延迟、工具调用延迟、任务完成延迟(通过GPT-4o识别关键信息句起始时间)。 关键超参数/设置: Mock API:本地执行,确定性输出,零延迟。 评估模型:使用GPT-4o作为评判器(用于参数准确性、响应质量、关键信息识别)。 难度分级:Easy(单步)、Medium(两步,中等歧义)、Hard(多步,约束冲突)。 实验硬件/推理:所有云端模型评估在单一固定服务器区域执行,以确保延迟比较公平。未提及具体GPU型号和训练细节,因为本文是评估工作。 📊 实验结果 主要指标对比(表2): ...

2026-04-20 · 更新于 2026-05-22 · 2 min · 372 words

Generalizable Audio-Visual Navigation via Binaural Difference Attention and Action Transition Prediction

📄 Generalizable Audio-Visual Navigation via Binaural Difference Attention and Action Transition Prediction #音视频 #声源定位 #强化学习 #多任务学习 #零样本 🔥 评分:8.5/10 | arxiv 👥 作者与机构 第一作者:Jia Li(新疆大学,计算机科学与技术学院,联合研究实验室 for Embodied Intelligence) 通讯作者:Yinfeng Yu(新疆大学,计算机科学与技术学院,联合研究实验室 for Embodied Intelligence;邮箱:yuyinfeng@xju.edu.cn) 其他作者:根据署名顺序,论文仅列出了两位作者,Jia Li和Yinfeng Yu。他们共同隶属于以下机构: 新疆大学,联合研究实验室 for Embodied Intelligence 新疆大学,丝绸之路多语种认知计算联合国际研究实验室 新疆大学,计算机科学与技术学院,乌鲁木齐 830017,中国 💡 毒舌点评 亮点:这论文把“听声辨位”这件事整明白了!BDA模块不搞虚的,直接让左右耳特征“打架”(算差值),逼着模型关注声音从哪边来,而不是这是什么声音,这对没见过的声音特别管用。ATP任务像给导航策略上了个“行为矫正器”,让动作更连贯,减少在陌生环境里原地转圈的傻行为。 槽点:方法组合拳虽然有效,但每个拳法(BDA, ATP)本身都不算开宗立派,更像是给现有强力基线(AV-WaN)打了个高效的“补丁”。另外,论文里那些“ Hear Sharper, Act Smarter”的口号,比技术细节更让人印象深刻。 🔗 开源详情 代码:论文在作者信息下方明确提供了GitHub链接(https://github.com/...,具体地址需查看arXiv源文件或点击HTML版本中的链接)。表明代码已开源。 模型权重:论文中未明确提及是否公开预训练模型权重。 数据集:实验使用的是公开的SoundSpaces仿真平台、Replica和Matterport3D数据集,非本文自建。 在线Demo:论文中未提及。 依赖的开源项目:论文依赖SoundSpaces仿真环境、以及可能基于PyTorch等深度学习框架。引用的基线方法(如AV-NaV, AV-WaN)的代码可能也是其依赖。 📌 核心摘要 本文旨在解决音频-视觉导航(AVN)智能体在未见环境和未闻声音类别下泛化能力差的核心问题。作者指出,现有方法性能下降主要源于两个因素:一是音频表征混淆了语义与空间信息,导致对未闻声��定位不准;二是强化学习策略过拟合于训练环境的动态和布局。为此,本文提出了一个名为BDATP的即插即用框架。在感知层面,设计了双耳差分注意力模块,通过显式建模和利用左右声道特征的差异,强化模型对空间方位线索的提取,降低对声音语义的依赖。在策略层面,引入了动作转移预测辅助任务,通过预测轨迹中下一步的动作来增加策略学习的时序一致性约束,鼓励模型学习跨环境的通用导航规律。在Replica和Matterport3D数据集上的大量实验表明,将BDATP集成到AV-NaV和AV-WaN等主流基线中,能带来一致且显著的性能提升,尤其在最具挑战性的未闻声音设置下,成功率最高可提升超过21个百分点,证明了其优越的泛化能力和鲁棒性。 🏗️ 模型架构 BDATP框架整体是一个端到端的强化学习系统,以深度图像和双耳声谱图为输入,输出导航动作。其核心流程和组件如下: 输入与编码: 视觉输入:智能体的第一人称深度图像,通过一个独立的CNN编码器(三个卷积层+线性层+ReLU)编码为512维的视觉特征 f_v。 音频输入:双耳声谱图(左右声道)。首先沿声道维度分离为左、右两个单声道声谱图。然后,通过一个权重共享的CNN编码器(结构与视觉编码器相同)分别编码,得到中间特征图 f_al 和 f_ar。 双耳差分注意力模块: ...

2026-04-20 · 更新于 2026-05-22 · 3 min · 526 words

HARNESS: Lightweight Distilled Arabic Speech Foundation Models

📄 HARNESS: Lightweight Distilled Arabic Speech Foundation Models #语音识别 #知识蒸馏 #自监督学习 #多语言 #基准测试 ✅ 评分:7.5/10 | arxiv 👥 作者与机构 第一作者:Vrunda N. Sukhadia(Amazon India;推断其完成该工作时隶属于 Qatar Computing Research Institute, HBKU, Qatar) 其他作者:Shammur Absar Chowdhury(Qatar Computing Research Institute, HBKU, Qatar) 注:论文未明确标注通讯作者,未使用通信作者标记(如 * 或 †)。脚注表明“This work was carried out at QCRI”。 💡 毒舌点评 亮点:在阿拉伯语这个“方言万花筒”上从头炼出了能打的轻量级 SSL 模型,28M 参数的 HArnESS-ST 居然能在方言识别上把 300M 参数的 XLS-R 按在地上摩擦,部署党的福音。槽点:都写到 2026 年了(arXiv 日期疑似穿越),下游任务居然还停留在 frozen encoder 阶段,连端到端微调都不敢跑,是怕小模型露馅还是舍不得 H100 的算力?至于 PCA 压缩监督信号,本质上就是给老师的高维 embedding 做个降维再聚类,包装得像是发现了新大陆。 ...

2026-04-20 · 更新于 2026-05-22 · 4 min · 779 words

Hierarchical Codec Diffusion for Video-to-Speech Generation

📄 Hierarchical Codec Diffusion for Video-to-Speech Generation #语音合成 #扩散模型 #多模态模型 #零样本 #跨模态 🔥 评分:8.5/10 | arxiv 👥 作者与机构 第一作者:Jiaxin Ye(Fudan University) 通讯作者:Hongming Shan(Fudan University,hmshan@fudan.edu.cn) 其他作者: Gaoxiang Cong(Institute of Computing Technology, Chinese Academy of Sciences;University of Chinese Academy of Sciences) Chenhui Wang(Fudan University) Xin-Cheng Wen(Harbin Institute of Technology (Shenzhen)) Zhaoyang Li(Fudan University) Boyuan Cao(Fudan University) 💡 毒舌点评 亮点:这篇论文像个严谨的“交通协管员”,终于把 RVQ 不同层级当成了不同的车道——让嘴唇和身份去底层飙内容,让表情去高层管情绪,治好了 VTS 领域长期存在的“视觉条件瞎注入”的拥堵病。 槽点:虽然口口声声“首个”层次化离散扩散,但骨子里是 SEDD + MaskGCT Codec + DiT AdaLN 的“学术拼好饭”;更妙的是训练时偷偷用真实音频的 GE2E 特征来 stabilize 模型,推理时却只能看脸硬撑,这算不算一种“开卷考试练出的学霸”? ...

2026-04-20 · 更新于 2026-05-22 · 6 min · 1219 words

Interactive ASR: Towards Human-Like Interaction and Semantic Coherence Evaluation for Agentic Speech Recognition

📄 Interactive ASR: Towards Human-Like Interaction and Semantic Coherence Evaluation for Agentic Speech Recognition #语音识别 #大语言模型 #多语言 #模型评估 ✅ 评分:6.5/10 | arxiv 👥 作者与机构 第一作者:Peng Wang(上海交通大学 X-LANCE Lab) 通讯作者:未明确标注(推测为 Kai Yu 或 Xie Chen) 其他作者: Yanqiao Zhu(香港中文大学(深圳)) Zixuan Jiang(西安交通大学) Qinyuan Chen(复旦大学) Xingjian Zhao(复旦大学) Xipeng Qiu(复旦大学) Wupeng Wang(阿里巴巴通义Fun团队) Zhifu Gao(阿里巴巴通义Fun团队) Xiangang Li(阿里巴巴通义Fun团队) Kai Yu(上海交通大学 X-LANCE Lab) Xie Chen(上海交通大学 X-LANCE Lab) 💡 毒舌点评 这篇论文把LLM的“打工人”属性开发到了极致:让同一个32B大模型同时兼任裁判、戏精用户和外科医生,硬生生凑出了一套“交互ASR”流水线。S²ER指标确实比WER更懂人话,但这个“交互”本质上是大模型prompt engineering的高级套壳——仿真里的User Simulator比真实用户配合一万倍,10轮纠错上限更像是实验室里的自我感动,真放到车载或音箱场景里,用户可能在第二轮就开始骂娘了。 🔗 开源详情 代码:论文中声明“We will release the code to facilitate future research in interactive and agentic ASR”,但未提供具体的GitHub/GitLab仓库地址、stars数量或代码框架。 模型权重:未公开。实验使用的Qwen3-ASR-1.7B、Qwen3-32B、Index-TTS-1.5均为阿里通义系列已发布的预训练模型,但论文自身未释放新的微调权重。 数据集:未公开新构建的数据集。测试使用的GigaSpeech、WenetSpeech、ASRU2019均为已有公开benchmark。 预训练权重:未提供(推理框架不涉及新预训练权重)。 在线Demo:有。Live demo地址为 https://i-asr.sjtuxlance.com/;项目主页为 https://interactiveasr.github.io/。 依赖的开源项目:Qwen3-ASR-1.7B、Qwen3-32B、Index-TTS-1.5(均属阿里巴巴通义系列)。 结论:论文承诺未来开源,但目前仅提供在线体验Demo和项目主页,尚未公开具体代码仓库。 📌 核心摘要 这篇论文针对传统ASR的两大盲区——WER指标对语义错误不敏感、以及系统无法通过自然交互进行纠错——提出了Interactive ASR框架。首先,作者引入S²ER(Sentence-level Semantic Error Rate),利用LLM-as-a-Judge二元判断识别结果与参考文本是否在句子级别语义等价,人工对齐实验显示LLM评分与人类共识的Pearson相关系数达0.828,甚至超过平均领域专家水平。其次,作者设计了一套LLM驱动的Agentic框架:通过Intent Router判断用户新输入是“继续对话”还是“纠正上一句”,若是后者,则触发基于Chain-of-Thought的Reasoning Corrector,执行“定位-推理-替换”三步手术式修正。为了系统评测,作者还构建了自动化仿真流程,利用语音克隆TTS和LLM模拟用户纠错行为。在GigaSpeech(英语)、WenetSpeech(中文)和ASRU2019(汉英码切换)上的实验表明,仅需1-2轮交互,S²ER即可从约15%-27%骤降至3%-8%,而传统WER/CER几乎纹丝不动,证明语义级指标才是衡量交互收益的关键。当前局限在于系统依赖32B大模型进行推理,实时性与部署成本仍是落地瓶颈。 ...

2026-04-20 · 更新于 2026-05-22 · 3 min · 588 words

Joint-Centric Dual Contrastive Alignment with Structure-Preserving and Information-Balanced Regularization

📄 Joint-Centric Dual Contrastive Alignment with Structure-Preserving and Information-Balanced Regularization #语音情感识别, #对比学习, #多模态模型, #低资源, #跨模态 ✅ 评分:7.5/10 | arxiv 👥 作者与机构 第一作者/通讯作者:Habibeh Naderi (Dalhousie University, Halifax NS, Canada, email: habibeh.naderi@dal.ca) 其他作者: Behrouz Haji Soleimani (Dalhousie University, Halifax NS, Canada) Stan Matwin (Dalhousie University, Halifax NS, Canada) 💡 毒舌点评 亮点:方法设计很“周全”,像一个精密的瑞士军刀——双对比学习防止模态塌缩,CKA损失保持结构,MI损失平衡信息流,最后用MoE做下游任务,环环相扣,针对性很强。实验部分更是“火力覆盖”,30种骨干组合、25折交叉验证、消融研究穷举所有损失组合,堪称教科书级别的严谨。 槽点:应用场景(心理健康预测)有点“曲高和寡”,数据收集和标注难度大,限制了方法的广泛验证和影响力。另外,核心架构本质上是“冻结大模型+精心设计的损失函数”,创新深度可能不及那些从头构建全新架构的工作。 🔗 开源详情 代码:论文中多次提及“Report GitHub Issue”,并在结尾附上了详细的GitHub Issue模板,明确指向代码开源计划。但未在论文中提供具体的GitHub仓库URL。因此,可推断代码将开源,但当前状态为“部分开源”(意图明确,链接未公开)。 模型权重:未提及是否公开预训练或训练好的模型权重。 数据集:使用的FORBOW数据集是临床数据,涉及隐私,未公开。论文中详细描述了数据统计信息。 预训练权重:使用了公开的预训练模型(如HuBERT, Whisper, T5, RoBERTa等),这些模型权重来自HuggingFace等平台。 在线Demo:未提及。 依赖的开源项目:论文中明确引用了多个开源模型和框架,如SimCLR, CLIP, CKA实现等。 📌 核心摘要 这篇论文旨在解决音频-文本多模态表示学习中的一个关键挑战:如何在低资源、长序列且模态维度严重不平衡(音频高维、文本低维)的情况下,实现有效的跨模态对齐,同时保留各自的特异性信息。为此,作者提出了HILBERT框架。该方法首先利用冻结的预训练音频(如HuBERT)和文本(如T5)编码器提取片段级特征,然后通过多头自注意力和跨模态注意力机制聚合生成模态特定的文档级表示和一个联合的跨模态嵌入。核心创新在于一个双对比对齐目标,它不直接对比音频和文本,而是分别对齐“音频-联合”和“文本-联合”表示,以缓解维度不平衡带来的主导问题。此外,引入了两个辅助正则项:CKA损失用于保持每个模态与联合嵌入间的结构一致性,互信息(MI)损失用于均衡两种模态对联合表示的信息贡献。下游任务采用混合专家(MoE) 分类器。在FORBOW心理健康数据集上的实验表明,HILBERT在多项文档级情感和心理谱系预测任务上显著优于CLAP等基线方法,特别是在最具挑战性的多类别心理障碍预测任务上取得了领先性能,证明了其在长序列、不平衡多模态学习中的有效性。 🏗️ 模型架构 HILBERT是一个四阶段的层次化框架,专为处理长序列音频-文本对设计。 ...

2026-04-20 · 更新于 2026-05-22 · 2 min · 374 words

MoshiRAG: Asynchronous Knowledge Retrieval for Full-Duplex Speech Language Models

📄 MoshiRAG: Asynchronous Knowledge Retrieval for Full-Duplex Speech Language Models #语音对话系统 #语音大模型 #流式处理 #实时处理 🔥 评分:8.5/10 | arxiv 👥 作者与机构 第一作者:Chung-Ming Chien(推断,基于论文作者顺序) 通讯作者:Alexandre Défossez(推断,作为Moshi原始模型的主要作者及本研究的资深作者) 其他作者:Manu Orsini, Eugene Kharitonov, Neil Zeghidour, Karen Livescu 机构:论文未在提供节选中明确列出所有作者机构。根据领域常识和致谢推断,主要作者可能来自 Meta FAIR(Alexandre Défossez, Manu Orsini, Eugene Kharitonov, Neil Zeghidour)和 Google(Karen Livescu)。Chung-Ming Chien可能为学生或合作研究员。 💡 毒舌点评 亮点:巧妙地利用了语音对话中“开口说废话”到“讲重点”之间的时间差(关键词延迟),塞进了一个异步检索过程,让全双工模型能“一边应付你一边查资料”,这个工程巧思是本文最大的智慧。槽点:整个系统严重依赖合成的“完美”对话数据来训练检索触发和整合,到了真实世界用户结结巴巴、ASR错误百出的场景,那个精巧的时间差和触发机制会不会立刻失灵?这可能是未来最大的挑战。 🔗 开源详情 代码:论文提到代码在GitHub开源,地址为 https://github.com/kyutai-labs/moshi-rag。 模型权重:论文未明确说明是否开源MoshiRAG的模型权重。原始Moshi模型权重可能已开源。 数据集:论文详细描述了合成数据生成流程,但未提及是否公开生成的语音或文本数据集。 在线Demo:论文提到“Moshi RAG demo”,但未提供具体链接。 依赖的开源工具:论文引用了多个开源项目,包括Moshi模型、Mimi编码器、ARC-Encoder、Gemma模型、Tavily搜索API(商业)、HaluEval数据集、CommonVoice数据集等。 📌 核心摘要 本文旨在解决全双工语音语言模型(如Moshi)事实性不足的核心问题,同时不牺牲其高交互性。问题:全双工模型能实时打断和回应,但因训练数据规模远小于文本,其知识储备和事实准确性较弱。方法:提出了MoshiRAG,一个模块化框架。它在Moshi模型中引入一个特殊的<ret>检索触发令牌。当模型预测到用户提出知识密集型问题时,会生成<ret>,并异步调用外部检索后端(如LLM或搜索引擎)。利用模型生成回答时从“开场白”到“核心信息”之间的自然延迟(关键词延迟),在后台完成检索,并将检索到的文本参考信息编码后注入模型,用于生成后续基于事实的回答。效果:在多个语音问答基准上,MoshiRAG的事实性显著超越原始Moshi及其他多数公开的语音语言模型,接近GPT-4o Audio的水平,同时其端到端关键词延迟(E2EKD)保持较低水平,并在全双工交互基准上表现优异。局限性:系统性能依赖于流式ASR的准确性和检索延迟;当前检索触发完全基于训练数据模式,缺乏动态决策能力;主要使用合成数据训练,真实场景泛化性待验证。 🏗️ 模型架构 MoshiRAG是一个由三个主要组件构成的模块化系统: 前端:增强的Moshi全双工模型 (7B参数) - 输入:用户语音(经Mimi编码器编码为语音令牌 s^u)。 - 输出:自回归地生成两个并行流:模型语音令牌 s^m 和模型文本转写令牌 t^m(带填充)。 - 核心修改: - 引入特殊文本令牌 <ret> 作为检索触发信号。 - 增加了一个参考文本编码器(采用预训练的ARC-Encoder,压缩比4:1),用于将检索到的文本参考文档编码为嵌入序列 emb^ref。 - 信息注入机制(加法注入):当<ret>在时间步 i_ret 被预测后,等待检索延迟 d 秒。之后,参考文档的编码嵌入通过一个可训练的线性层投影,并以流式方式(逐时间步)加到Moshi主干Transformer的输入嵌入 h_i 上,形成 h'_i。公式为:h'_i = h_i + proj(emb^ref_{i-(i_ret + d/f_r)}),其中 f_r 是Moshi的帧率(12.5Hz)。 前端:流式ASR模型 (1B参数) - 功能:独立于Moshi,实时接收用户语音流并转写为文本,为检索后端提供对话上下文。 - 特点:低延迟(0.5秒),参数量小,计算开销低。 后端:异步检索系统 - 触发:在<ret>被预测后,系统收集ASR和Moshi输出的文本转写,形成对话上下文。 - 处理:将上下文发送给检索后端。后端可以是基于LLM的检索(如Gemma 3 27B,根据上下文生成参考文本)或基于搜索的检索(如Tavily API,获取网页摘要)。 - 输出:返回一段文本参考文档。 - 时序:设计目标是在2秒内完成检索,以确保在Moshi说出关键词(核心信息)前将信息注入。 ...

2026-04-20 · 更新于 2026-05-22 · 2 min · 388 words

MUSCAT: MUltilingual, SCientific ConversATion Benchmark

📄 MUSCAT: MUltilingual, SCientific ConversATion Benchmark #语音识别 #端到端 #多语言 #基准测试 ✅ 评分:6.0/10 | arxiv 👥 作者与机构 第一作者:Supriti Sinhamahapatra(Karlsruhe Institute of Technology) 通讯作者:未明确标注(推断为 Jan Niehues 或 Alexander Waibel) 其他作者: Thai-Binh Nguyen(Karlsruhe Institute of Technology) Yiğit Oğuz(Karlsruhe Institute of Technology) Enes Ugan(Karlsruhe Institute of Technology) Jan Niehues(Karlsruhe Institute of Technology) Alexander Waibel(Karlsruhe Institute of Technology;Carnegie Mellon University) 💡 毒舌点评 这篇论文把“两位学者用母语唠论文”这个场景拍出了科幻片的质感——360°摄像头、麦克风阵列、Meta智能眼镜全副武装,结果剪出来正片只有65分钟,比一集《老友记》还短。虽然确实精准戳中了当前ASR在语言切换和科学术语上的软肋,但这体量敢叫Benchmark,多少有点“小样本科普”的豪迈。 🔗 开源详情 数据集:已开源,托管于 HuggingFace,地址为 https://huggingface.co/datasets/goodpiku/muscat-eval。包含音频录音、人工转录文本、语码转换标注及分段信息。 代码:论文中未提及开源处理代码或评估脚本。 模型权重:未开源新模型;被测模型均使用公开预训练权重(Whisper、SALMONN、Phi-4-multimodal、HuggingFace 社区上的 wav2vec2 微调版本)。 预训练权重:Wav2Vec2 各语言版本的具体 HuggingFace 链接在论文参考文献/脚注中给出(jonatasgrosman、ozcangundes、not-tanh 等社区权重)。 在线 Demo:论文中未提及。 依赖的开源工具:Label Studio(数据标注)、Audacity(音频对齐)、OBS Studio(录制)、jieba(中文分词)、WhisperX(PyanNet 后处理参考)、SHAS(流媒体分段)、PyanNet(说话人分割)。 📌 核心摘要 本文提出了 MUSCAT,一个用于评估多语言科学对话场景下自动语音识别(ASR)性能的新基准。数据集包含 6 组双语对话录音(共约 65 分钟,9,066 词),涉及英语与德语、土耳其语、中文、越南语的配对对话;每组对话使用 Meeting Owl 3、ReSpeaker USB 麦克风阵列和 Meta Aria 智能眼镜三种设备同步录制,并手工对齐。论文除标准 WER 外,还引入了针对领域特定术语的 reference-centric / hypothesis-centric WER 以及针对语码转换的 PIER 指标,系统评估了 Whisper、SALMONN、Phi-4-multimodal 和 Wav2Vec2 四种端到端 ASR 系统。实验表明,当前 SOTA 模型在语言切换检测、科学术语识别、自动分段及远场/可穿戴录音条件下均存在显著缺陷(如 SHAS 自动分段可使 WER 翻倍)。局限性在于数据规模极小、语言分布严重向英语倾斜,且仅覆盖以英语为核心的四种语言对。 ...

2026-04-20 · 更新于 2026-05-22 · 6 min · 1114 words

NaijaS2ST: A Multi-Accent Benchmark for Speech-to-Speech Translation in Low-Resource Nigerian Languages

📄 NaijaS2ST: A Multi-Accent Benchmark for Speech-to-Speech Translation in Low-Resource Nigerian Languages #语音翻译 #音频大模型 #低资源 #基准测试 ✅ 评分:7.5/10 | arxiv 👥 作者与机构 第一作者:Marie Maltais (Mila - Quebec AI Institute, McGill University) 通讯作者:David Ifeoluwa Adelani (Mila - Quebec AI Institute, McGill University, Canada CIFAR AI Chair) (根据作者列表末尾和机构推断) 其他作者: Yejin Jeon (Mila - Quebec AI Institute, McGill University) Min Ma (Google DeepMind) Shamsuddeen Hassan Muhammad (Hausa NLP, Imperial College London) Idris Abdulmumin (Hausa NLP, University of Pretoria) Maryam Ibrahim Mukhtar (Hausa NLP) Daud Abolade (Masakhane NLP) Joel Okepefi, Johnson Sewedo (Naija Wikipedia Community) 💡 毒舌点评 亮点:这篇论文是“数据正义”的典范,为长期被忽视的非洲语言搭建了一个坚实、多口音的语音翻译擂台,并拉来了所有主流方法(级联、端到端、AudioLLM)进行了一场公开、细致的比武大会,数据收集流程堪称教科书级别。槽点:创新主要集中在数据构建和基准测试本身,模型方法上基本是“拿来主义”进行评测,缺乏针对低资源场景的原创性模型设计或训练策略突破,读起来有点像一份豪华版的数据收集与模型测评报告。 ...

2026-04-20 · 更新于 2026-05-22 · 2 min · 377 words

NVBench: A Benchmark for Speech Synthesis with Non-Verbal Vocalizations

📄 NVBench: A Benchmark for Speech Synthesis with Non-Verbal Vocalizations #语音合成,#基准测试,#模型评估,#大语言模型 ✅ 评分:7.5/10 | arxiv 👥 作者与机构 第一作者:Liumeng Xue(南京大学,智能软件与系统实验室) 通讯作者:Hung-yi Lee(国立台湾大学,语音处理实验室),Yike Guo(香港科技大学,大数据研究院) 其他作者: Weizhen Bian(南京大学) Jiahao Pan(香港科技大学) Wenxuan Wang(南京大学) Yilin Ren(北京科技大学) Boyi Kang(西北工业大学) Jingbin Hu(上海交通大学) Ziyang Ma(南京大学) Shuai Wang(香港中文大学) Xinyuan Qian(南京大学) 💡 毒舌点评 这篇论文的亮点在于它像个“语音界的ISO标准委员会”,系统性地为“叹气、傻笑、打嗝”这些上不了台面的非语言声音建立了从分类、数据到评测的完整规范,方法严谨得像个实验手册。槽点是它主要贡献了一套“裁判培训手册”和“记分牌”,而不是训练出更会“叹气”的明星选手本身,对于追求新模型的读者来说可能不够“性感”。 🔗 开源详情 代码:论文中提到代码将通过GitHub开源(链接:https://github.com/lmxue/NVBench),但截至论文发布时(arXiv v1)可能尚未公开。 模型权重:本文不涉及新模型的发布,因此没有新的模型权重。评测的是现有系统。 数据集:论文明确指出NVBench双语评估数据集将开源,可通过项目主页(https://lmxue.github.io/NVBench/)获取。数据集包含45类NVV,每类50个实例,共2250个英文和2250个中文实例。 预训练权重:不适用。 在线 Demo:论文中未提及。 引用的开源项目:论文评测中引用了多个开源TTS系统,如ChatTTS、Bark、Fish-Speech、Orpheus TTS、CosyVoice 2、Dia等。评估中使用的ASR工具(Whisper-large-v3, paraformer-zh)和DNSMOS也是开源工具。 📌 核心摘要 本文旨在解决语音合成(TTS)领域中非语言声音(NVV,如笑声、叹息、哭泣)缺乏标准化评估框架的问题。为此,作者提出了NVBench,一个双语(英/中)基准测试。其核心方法包括:1)设计了一个涵盖45种NVV类型的统一分类法;2)构建了一个类型均衡的高质量双语评估数据集;3)提出了一套多轴评估协议,将通用语音自然度/质量与NVV特有的可控性、放置准确性和感知显著性解耦。通过对15个代表性TTS系统(包括商业和开源模型)的广泛评测,主要发现是:NVV的可控性常与语音整体质量解耦;低信噪比的口腔音(如咂嘴)和长时程情感性NVV(如哭泣)是当前系统的持续瓶颈。该工作为跨系统、跨控制接口的公平比较提供了统一框架,推动了拟人化语音生成的研究。 🏗️ 模型架构 本文的核心贡献并非提出一个新的端到端TTS模型架构,而是建立一个用于评估现有TTS系统NVV合成能力的基准测试框架(NVBench)。其整体流程如图1所示,可分为三个核心模块: 数据集模块:基于统一的45类NVV分类法,构建了一个包含2250个英文和2250个中文实例的平衡评估集。每个实例包含text(纯文本)、text_with_nvv(插入NVV标签的文本)、caption_with_nvv(描述NVV的自然语言 caption)和nvv_list(NVV类型标签)。 合成模块:将数据集输入到待评测的TTS系统中。这些系统分为两类: 基于标签(Tag-based)的系统:通过在文本中插入如[laugh]这样的标签来控制NVV生成(如ChatTTS, ElevenLabs)。 基于提示(Prompt-based)的系统:通过自然语言描述(caption)来控制语音属性,包括NVV(如Gemini, GPT-4o mini TTS)。 评估模块:采用多轴评估协议,对生成的语音进行三方面评估: 客观指标:包括语音质量(DNSMOS)、可懂度(WER/CER)、以及针对标签系统的NVV可控性指标(精确率、召回率、F1、归一化标签距离NTD)。 主观指标:通过人工听力测试评估自然度、质量、NVV感知效果、指令遵循度等。 LLM多评委评估:使用音频感知大语言模型(如Gemini 2.5 Pro)作为自动化评委,模仿主观评分标准进行可扩展的评估。 整个框架的设计目标是解耦和标准化,使得不同控制接口、不同能力的TTS系统可以在同一套数据和标准下进行公平比较。 ...

2026-04-20 · 更新于 2026-05-22 · 2 min · 238 words