语音/音频论文速递 2026-05-02
共分析 4 篇论文
⚡ 今日概览
📥 抓取 4 篇 → 🔬 深度分析完成
🏷️ 热门方向
| 方向 | 数量 | 分布 |
|---|---|---|
| #语音对话系统 | 1篇 | █ |
| #语音合成 | 1篇 | █ |
| #基准测试 | 1篇 | █ |
| #语音识别 | 1篇 | █ |
📊 论文评分排行榜(4 篇,按分数降序)
| 排名 | 论文 | 评分 | 分档 | 主任务 |
|---|---|---|---|---|
| 🥇 | MiniCPM-o 4.5: Towards Real-Time Full-Duplex Omni-Modal | 8.5分 | 前25% | #语音对话系统 |
| 🥈 | JaiTTS: A Thai Voice Cloning Model | 8.0分 | 前25% | #语音合成 |
| 🥉 | InteractWeb-Bench: Can Multimodal Agent Escape Blind Ex | 7.5分 | 前25% | #基准测试 |
| 4. | AppTek Call-Center Dialogues: A Multi-Accent Long-Form | 6.5分 | 前50% | #语音识别 |
📋 论文列表
🥇 MiniCPM-o 4.5: Towards Real-Time Full-Duplex Omni-Modal Interaction
🔥 8.5/10 | 前25% | #语音对话系统 | #端到端 | #多模态模型 #流式处理 | arxiv
👥 作者与机构
- 第一作者:未说明(论文作者列表未明确标注)
- 通讯作者:未说明(论文中未明确标注)
- 作者列表:Junbo Cui, Bokai Xu, Chongyi Wang, Tianyu Yu, Weiyue Sun, Yingjing Xu, Tianran Wang, Zhihui He, Wenshuo Ma, Tianchi Cai, Jiancheng Gui, Luoyuan Zhang, Xian Sun, Fuwei Huang, Moye Chen, Zhuo Lin, Hanyu Liu, Qingxin Gui, Qingzhe Han, Yuyang Wen, Huiping Liu, Rongkang Wang, Yaqi Zhang, Hongliang Wei, Chi Chen, You Li, Kechen Fang, Jie Zhou, Yuxuan Li, Guoyang Zeng, Chaojun Xiao, Yankai Lin, Xu Han, Maosong Sun, Zhiyuan Liu, Yuan Yao
- 机构列表:MiniCPM-o Team, OpenBMB(根据署名推断)
💡 毒舌点评
这篇论文真正瞄准了多模态交互范式的“圣杯”——实时全双工,其技术方案完整度和边缘部署效率令人印象深刻,是该方向的一个坚实里程碑。不过,论文对全双工交互的“主动性”和“鲁棒性”的评估相对薄弱,更像是一个高效的技术原型,离真正“类人”的复杂场景交互还有相当距离。
🔗 开源详情
- 代码:https://github.com/OpenBMB/MiniCPM-o
- 模型权重:https://huggingface.co/OpenBMB/MiniCPM-o-4.5
- 数据集:论文中未提及具体可下载的数据集链接。
- Demo:https://huggingface.co/spaces/OpenBMB/MiniCPM-o-4.5
- 复现材料:论文中未提及训练配置、检查点等具体复现材料链接。
- 论文中引用的开源项目:
- LLaVA-UHD:论文中未提及具体链接。
- SigLIP:论文中未提及具体链接。
- Whisper:论文中未提及具体链接。
- Qwen3:论文中未提及具体链接。
- S3:论文中未提及具体链接。
- llama.cpp:论文中未提及具体链接。
📌 核心摘要
- 要解决的问题:现有大型多模态模型在交互范式上存在根本性瓶颈:感知与响应是分离的、交替进行的(轮询式),且模型是被动响应用户请求,无法像人类一样同时感知、思考并主动做出反应。
- 方法核心:提出Omni-Flow框架,将多模态输入(视觉、音频)和输出(文本、语音)流对齐在共享的时间轴上,通过时间分片(chunk)实现感知与响应的token级连续耦合,从而支持全双工交互。为解决流式语音生成与环境同步的难题,提出了时间对齐交错(TAIL) 策略。
- 新在哪里:将传统轮询式交互重构为基于时间轴的连续流处理;首次在端到端模型中实现了感知-生成-响应的实时闭环;引入主动行为(如提醒)作为框架的自然产出,而非额外功能。
- 主要实验结果:模型(9B参数)在视觉-语言能力上接近Gemini 2.5 Flash(如OpenCompass得分77.6 vs 78.5),在全模态理解(如Daily-Omni得分80.2)和语音生成(如SeedTTS测试集CER 0.86)上超越了Qwen3-Omni-30B。在全双工基准LiveSports-3K-CC上以54.4的胜率显著优于先前方法(41.5, 45.6)。消融实验验证了1.0秒时间片、显式边界和LS控制机制的有效性。
- 实际意义:为构建能够实时、主动、多模态交互的AI助手提供了首个开源的、可边缘部署(<12GB RAM)的解决方案,推动了AI从工具向伙伴的范式转变。
- 主要局限性:长时、动态真实场景下的稳定性和鲁棒性需进一步验证;流式语音生成偶尔存在发音错误或中英混杂;主动行为逻辑相对简单;对全双工场景的定量评估(特别是交互延迟)仍较初步。
🥈 JaiTTS: A Thai Voice Cloning Model
🔥 8.0/10 | 前25% | #语音合成 | #自回归模型 | #语音克隆 #泰语 | arxiv
👥 作者与机构
第一作者:Jullajak Karnjanaekarin (Jasmine Technology Solution) 通讯作者:未明确说明(论文提供了团队邮箱 jts.ai.team@gmail.com) 作者列表:
- Jullajak Karnjanaekarin (Jasmine Technology Solution)
- Pontakorn Trakuekul (Jasmine Technology Solution)
- Narongkorn Panitsrisit (Jasmine Technology Solution)
- Sumana Sumanakul (Jasmine Technology Solution)
- Vichayuth Nitayasomboon (Jasmine Technology Solution)
- Nithid Guntasin (Sirindhorn International Institute of Technology, 实习于Jasmine Technology Solution)
- Thanavin Denkavin (Sirindhorn International Institute of Technology)
- Attapol T. Rutherford (Jasmine Technology Solution; Chulalongkorn University, Department of Linguistics)
💡 毒舌点评
亮点:论文在泰语语音克隆上实现了SOTA,CER甚至优于人类基准,并在400次盲测中以70%胜率击败商业巨头,展示了强大的工程落地和数据调优能力。短板:模型核心架构源自VoxCPM,原创性有限;更关键的是“代码、模型、数据”三无状态,使得其优异的实验结果暂时停留在“不可复现的宣称”阶段,大大削弱了学术贡献的可验证性和社区价值。
🔗 开源详情
- 代码:论文中未提及代码链接
- 模型权重:论文中未提及
- 数据集:论文中未提及公开数据集链接。训练数据为约10,000小时的内部泰语语音语料库,评估集使用了Thai Common Voice测试集和YouTube数据(未提供开源链接)。
- Demo:论文中未提及
- 复现材料:论文中未提及具体的训练配置、检查点或附录等复现材料链接。
- 论文中引用的开源项目:论文中未提及具体项目链接。论文引用了以下项目作为基线或相关工作:Qwen3-TTS(Hu et al., 2026)、ThonburianTTS(Aung et al., 2025)、LLaSA(Ye et al., 2025b)、X-codec2、Typhoon-Whisper-Large-v3(Sirichotedumrong et al., 2026)、DNSMOS Pro(Cumlin et al., 2024),但均未在文中提供对应的GitHub或HuggingFace等链接。
📌 核心摘要
- 问题:现有TTS模型(无论是开源多语言模型如Qwen3-TTS,还是泰国专用模型如ThonburianTTS)在泰语语音克隆任务上存在发音/韵律错误、长文本稳定性差、且严重依赖复杂的文本预处理(如数字和泰英混杂文本归一化)等问题。
- 方法核心:基于VoxCPM(一种无离散语音分词器的自回归TTS架构)进行持续训练,构建了JaiTTS-v1.0。其核心是直接处理未归一化的原始文本,通过分层语义-声学建模(TSLM规划语义韵律 → FSQ半离散量化 → RALM补充声学细节 → LocDiT扩散解码)生成连续语音潜向量。
- 新在何处:主要新在针对泰语场景的优化:1) 在约1万小时泰语中心语料上训练,专门适应泰语语音和代码切换;2) 实现了无需显式文本归一化即可合成包含数字和英泰混杂的原始文本,简化了部署流程。
- 主要结果:在短时语音任务上,CER为1.94%,低于人类基准的1.98%;长时语音CER为2.55%,与人类基准2.47%相当,均优于对比基线。实时率(RTF)为0.1136,比Qwen3-TTS快约13倍。人类评估中,在400次两两对比中赢得283次,胜率约70.75%,击败了ElevenLabs v3和MiniMax speech-2.8-hd等商业系统。
- 实际意义:为泰语用户提供了一个高效(低RTF)、高质量(高自然度和准确度)、部署简便(无需复杂文本处理)的语音克隆解决方案,具有直接的商业应用潜力。
- 局限性:主要局限是未开源任何代码、模型或数据,严重限制了学术复现和社区发展。此外,其架构本身并非原创,创新主要集中在工程化应用和特定语言优化上;论文未深入分析在泰语之外的泛化能力。
🥉 InteractWeb-Bench: Can Multimodal Agent Escape Blind Execution in Interactive Website Generation?
✅ 7.5/10 | 前25% | #基准测试 | #多模态模型 | #大语言模型 | arxiv
👥 作者与机构
- 第一作者:Qiyao Wang (1,2) (1 深圳先进技术研究院,2 中国科学院大学)
- 通讯作者:Yuan Lin (3†), Min Yang (1,5†) (3 大连理工大学,1 深圳先进技术研究院,5 深圳大学先进技术研究院)
- 作者列表:Qiyao Wang(深圳先进技术研究院,中国科学院大学),Haoran Hu(大连理工大学),Longze Chen(深圳先进技术研究院,中国科学院大学),Hongbo Wang(大连理工大学),Hamid Alinejad-Rokny(UNSW Sydney),Yuan Lin(大连理工大学),Min Yang(深圳先进技术研究院,深圳大学先进技术研究院)
💡 毒舌点评
亮点:论文敏锐地指出了当前网站生成智能体“盲目执行”的真实痛点,并首次构建了系统模拟非专业用户(包括歧义、冗余、矛盾等)的交互式评估框架,其“约束槽”评估体系设计严谨。短板:论文本身并未提出任何新的生成模型或交互算法,而是对现有模型进行评估,其核心贡献在于“发现问题”而非“解决问题”;此外,尽管声称评估交互能力,但用户智能体仍由另一模型模拟,与真实人类交互存在差距。
🔗 开源详情
- 代码:论文中未提及代码链接。论文指出其交互环境基于 bolt.diy 框架实现,并使用 Playwright 作为浏览器内核,但未提供这些工具的具体开源仓库链接。
- 模型权重:论文中未提及。论文评估了 Qwen、Gemma、GPT、Gemini 等系列多个现有模型,但未提供或提及任何新模型的权重。
- 数据集:InteractWeb-Bench。论文指出其包含从 WebGen-Bench 扩展而来的 404 个测试用例,但未提供具体的数据集下载链接或开源协议。
- Demo:论文中未提及。
- 复现材料:论文中未提及。论文在附录中提供了评估模型的详细规格、API成本及人类评估细节,但未提供训练配置、模型检查点等复现材料。
- 论文中引用的开源项目:
- bolt.diy: 论文指出被用作网站生成代理的基础框架。链接:https://github.com/stackblitz-labs/bolt.diy
- Playwright: 论文指出交互环境使用基于 Playwright 的浏览器内核实现。链接:https://github.com/microsoft/playwright
- WebVoyager: 论文指出用于最终评估的视觉审计器。链接:https://github.com/MinorJerry/WebVoyager
- Set-of-Mark (SoM) Prompting: 论文指出与 WebVoyager 结合用于视觉审计。链接:https://github.com/yuweihao/SAM-SoM
- vLLM: 论文指出用于部署小型开源模型。链接:https://github.com/vllm-project/vllm
- ClarifyCoder: 论文在相关工作中提及。链接:论文中未提及。
- HumanEvalComm: 论文在相关工作中提及。链接:论文中未提及。
- ClarifyMT-Bench: 论文在相关工作中提及。链接:论文中未提及。
- SWE-bench: 论文在相关工作中提及。链接:https://github.com/princeton-nlp/SWE-bench
- InterCode: 论文在相关工作中提及。链接:论文中未提及。
- Design2Code: 论文在相关工作中提及。链接:论文中未提及。
- Web2Code: 论文在相关工作中提及。链接:论文中未提及。
- WebGen-Bench: 论文指出其种子任务部分源于此。链接:论文中未提及。
- Persona2Web: 论文在相关工作中提及。链接:论文中未提及。
📌 核心摘要
- 要解决什么问题:现有网站生成基准假设用户提供清晰、完整的指令,但在真实场景中,非专业用户常给出模糊、冗余甚至矛盾的低质量指令,导致多模态智能体陷入“盲目执行”陷阱,即被动执行错误指令而非主动澄清意图。
- 方法核心:提出InteractWeb-Bench,一个交互式基准。它包含四个基于需求工程缺陷理论设计的用户角色模拟器(极简、冗长、直觉、矛盾),以及一个为智能体设计的统一行动空间(澄清、实现、验证、提交),使其能在模拟环境中迭代地澄清需求、生成代码并进行视觉验证。
- 与已有方法相比新在哪里:首次将评估重点从静态的代码生成准确性,转向动态的用户意图澄清和多模态反馈(代码+视觉)利用能力。引入了基于用户角色的指令扰动和交互式多路径执行环境,更贴近真实开发流程。
- 主要实验结果:对9个前沿多模态模型进行了评估。关键发现:所有模型任务完成率(TCR)普遍偏低(最高为Qwen3.6-Plus的38.78%);模型在理解模糊意图(IAS >3.9)上尚可,但主动澄清命中率(CHR)低于40%,证实了“盲目执行”;模型倾向于通过生成过量代码(如Qwen3.6-Plus平均1415行)来补偿信息缺失,反而导致更高的幻觉率(62.4%)。模型对“信息缺失”(P-MIN)比“噪声干扰”(P-RAM)更敏感。
- 实际意义:为评估和提升多模态智能体的真实人机协作能力提供了新基准和方向,指明了未来智能体需在主动需求澄清和有效利用多模态反馈上重点突破。
- 主要局限性:1) 用户交互仍为模型模拟,非真实人类;2) 基准本身的用户智能体、评估器(WebVoyager+GPT-5-mini)是黑盒,可复现性受限;3) 侧重发现问题,未提出解决方案。
主要实验结果表格:
| 模型 | 总体TCR (%) | P-MIN TCR (%) | P-RAM TCR (%) | 幻觉率 (%) | 平均代码行数 |
|---|---|---|---|---|---|
| Qwen3.6-Plus | 38.78 | 26.54 | 53.66 | 62.4 | 1415.7 |
| Kimi-K2.5 | 38.26 | 27.18 | 48.86 | 64.1 | 1942.3 |
| Qwen3.5-397B-A17B | 37.15 | 25.91 | 47.32 | 56.4 | 1230.4 |
| GPT-4.1 | 34.33 | 24.96 | 42.56 | 31.7 | 440.1 |
| GPT-4.1-mini | 29.39 | 21.77 | 40.02 | 23.5 | 473.0 |
| Gemini-3.1-Flash-Lite | 25.72 | 15.78 | 35.03 | 27.7 | 137.2 |
4. AppTek Call-Center Dialogues: A Multi-Accent Long-Form Benchmark for English ASR
✅ 6.5/10 | 前50% | #语音识别 | #基准测试 | #多语言 #数据集 | arxiv
👥 作者与机构
- 第一作者:Eugen Beck(AppTek.ai)
- 通讯作者:未说明
- 作者列表:Eugen Beck(AppTek.ai), Sarah Beranek(AppTek.ai), Uma Moothiringote(AppTek.ai), Daniel Mann(未说明), Wilfried Michel(未说明), Katie Nguyen(未说明), Taylor Tragemann(未说明)
💡 毒舌点评
这篇论文最大的亮点在于“以身作则”地解决了一个评测领域的老大难问题——创建了一个干净、无污染、多口音的长对话评测集,堪称ASR评测界的“良心工程”。但硬币的另一面是,它本质上是一个“靶子”而非“箭”,作为纯数据集和基准论文,缺乏算法上的惊艳创新,且角色扮演的数据获取方式终究让其在“真实性”上打了折扣,难以完全替代真实世界数据的价值。
🔗 开源详情
- 代码:论文中未提及具体代码仓库链接。
- 模型权重:论文中提及了多个开源ASR模型进行基准测试(如NVIDIA Canary-1B v2, Parakeet 0.6B TDT, Whisper Large, Qwen3-ASR, Granite Speech, Phi-4 Multimodal等),但未在文中提供这些模型权重的直接下载链接。
- 数据集:AppTek Call-Center Dialogues
- 名称:apptek-com/apptek_callcenter_dialogues
- 链接:https://huggingface.co/datasets/apptek-com/apptek_callcenter_dialogues
- 开源协议:Creative Commons Attribution-ShareAlike 4.0 International (CC BY-SA 4.0)
- Demo:论文中未提及在线演示链接。
- 复现材料:论文中未提供训练配置、检查点或附录等用于完全复现的材料。文中详细描述了评估设置(分割策略、评分协议等),但未提供用于复现其评分归一化脚本或评估环境的具体代码或配置文件链接。
- 论文中引用的开源项目:
- Silero VAD: https://github.com/snakers4/silero-vad
- Hugging Face OpenASR Leaderboard: https://huggingface.co/spaces/speech-io/open_asr_leaderboard
📌 核心摘要
- 要解决什么问题:现有英语ASR公开基准测试集大多为短时、朗读式语音,或缺乏明确的方言标注,难以评估ASR系统在真实、长时对话场景下(如呼叫中心)对多种英语口音的鲁棒性。此外,基准数据可能泄露至大型模型的预训练语料中,影响评估有效性。
- 方法核心是什么:本文创建并开源了“AppTek Call-Center Dialogues”数据集。这是一个专门为评估而收集的自发、角色扮演式呼叫中心对话语料库,覆盖14种英语口音和16个服务场景,总计128.6小时。收集过程确保音频和文本非公开来源。同时,论文使用该数据集对多种开源ASR模型在不同语音分割策略下进行了基准测试。
- 与已有方法相比新在哪里:相比Earnings-22等现有对话数据集,本文数据集:(a) 完全为评估而生,数据非公开来源,降低与训练集重叠风险;(b) 系统性地覆盖了14种英语口音,且每类口音样本量充足;(c) 完全由角色扮演的、自发的双人对话构成,更贴近呼叫中心交互模式。
- 主要实验结果如何:
- 分割策略影响:手动分割通常能取得最佳WER,自动分割策略(如Silero VAD、固定分段)性能稍差,表明准确的语音边界检测对长对话ASR至关重要。部分模型(如Qwen3-ASR)对长段输入更鲁棒。
| 模型 (尺寸) | 手动分割 | RD分割 | Silero分割 | 固定30s | 固定60s |
|---|---|---|---|---|---|
| Parakeet v3 (0.6B) | 8.8 | 9.0 | 9.2 | 9.9 | 12.1 |
| Qwen3-ASR (1.7B) | 7.9 | 8.0 | 8.3 | 7.8 | 7.4 |
| Canary-1B v2 (1B) | 10.6 | 11.2 | 11.2 | 10.9 | 13.3 |
| Whisper Large v3 (1.6B) | 10.7 | 18.9 | 15.0 | 42.9 | - |
| Granite Speech (8B) | 10.5 | 10.9 | 11.9 | 12.2 | 13.8 |
*表2:不同模型在不同分割策略下的平均WER(%)*
* **口音差异巨大**:模型在不同口音上的表现差异显著。例如,使用Silero分割时,多数模型在 `en_US_General`(通用美音)和 `en_AU`(澳洲英语)上表现最好,而在 `en_SG`(新加坡英语)、 `en_CN`(中式英语)和 `en_GB_SCT`(苏格兰英语)上错误率明显偏高。最佳与最差口音间的WER绝对差距可超过10%。
* **性能与鲁棒性不完全相关**:平均WER更低的模型(如Parakeet v3, 9.2%)其口音间相对差异(48%)反而大于某些平均WER较高的模型(如Canary-1B, 11.2%),表明提升平均性能不自动保证口音鲁棒性。
| 口音 | Parakeet v2 | Parakeet v3 | Qwen3-ASR (1.7B) | Canary-1B | Whisper v2 | 平均 |
|---|---|---|---|---|---|---|
| en_AU | 5.6 | 5.2 | 4.7 | 6.6 | 9.3 | 6.2 |
| en_US_General | 6.2 | 5.5 | 5.0 | 7.6 | 11.0 | 7.1 |
| en_IN | 9.9 | 9.7 | 10.3 | 12.9 | 33.0 | 13.9 |
| en_SG | 12.4 | 12.4 | 10.9 | 14.9 | 15.9 | 14.8 |
| 所有口音平均 | 9.6 | 9.2 | 8.3 | 11.2 | 16.0 | - |
*表3:使用Silero分割时,各模型在不同口音上的WER(%)*
- 实际意义是什么:为ASR社区,特别是对话AI领域,提供了一个高质量、无污染、针对多口音长对话场景的标准评估基准。这有助于更公平、更真实地比较和推动ASR模型在实际应用中的鲁棒性发展。
- 主要局限性是什么:(a) 数据为角色扮演而非真实呼叫中心对话,其语言风格和场景复杂度可能与真实数据有差异;(b) 尽管鼓励人口多样性,但部分口音组内性别分布不平衡;(c) 口音标签基于自我认同和验证,类别内部变异性和边界未严格定义;(d) 针对自发语音的逐字标注存在固有挑战,可能存在少量标注错误。