语音/音频论文速递 2026-05-02

语音/音频论文速递 2026-05-02 共分析 4 篇论文 ⚡ 今日概览 📥 抓取 4 篇 → 🔬 深度分析完成 🏷️ 热门方向 方向 数量 分布 #语音对话系统 1篇 █ #语音合成 1篇 █ #基准测试 1篇 █ #语音识别 1篇 █ 📊 论文评分排行榜(4 篇,按分数降序) 排名 论文 评分 分档 主任务 🥇 MiniCPM-o 4.5: Towards Real-Time Full-Duplex Omni-Modal 8.5分 前25% #语音对话系统 🥈 JaiTTS: A Thai Voice Cloning Model 8.0分 前25% #语音合成 🥉 InteractWeb-Bench: Can Multimodal Agent Escape Blind Ex 7.5分 前25% #基准测试 4. AppTek Call-Center Dialogues: A Multi-Accent Long-Form 6.5分 前50% #语音识别 📋 论文列表 🥇 MiniCPM-o 4.5: Towards Real-Time Full-Duplex Omni-Modal Interaction 🔥 8.5/10 | 前25% | #语音对话系统 | #端到端 | #多模态模型 #流式处理 | arxiv ...

2026-05-02 · 更新于 2026-05-20 · 4 min · 724 words

AppTek Call-Center Dialogues: A Multi-Accent Long-Form Benchmark for English ASR

📄 AppTek Call-Center Dialogues: A Multi-Accent Long-Form Benchmark for English ASR #语音识别 #基准测试 #数据集 #鲁棒性 #英语变体 ✅ 6.5/10 | 前25% | #语音识别 | #基准测试 | #数据集 #鲁棒性 | arxiv 学术质量 5.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Eugen Beck(AppTek.ai) 通讯作者:未说明 作者列表:Eugen Beck(AppTek.ai)、Sarah Beranek(AppTek.ai)、Uma Moothiringote(AppTek.ai)、Daniel Mann(AppTek.ai)、Wilfried Michel(AppTek.ai)、Katie Nguyen(AppTek.ai)、Taylor Tragemann(AppTek.ai) 💡 毒舌点评 亮点:这篇论文精准地指出了当前ASR评测的一个核心痛点(用短读音、无口音标注的基准来评估需要处理长对话、多口音的系统),并花大力气构建了一个规模空前、针对性极强的“考卷”,其14种英语变体和128.6小时的体量本身就是一个重要贡献。短板:评测对象完全是“角色扮演”的对话,这虽然比朗读录音更真实,但与真实呼叫中心场景中用户可能存在的高度紧张、方言极重、信号更差等情况仍有差距,其生态效度可以打个问号。 🔗 开源详情 代码:论文中未提及代码链接。 模型权重:论文中未提及模型权重的具体链接。论文评估了多个开源ASR模型,但未提供其下载地址,仅在参考文献中引用了相关工作。 数据集:AppTek Call-Center Dialogues 数据集。 获取链接:https://huggingface.co/datasets/apptek-com/apptek_callcenter_dialogues 开源协议:Creative Commons Attribution-ShareAlike 4.0 International (CC BY-SA 4.0)。 协议链接:https://creativecommons.org/licenses/by-sa/4.0/ Demo:论文中未提及。 复现材料:论文中未提及具体的训练配置或检查点。但提到了以下评估与归一化材料: 论文提供了一个数据集专用的归一化脚本(normalization script),用于在评估前统一处理模型输出,但未提供该脚本的直接链接。 论文引用了 Hugging Face OpenASR leaderboard 的评估协议。 论文中引用的开源项目: Silero VAD:用于音频分割。 链接:https://github.com/snakers4/silero-vad Hugging Face OpenASR Leaderboard:用于定义评分协议。 链接:https://huggingface.co/spaces/open_asr_leaderboard OpenAI GPT5.2:用于论文校对。 论文引用为 [singh2025openaigpt5card],未提供直接链接。 gpt-oss-120B:本地用于生成评分归一化映射文件和验证拼写。 论文引用为 [openai2025gptoss120bgptoss20bmodel],未提供直接链接。 补充信息 模型架构 补充:分析结果中提到“未提出新的模型架构”,这是正确的,但遗漏了论文对所评测的各类ASR系统架构的简要归类与共性说明。论文在引言和基准测试部分指出,所评测的系统(如Parakeet, Canary, Qwen3-ASR, Whisper, Granite等)多为自回归或端到端模型,并严重依赖外部语音活动检测(VAD)或固定分割进行预处理。这一共性是理解为何“分割策略”成为核心评测变量的模型基础,也是论文评估框架设计的动机之一。 ...

2026-05-01 · 更新于 2026-05-20 · 2 min · 357 words

Full-Duplex Interaction in Spoken Dialogue Systems: A Comprehensive Study from the ICASSP 2026 HumDial Challenge

📄 Full-Duplex Interaction in Spoken Dialogue Systems: A Comprehensive Study from the ICASSP 2026 HumDial Challenge #语音对话系统 #端到端 #基准测试 #多模态模型 ✅ 6.5/10 | 前25% | #语音对话系统 | #端到端 | #基准测试 #多模态模型 | arxiv 学术质量 4.0/7 | 选题价值 1.8/2 | 复现加成 0.5 | 置信度 中 👥 作者与机构 第一作者:未说明(作者列表按姓氏字母顺序排列,未明确指出第一作者) 通讯作者:未说明(论文中未明确标注通讯作者,但提供了共同联系邮箱) 作者列表:Chengyou Wang (Audio, Speech and Language Processing Group (ASLP@NPU), School of Computer Science, Northwestern Polytechnical University, Xi’an, China)、Hongfei Xue (同上)、Guojian Li (同上)、Zhixian Zhao (同上)、Shuiyuan Wang (未说明具体单位,仅列姓名)、Shuai Wang (未说明具体单位,仅列姓名)、Xin Xu (未说明具体单位,仅列姓名)、Hui Bu (AISHELL, China)、Lei Xie (Audio, Speech and Language Processing Group (ASLP@NPU), School of Computer Science, Northwestern Polytechnical University, Xi’an, China) 💡 毒舌点评 本文为全双工语音对话系统的研究提供了一套详尽、实用的“考试大纲”和“模拟题库”,其数据集构建和评测框架设计是当前该领域急需的公共产品,对推动后续研究非常有益;但作为一篇“综合性研究”,它更像是一个挑战赛报告和资源发布文档,缺乏自身提出的、经过严格验证的新型模型或核心算法,学术增量主要体现在“评测”而非“建模”上。 ...

2026-05-01 · 更新于 2026-05-20 · 2 min · 319 words

Listening with Time: Precise Temporal Awareness for Long-Form Audio Understanding

📄 Listening with Time: Precise Temporal Awareness for Long-Form Audio Understanding #音频大模型 #音频场景理解 #基准测试 #强化学习 #数据集 🔥 8.0/10 | 前25% | #音频场景理解 | #音频大模型 | #基准测试 #强化学习 | arxiv 学术质量 5.8/7 | 选题价值 1.5/2 | 复现加成 0.7 | 置信度 高 👥 作者与机构 第一作者:Mingchen Shao(西北工业大学) 通讯作者:Lei Xie(西北工业大学) 作者列表:Mingchen Shao(西北工业大学)、Hang Su(独立研究者)、Wenjie Tian(西北工业大学)、Bingshen Mu(西北工业大学)、Zhennan Lin(西北工业大学)、Lichun Fan(独立研究者)、Zhenbo Luo(独立研究者,清华大学相关)、Jian Luan(独立研究者)、Lei Xie(西北工业大学) 💡 毒舌点评 这篇论文的亮点在于其“庖丁解牛”式的系统设计:面对长音频时间感知这一老大难问题,没有硬磕模型本身,而是从数据、评测、推理范式三个层面给出了一套“组合拳”,尤其是构建全球-局部时间线的TWA-CoT思路清晰有效。然而,其短板也很明显:框架的计算开销和多轮推理的延迟使其在实时或流式场景下的应用面临挑战,且最终性能的天花板依然受限于所采用的骨干模型(Qwen3-Omni)的基础能力。 🔗 开源详情 代码:论文承诺开源,并提供了GitHub仓库链接:https://github.com/alanshaoTT/LAT-Audio-Repo。 模型权重:论文提及基于Qwen3-Omni-30B进行训练,但未明确说明最终模型权重是否开源。根据仓库名推测,模型权重可能也会开源。 数据集:LAT-Chronicle数据集和LAT-Bench基准承诺开源,但未说明具体获取方式(如需申请或直接下载)。 Demo:论文中未提及提供在线演示。 复现材料:论文提供了详细的三阶段训练策略、关键超参数(学习率、批大小、组大小)、奖励函数设计以及数据集的构成统计,复现材料较为充分。 引用的开源项目/工具: 骨干模型:Qwen3-Omni-30B-A3B-Instruct (Team, 2025c) 训练框架:Swift (Zhao et al., 2025) 对比模型/工具:Audio-Flamingo3 (Goel et al., 2025)、Gemini系列 (Team, 2025a)、Step-Audio-R1.1 (Tian et al., 2025)、Time-Audio (Wang et al., 2026) 评估指标:FENSE (Zhou et al., 2022; Dinkel et al., 2025) 原子标注中使用的模型:Gemini-2.5-Pro、LLM-ForceAligner (Mu et al., 2026) 强化学习算法:Group Relative Policy Optimization (Shao et al., 2024) 📌 核心摘要 本文针对大型音频语言模型在长音频理解任务(尤其是需要精确时间感知的任务)中性能显著下降的问题,提出了一套综合解决方案。 ...

2026-05-01 · 更新于 2026-05-20 · 2 min · 378 words

LRS-VoxMM: A benchmark for in-the-wild audio-visual speech recognition

📄 LRS-VoxMM: A benchmark for in-the-wild audio-visual speech recognition #语音识别 #数据集 #基准测试 #鲁棒性 🔥 9.0/10 | 前25% | #语音识别 | #数据集 | #基准测试 #鲁棒性 | arxiv 学术质量 6.5/7 | 选题价值 1.8/2 | 复现加成 0.8 | 置信度 高 👥 作者与机构 第一作者:Doyeop Kwak(韩国高等科技院 KAIST) 通讯作者:未明确标注,根据惯例和论文末位,可能为 Joon Son Chung(韩国高等科技院 KAIST) 作者列表:Doyeop Kwak(韩国高等科技院 KAIST)、Jeongsoo Choi(韩国高等科技院 KAIST)、Suyeon Lee(韩国高等科技院 KAIST)、Joon Son Chung(韩国高等科技院 KAIST) 💡 毒舌点评 亮点:精准地切中了当前AVSR评测体系的一个真实痛点——现有主流基准过于“干净”和饱和,难以评估视觉信息的真正价值,并为此提供了从构建协议到失真测试集的一整套标准化解决方案,实用性极强。短板:作为一项数据集/基准工作,其学术贡献主要在于“整合”和“定义”,在模型或算法层面并无直接创新;对基准难度的分析虽充分,但最终仍依赖现有模型来展示,未能提出新的分析范式。 🔗 开源详情 代码:https://github.com/kaistmm/VoxMM 模型权重:论文中提及使用了官方公开发布的 AV-HuBERT、Auto-AVSR 和 Llama-AVSR 检查点,但未提供这些检查点的具体获取链接。 数据集:VoxMM 官方项目主页(包含 LRS-VoxMM 下载说明):https://mm.kaist.ac.kr/projects/voxmm Demo:论文中未提及 复现材料:论文中提及复现了 Auto-AVSR 模型 (Auto-AVSR*),但未提供具体的训练配置文件、复现检查点或详细附录的链接。 论文中引用的开源项目: VoxMM 预处理工具:https://github.com/kaistmm/VoxMM DEMAND 噪声数据库:论文中提及用于加性噪声合成,但未提供具体链接。 Wav2vec 2.0 LARGE 模型:论文中提及用于词级时间戳的强制对齐,但未提供具体链接。 SyncNet:论文中提及用于同步性置信度评分,但未提供具体链接。 LRS2/LRS3 数据集:论文中多次提及并比较,但未提供其原始数据集链接。 The request was rejected because it was considered high risk ...

2026-05-01 · 更新于 2026-05-20 · 2 min · 228 words

Mapping the Methodological Space of Classroom Interaction Research: Scale, Duration, and Modality in an Age of AI

📄 Mapping the Methodological Space of Classroom Interaction Research: Scale, Duration, and Modality in an Age of AI #教育研究 #方法论框架 #多模态模型 #基准测试 #跨模态 ✅ 6.0/10 | 前50% | #模型评估 | #基准测试 | #教育研究 #方法论框架 | arxiv 学术质量 5.5/7 | 选题价值 3.0/2 | 复现加成 -1.0 | 置信度 中 👥 作者与机构 第一作者:未说明(论文中未明确标注) 通讯作者:未说明(论文中未明确标注) 作者列表: Dorottya Demszky(未说明) Edith Bouton(未说明) Alison Twiner(未说明) Sara Hennessy(未说明) Richard Correnti(未说明) 💡 毒舌点评 这篇论文试图在教育研究与AI技术之间架起一座方法论的桥梁,其提出的“尺度-时长-模态”三维分析框架视角新颖,对于整合长期割裂的大规模量化研究与深度质性研究具有启发性。然而,作为一个纯理论框架论文,它缺乏任何实证数据、算法实现或案例验证来支撑其框架的有效性和实用性,读起来更像一篇优秀的研究议程提案,而非一份扎实的学术成果报告。 🔗 开源详情 代码:论文中未提及代码链接 模型权重:论文中未提及 数据集:论文中未提及 Demo:论文中未提及 复现材料:论文中未提及 论文中引用的开源项目:未提及 补充信息 [核心摘要] 补充:框架的提出直接源于对课堂互动研究中“大规模量化观察”与“小样本质性民族志”长期割裂现状的观察,旨在弥合这一方法论鸿沟。论文中用于例证框架的两个研究(Howe et al., 2019; Snell & Lefstein, 2018)在三维空间中的具体定位有清晰对比:前者代表大尺度、中期持续、以音频转录为主的文本分析;后者代表小尺度(单案例)、长期追踪、以视频为主的多模态(含视觉线索)分析。这一对比具体展示了框架如何定位和对比不同研究的侧重点。 ...

2026-05-01 · 更新于 2026-05-20 · 1 min · 153 words

MCPHunt: An Evaluation Framework for Cross-Boundary Data Propagation in Multi-Server MCP Agents

📄 MCPHunt: An Evaluation Framework for Cross-Boundary Data Propagation in Multi-Server MCP Agents #模型评估 #基准测试 #大语言模型 #开源工具 #鲁棒性 ✅ 7.5/10 | 前25% | #模型评估 | #基准测试 | #大语言模型 #开源工具 | arxiv 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Haonan Li(中国地质大学(北京)教育部长江三峡库区地壳活动与地质灾害重点实验室,中国地质大学(北京)地球物理与信息技术学院) 通讯作者:未说明(论文未明确标注通讯作者) 作者列表:Haonan Li(同上)、Tianjun Sun(同上)、Yongqing Wang(同上)、Qisheng Zhang(同上) 💡 毒舌点评 这篇论文的亮点在于它犀利地指出了一个常被忽视的“非恶意”安全风险:AI代理在“乖乖干活”时如何因工作流拓扑结构而“被迫”泄露数据,其提出的CRS分层方法清晰地区分了“任务要求”和“安全失败”,框架设计严谨且开源彻底。短板在于其所有评估任务均为研究者设计的合成场景,能否完全代表真实企业部署中复杂多变的工作流尚存疑问,且对“数据传播”仅限于可字符串匹配的金丝雀,未涉及更隐晦的语义泄露。 🔗 开源详情 代码:https://github.com/lihaonan0716/MCPHunt 模型权重:论文中未提及(论文评估的模型通过API端点调用,未提供模型权重本身) 数据集:https://huggingface.co/datasets/lihaonan0716/mcphunt-agent-traces (包含所有6,321条追踪记录;开源协议为CC BY 4.0) Demo:论文中未提及 复现材料: 代码仓库包含完整的评估框架、标注管线(labeling pipeline)和Croissant元数据。 可复现配置:每个输出JSON文件包含版本信息(schema_version, pipeline_git_commit, task_taxonomy_version, labeling_rules_version)。 重标注脚本:relabel_traces.py 可从原始事件数据重新计算所有风险信号并生成汇总统计。 任务注册表:完整的147个任务列表定义于 src/mcphunt/taxonomy.py。 模型配置:添加新模型仅需一个YAML配置条目,支持任何OpenAI兼容的端点。 检查点/恢复:收集工具在每个追踪后保存状态,支持从API中断中恢复。 论文中引用的开源项目: MCP服务器(论文中用于评估的8个服务器): @modelcontextprotocol/server-filesystem:文件系统服务器。 mcp-server-git:Git服务器。 @modelcontextprotocol/server-memory:记忆/知识图谱服务器。 mcp-server-sqlite:SQLite数据库服务器。 mcp-server-fetch:用于HTTP请求。 mcp-server-time:用于时区查询。 shell-command-mcp:受限制的Shell命令服务器。 浏览器自动化服务器(本地实现,未指定包名)。 其他框架与工具(论文中提及但未提供具体项目链接): PRUDENTIA NeMo Guardrails Invariant 补充信息 [模型架构] 补充:在“3 Method”章节开头,论文明确定义了其威胁模型:“We study a non-adversarial setting: a user issues a legitimate task, the agent has access to k MCP servers, and no adversary manipulates prompts, tools, or data.” 这强调了本研究与主流对抗性安全评估的根本区别,是理解整个工作定位的关键前提。 ...

2026-05-01 · 更新于 2026-05-20 · 3 min · 434 words

TTS-PRISM: A Perceptual Reasoning and Interpretable Speech Model for Fine-Grained Diagnosis

📄 TTS-PRISM: A Perceptual Reasoning and Interpretable Speech Model for Fine-Grained Diagnosis #语音质量评估 #指令微调 #基准测试 #开源工具 #语音合成 ✅ 7.5/10 | 前25% | #语音质量评估 | #指令微调 | #基准测试 #开源工具 | arxiv 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:未说明(论文作者列表未明确排序,但根据邮箱 xi-wang24@mails.tsinghua.edu.cn 和作者列表首位推测,第一作者可能为 Xi Wang)。 通讯作者:未说明(论文作者列表未明确标注,根据邮箱 zywu@sz.tsinghua.edu.cn 推测,通讯作者可能为 Zhiyong Wu)。 作者列表:Xi Wang (1, 2), Jie Wang (3), Xingchen Song (2), Baijun Song (1), Jingran Xie (1), Jiahe Shao (1), Zijian Lin (1), Di Wu (1), Meng Meng (1), Jian Luan (2), Zhiyong Wu (1)。 机构列表:1. 清华大学,中国;2. 小米公司 MiLM Plus,中国;3. 东京大学,日本。 💡 毒舌点评 这篇论文像一个严谨的“语音体检医生”,为TTS系统量身定做了一套包含12个指标的“体检表”和基于大模型生成数据的“训练集”,确实让评估从“整体印象”走向了“分项诊断”。但尴尬的是,这位“医生”自己在“发音”这个最基础的体检项目上却可能受制于自身的“学术出身”(ASR预训练偏差),体检结论的权威性打了点折扣。 ...

2026-05-01 · 更新于 2026-05-20 · 2 min · 327 words

语音/音频论文速递 2026-05-01

语音/音频论文速递 2026-05-01 共分析 21 篇论文 ⚡ 今日概览 📥 抓取 21 篇 → 🔬 深度分析完成 🏷️ 热门方向 方向 数量 分布 #语音识别 7篇 ███████ #模型评估 2篇 ██ #语音对话系统 1篇 █ #条件生成 1篇 █ #语音转换 1篇 █ #音频事件检测 1篇 █ #语音合成 1篇 █ #个性化联邦学习 1篇 █ 📊 论文评分排行榜(21 篇,按分数降序) 排名 论文 评分 分档 主任务 🥇 LRS-VoxMM: A benchmark for in-the-wild audio-visual spe 9.0分 前25% #语音识别 🥈 MiniCPM-o 4.5: Towards Real-Time Full-Duplex Omni-Modal 8.5分 前25% #语音对话系统 🥉 ABC: Any-Subset Autoregression via Non-Markovian Diffus 8.0分 前25% #条件生成 4. Accent Conversion: A Problem-Driven Survey of Socioling 7.5分 前50% #语音转换 5. Few-Shot Accent Synthesis for ASR with LLM-Guided Phone 7.5分 前25% #语音识别 6. EdgeSpike: Spiking Neural Networks for Low-Power Autono 7.5分 前25% #音频事件检测 7. JaiTTS: A Thai Voice Cloning Model 7.5分 前25% #语音合成 8. Taming Noise-Induced Prototype Degradation for Privacy- 7.5分 前25% #个性化联邦学习 9. MCPHunt: An Evaluation Framework for Cross-Boundary Dat 7.5分 前25% #模型评估 10. Beyond the Baseband: Adaptive Multi-Band Encoding for F 7.0分 前25% #生物声学 11. A Knowledge-Driven Approach to Target Speech Extraction 7.0分 前50% #语音分离 12. Predicting Upcoming Stuttering Events from Three-Second 7.0分 前25% #语音生物标志物 13. Dual-LoRA: Parameter-Efficient Adversarial Disentanglem 7.0分 前25% #说话人验证 14. HATS: An Open data set Integrating Human Perception App 7.0分 前50% #语音识别 15. Do Sparse Autoencoders Capture Concept Manifolds? 7.0分 前25% #可解释性 16. BUT System Description for CHiME-9 MCoRec Challenge 6.5分 前25% #语音识别 17. AppTek Call-Center Dialogues: A Multi-Accent Long-Form 6.5分 前25% #语音识别 18. Qualitative Evaluation of Language Model Rescoring in A 6.5分 前25% #语音识别 19. Mapping the Methodological Space of Classroom Interacti 6.0分 前50% #模型评估 20. Selective Augmentation: Improving Universal Automatic P 6.0分 前50% #语音识别 21. Normativity and Productivism: Ableist Intelligence? A D 3.5分 后50% #语音翻译 📋 论文列表 🥇 LRS-VoxMM: A benchmark for in-the-wild audio-visual speech recognition 🔥 9.0/10 | 前25% | #语音识别 | #数据集 | #基准测试 #鲁棒性 | arxiv ...

2026-05-01 · 更新于 2026-05-20 · 12 min · 2481 words

Preferences of a Voice-First Nation: Large-Scale Pairwise Evaluation and Preference Analysis for TTS in Indian Languages

📄 Preferences of a Voice-First Nation: Large-Scale Pairwise Evaluation and Preference Analysis for TTS in Indian Languages #语音合成 #模型评估 #多语言 #人类评估 #基准测试 ✅ 7.5/10 | 前25% | #语音合成 | #模型评估 | #多语言 #人类评估 | arxiv 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Srija Anand (AI4Bharat, srijaanand@ai4bharat.org) 通讯作者:未说明 作者列表:Srija Anand¹,² (AI4Bharat), Ashwin Sankar² (AI4Bharat), Ishvinder Sethi³ (Josh Talks), Aaditya Pareek² (AI4Bharat), Kartik Rajput² (AI4Bharat), Gaurav Yadav² (AI4Bharat), Nikhil Narasimhan² (AI4Bharat), Adish Pandya² (AI4Bharat), Deepon Halder² (AI4Bharat), Mohammed Safi Ur Rahman Khan² (AI4Bharat), Praveen S V² (AI4Bharat), Shobhit Banga² (AI4Bharat), Mitesh M Khapra¹ (印度理工学院马德拉斯分校)。注:上标1,2,3对应论文中提到的机构:1. Indian Institute of Technology, Madras; 2. AI4Bharat; 3. Josh Talks。 💡 毒舌点评 这篇论文堪称语音合成领域的“Consumer Reports”,通过严谨、大规模的控制实验和多维度分析,为印度语言TTS模型的优劣提供了目前最可信的排名和诊断报告,其实证数据的价值很高。然而,它的核心方法论(受控成对评估)并非首创,且“表达力驱动用户偏好”这一结论在缺乏客观声学指标(如MCD, F0轮廓)支撑的情况下,略显单薄,更像是对评估数据的重新解读而非深入机理的揭示。 ...

2026-04-30 · 更新于 2026-05-20 · 3 min · 444 words