ICLR 2026 语音/音频论文详细分析

ICLR 2026 语音/音频论文详细分析 共分析 133 篇 ICLR 2026 论文 🎯 任务分类 点击任务标签查看该方向所有论文: 语音合成(10篇) 音频生成(9篇) 语音识别(9篇) 基准测试(9篇) 音乐生成(9篇) 语音对话系统(8篇) 音频分类(6篇) 音频问答(6篇) 语音情感识别(5篇) 多模态模型(5篇) 音视频(4篇) 音频检索(4篇) 语音分离(3篇) 模型评估(2篇) 语音翻译(2篇) 音乐信息检索(2篇) 生成模型(2篇) 音乐理解(2篇) 视频生成(2篇) 跨模态生成(1篇) 脑编码(1篇) 模型可解释性(1篇) 音视频深度伪造检测(1篇) 图像生成(1篇) 数据集(1篇) 语音增强 #对抗样本(1篇) 语音大模型(1篇) 音频编辑(1篇) 音视频事件检测(1篇) 生态计算(1篇) 视频描述生成(1篇) 视频摘要(1篇) 语音问答(1篇) 基准测试 #数据集(1篇) 音频安全(1篇) 神经网络架构(1篇) 语音转换 #语音匿名化(1篇) 声源定位(1篇) 序列解耦(1篇) 空间音频(1篇) 音频分离(1篇) 机器人操作(1篇) 动作生成(1篇) 音频场景理解(1篇) 跨模态检索(1篇) 语音增强(1篇) 多模态推理(1篇) 语音合成评估(1篇) 语音生成(1篇) 生物声学(1篇) 模型比较(1篇) 音视频联合推理(1篇) 语音识别 #语音合成(1篇) ⚡ 今日概览 📥 133 篇 → 🔬 深度分析完成 ...

2026-05-01 · 更新于 2026-05-19 · 72 min · 15177 words

Confident and Adaptive Generative Speech Recognition via Risk Control

📄 Confident and Adaptive Generative Speech Recognition via Risk Control #语音识别 #大语言模型 #生成模型 #不确定性量化 ✅ 7.5/10 | 前25% | #语音识别 | #生成模型 | #大语言模型 #不确定性量化 学术质量 6.5/7 | 选题价值 0.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Amit Damri (特拉维夫大学电气与计算机工程学院) 通讯作者:Bracha Laufer-Goldshtein (特拉维夫大学电气与计算机工程学院) 作者列表:Amit Damri (特拉维夫大学电气与计算机工程学院)、Bracha Laufer-Goldshtein (特拉维夫大学电气与计算机工程学院) 💡 毒舌点评 这篇论文把“先学习后测试”这一风险控制工具玩明白了,用在ASR纠错里动态调整假设集大小,理论上很优雅,也确实省了不少计算。但它的“自适应”更像一个聪明的调参模块,而非解决语音识别核心难题的“银弹”,实际部署可能还得先过数据集校准这一关,通用性有待观察。 🔗 开源详情 代码:论文明确提供了代码仓库链接:https://github.com/amitdamritau/adaptive-ger。 模型权重:论文未提及公开模型权重。训练使用的是公开的LLaMA-2-7B/13B模型及LoRA微调,但未提供微调后的权重。 数据集:使用了公开的HyPoradise基准数据集(TedLium-3, CHiME-4, CommonVoice)和FLEURS数据集,论文说明了数据获取方式和划分。 Demo:论文中未提及在线演示。 复现材料:在附录C中提供了详细的LLM训练配置,包括超参数(学习率、batch size、LoRA设置)、提示模板、计算硬件要求。在附录A中提供了风险控制实现的详细算法和参数选择策略。提供了充分的复现信息。 论文中引用的开源项目:Whisper (Radford et al., 2023), LLaMA-2 (Touvron et al., 2023), PEFT库 (Mangrulkar et al., 2022), evaluate库, HyPoradise基准 (Chen et al., 2023), RobustGER (Hu et al., 2024a), GenTranslate (Hu et al., 2024b)。 📌 核心摘要 要解决什么问题:现有的生成式语音识别纠错方法通常为所有输入使用固定数量的候选转录文本(N-best列表),这在简单输入上造成计算浪费,在复杂输入上可能引入低质量候选而降低纠错性能。同时,这些方法缺乏性能的理论保证。 方法核心是什么:提出一个自适应框架,利用ASR模型的置信度分数,动态决定每个音频输入应传递给LLM纠错模型的最优候选假设数量。核心是采用“学习后测试”框架,将候选集大小选择建模为风险控制问题,以可控的方式最小化相对于最佳可能性能(oracle)的预期性能退化。 与已有方法相比新在哪里:首次将无分布假设的风险控制理论(特别是LTT框架)应用于生成式ASR纠错。它从固定的N值选择转变为基于输入复杂度的自适应选择,并提供了预期性能退化有界的高概率理论保证。 主要实验结果如何:在HyPoradise基准的三个数据集(TedLium-3, CHiME-4, CommonVoice)上验证。结果表明,该方法平均可将假设集大小减少23%至52%,同时保持或略微提升(相对WER变化在-0.13%至+2.28%之间)纠错性能。风险控制成功率(超过理论最小值1-δ)得到实证验证。关键结果对比如下表所示: 测试集 GER基线 WER (%) 本文方法 Set Size 本文方法 WER (%) 相对大小减少 相对WER变化 TedLium-3 7.53 2.3 7.52 54% -0.13% CHiME-4 6.24 2.7 6.37 46% +2.06% CommonVoice 8.32 1.9 8.51 62% +2.28% 实际意义是什么:为LLM增强的ASR纠错系统提供了一种高效且可靠的部署策略。通过动态分配计算资源(假设集大小),可以在不损害(甚至可能提升)识别质量的前提下,显著降低推理成本,对实时或资源受限的应用场景有价值。 主要局限性是什么:框架的性能依赖于对分数归一化参数(γ, τ)的先验选择,虽然论文探索了基于熵的自动化选择和Pareto测试的多参数联合优化,但在完全未知的声学条件下部署仍需校准。此外,该方法优化的是假设集选择环节,其效果受限于底层ASR和LLM纠错模型的固有能力。 🏗️ 模型架构 本文提出的不是一个端到端的新模型,而是一个插件式的自适应选择框架,它作用于现有“ASR -> N-best列表 -> LLM纠错”流程中的第二步。 ...

2026-05-04 · 更新于 2026-05-19 · 2 min · 351 words