ICLR 2026 语音/音频论文详细分析

ICLR 2026 语音/音频论文详细分析 共分析 133 篇 ICLR 2026 论文 🎯 任务分类 点击任务标签查看该方向所有论文: 语音合成(10篇) 音频生成(9篇) 语音识别(9篇) 基准测试(9篇) 音乐生成(9篇) 语音对话系统(8篇) 音频分类(6篇) 音频问答(6篇) 语音情感识别(5篇) 多模态模型(5篇) 音视频(4篇) 音频检索(4篇) 语音分离(3篇) 模型评估(2篇) 语音翻译(2篇) 音乐信息检索(2篇) 生成模型(2篇) 音乐理解(2篇) 视频生成(2篇) 跨模态生成(1篇) 脑编码(1篇) 模型可解释性(1篇) 音视频深度伪造检测(1篇) 图像生成(1篇) 数据集(1篇) 语音增强 #对抗样本(1篇) 语音大模型(1篇) 音频编辑(1篇) 音视频事件检测(1篇) 生态计算(1篇) 视频描述生成(1篇) 视频摘要(1篇) 语音问答(1篇) 基准测试 #数据集(1篇) 音频安全(1篇) 神经网络架构(1篇) 语音转换 #语音匿名化(1篇) 声源定位(1篇) 序列解耦(1篇) 空间音频(1篇) 音频分离(1篇) 机器人操作(1篇) 动作生成(1篇) 音频场景理解(1篇) 跨模态检索(1篇) 语音增强(1篇) 多模态推理(1篇) 语音合成评估(1篇) 语音生成(1篇) 生物声学(1篇) 模型比较(1篇) 音视频联合推理(1篇) 语音识别 #语音合成(1篇) ⚡ 今日概览 📥 133 篇 → 🔬 深度分析完成 ...

2026-05-01 · 更新于 2026-06-12 · 72 min · 15177 words

Leveraging Audio-LLMs to Filter Speech-to-Speech Training Data

📄 Leveraging Audio-LLMs to Filter Speech-to-Speech Training Data #语音翻译 #数据增强 #自监督学习 #多模态模型 #参数高效微调 #低资源 8.4/10 | 创新 1.7/2 | 严谨 1.3/1.5 | 实验 1.2/1.5 | 清晰 1/1 | 影响 1.2/1.5 | 开源 0/1.5 | 复现 0.5/0.5 | 工程 1.5/1.5 🔥 8.4/10 | 前25% | #语音翻译 | #数据增强 | #自监督学习 #多模态模型 | arxiv 👥 作者与机构 作者:Qixu Chen,Satoshi Nakamura 机构:School of Data Science 和 School of Artificial Intelligence,The Chinese University of Hong Kong, Shenzhen, China ...

2026-06-12 · 更新于 2026-06-12 · 2 min · 356 words

Positional Encoding in the Context of Memristor-Based Analog Computation for Automatic Speech Recognition

📄 Positional Encoding in the Context of Memristor-Based Analog Computation for Automatic Speech Recognition #语音识别 #低资源 #模型压缩 8/10 | 创新 1.4/2 | 严谨 1.3/1.5 | 实验 1.3/1.5 | 清晰 1/1 | 影响 0.9/1.5 | 开源 0.8/1.5 | 复现 0.5/0.5 | 工程 0.8/1.5 🔥 8/10 | 前50% | #语音识别 | #模型压缩 | #低资源 | arxiv 👥 作者与机构 作者:Benedikt Hilmes, Nick Rossenbach, Ralf Schlüter 机构:RWTH Aachen University 机器学习与人类语言技术组, Apptek GmbH (德国亚琛) 💡 毒舌点评 这篇论文精准地切入了一个“硬件-算法协同设计”的细分痛点:在忆阻器这种新兴模拟计算硬件上,一个原本能提升性能的常规组件(相对位置编码)反而成了性能毒药。文章的价值在于揭示了这种“水土不服”的现象并给出了工程上的补救方案。然而,作为一篇投向顶会的论文,其贡献的“宽度”和“深度”略显不足。它更像一份扎实的硬件部署问题诊断报告,而非一篇提出全新算法或深刻理论洞察的论文。问题本身有趣,但解决方案(调整ADC位数、移除线性层)相对直接,缺乏令人眼前一亮的创新。此外,结论中“∼50%”和“∼30%”的表述需要更精确的定义和基准,否则容易产生误导。 ...

2026-06-12 · 更新于 2026-06-12 · 2 min · 385 words

Self-Guidance: Enhancing Neural Codecs via Decoder Manifold Alignment

📄 Self-Guidance: Enhancing Neural Codecs via Decoder Manifold Alignment #语音合成 #语音编码 #自监督学习 #正则化微调 #低资源 #模型压缩 9.7/10 | 创新 1.6/2 | 严谨 1.2/1.5 | 实验 1.5/1.5 | 清晰 1/1 | 影响 1.2/1.5 | 开源 1.4/1.5 | 复现 0.5/0.5 | 工程 1.3/1.5 🔥 9.7/10 | 前25% | #语音合成 | #自监督学习 | #语音编码 #正则化微调 | arxiv 👥 作者与机构 作者:Xiang Li, Yixuan Zhou, Jingran Xie, Zhiyong Wu, Hui Wang。论文未明确提及作者所属机构。 💡 毒舌点评 这篇工作提出了一个简单有效且即插即用的训练技巧(Self-Guidance),确实能提升编解码器性能并减少码本大小,对下游LLM任务有益。但审稿人普遍会质疑其“新颖性”上限——这本质上是一种特征级别的对齐或正则化手段,在自蒸馏、特征模仿等领域早有类似思想。论文在理论分析上较为薄弱,缺乏对“为何对齐解码器特定层特征就如此有效”的深入数学或信息论解释。下游TTS实验规模太小,像一个仓促的验证,难以充分支撑“显著提升”的结论。整体而言,这是一篇扎实的工程改进工作,但离理论贡献或范式突破尚有距离。 📌 核心摘要 本文针对VQ-VAE神经语音编解码器中量化误差限制重建质量的问题,提出了一种轻量级训练机制“自引导”(Self-Guidance, SG)。SG在训练时为解码器引入一个辅助分支,输入连续的预量化潜在向量(teacher路径),并通过一个特征映射损失(\(\\mathcal{L}_{\\text{guide}}\))对齐该分支与原始量化输入分支(student路径)在解码器最后一个Transformer块输出的隐藏特征。此举旨在提升解码器对量化误差的鲁棒性,使其在推理时仅处理量化token也能生成更高质量的波形。实验表明,SG在XCodec2模型上取得了多项指标的SOTA,并能以1/4码本大小达到基线性能,从而有益于简化下游LLM的语音token建模。该机制泛化性良好,适用于不同的量化器和解码器架构。 ...

2026-06-12 · 更新于 2026-06-12 · 3 min · 545 words

语音/音乐/音频论文速递 2026-06-12

语音/音乐/音频论文速递 2026-06-12 共分析 27 篇论文 ⚡ 今日概览 📥 抓取 27 篇 → 🔬 深度分析完成 🏷️ 热门方向 方向 数量 分布 #语音合成 6篇 ██████ #语音识别 4篇 ████ #音频分类 2篇 ██ #语音翻译 2篇 ██ #语音增强 2篇 ██ #音频生成 1篇 █ #多模态模型 1篇 █ #说话人识别 1篇 █ 📊 论文评分排行榜(27 篇,按分数降序) 排名 论文 总分 分档 主任务 🥇 Self-Guidance: Enhancing Neural Codecs via Decoder Mani 9.7分 前25% #语音合成 🥈 Ontology Memory-Augmented ASR Correction for Long Text- 9.6分 前25% #语音识别 🥉 Emo-LiPO: Listwise Preference Optimization for Fine-Gra 9.3分 前50% #语音合成 4. AudioX-Turbo: A Unified Framework for Efficient Anythin 9.0分 前10% #音频生成 5. M*: A Modular, Extensible, Serving System for Multimoda 8.9分 前25% #多模态模型 6. Decoding Insect Song: A Multitask Semisupervised Orthop 8.7分 前50% #音频分类 7. Missing-Token Prompted Reliability-Aware Fusion for Rob 8.6分 前25% #说话人识别 8. Leveraging Audio-LLMs to Filter Speech-to-Speech Traini 8.4分 前25% #语音翻译 9. Endpoint Anticipation for Low-Latency Spoken Dialogue 8.2分 前25% #多任务学习 10. A Dual-Mode Faust-to-CLAP Compilation System 8.1分 前50% - 11. PRISM: Prosody-Integrated Multi-Agent Reasoning Framewo 8.1分 前25% #语音合成 12. Positional Encoding in the Context of Memristor-Based A 8.0分 前50% #语音识别 13. From Tokens to Faces: Investigating Discrete Speech Rep 7.9分 前25% #语音合成 14. Low-Latency Real-Time Audio Game Commentary System via 7.9分 前25% #语音合成 15. MiniMax Sparse Attention 7.7分 前25% #高效推理 16. BASENet: Band-Adapted Speech Enhancement Network with C 7.5分 前50% #语音增强 17. Dolph2Vec: Self-Supervised Representations of Dolphin V 7.2分 前50% #音频分类 18. Balancing ASR and diarization in end-to-end LLMs for mu 7.1分 前50% #语音识别 19. NaturalFlow: Reducing Disruptive Pauses for Natural Spe 7.0分 前50% #语音翻译 20. Adaptive Turn-Taking for Real-time Multi-Party Voice Ag 6.7分 后50% #数据增强 21. Predicting Cognitive Load from Speech and Interaction D 6.7分 前50% #语音情感识别 22. PiDA: Phonetically-Informed Data Augmentation for Robus 6.5分 前50% - 23. Generating Training Targets for Real-World Speech Enhan 6.4分 前50% #语音增强 24. Towards Personalized Federated Learning for Dysarthric 6.2分 前50% #语音识别 25. The Moving Drone: Negotiating Agency Between the Voice 6.0分 前50% - 26. Generative Modeling of Bach-Style Symbolic Music: A Com 5.7分 前50% #音乐生成 27. Vocal Identity Under Siege by AI Voice Cloning Technolo 3.2分 前50% #语音合成 📋 论文列表 🥇 Self-Guidance: Enhancing Neural Codecs via Decoder Manifold Alignment 9.7/10 | 创新 1.6/2 | 严谨 1.2/1.5 | 实验 1.5/1.5 | 清晰 1/1 | 影响 1.2/1.5 | 开源 1.4/1.5 | 复现 0.5/0.5 | 工程 1.3/1.5 ...

2026-06-12 · 更新于 2026-06-12 · 16 min · 3281 words

Evaluating Bias in Phoneme-Based Automatic Speech Recognition Systems: An Analysis of IPA Transcription Models

📄 Evaluating Bias in Phoneme-Based Automatic Speech Recognition Systems: An Analysis of IPA Transcription Models #语音识别 #多语言 #低资源 8.8/10 | 创新 1.6/2 | 严谨 1.2/1.5 | 实验 1.3/1.5 | 清晰 1/1 | 影响 1.5/1.5 | 开源 0.7/1.5 | 复现 0.5/0.5 | 工程 1/1.5 🔥 8.8/10 | 前50% | #语音识别 | #多语言 | #低资源 | arxiv 👥 作者与机构 Catherine Bao, Maneesha Rani Saha, Neal Patwari, 均来自University of Utah。 💡 毒舌点评 这篇论文选题重要,直击IPA-ASR系统在多语言与人口统计公平性评估的空白,其提出的Soft PER指标在概念上具有启发性。然而,论文的“软肋”在于其核心评估框架建立在一个无法回避的“软肋”之上:依赖G2P生成的、未经专家验证的IPA作为“标准答案”。这使得所有性能差异的解读都笼罩在“标注噪声”和“标准化偏见”的阴影下,大大削弱了结论的确定性。Soft PER本身虽试图缓解此问题,但其设计(特别是英语优先的映射)也可能引入新的偏差。模型评估部分清晰,但结论中关于“无系统性性别差异”和“特定口音/族裔差异”的断言,受限于数据集规模和异质性,显得有些武断。整体而言,是一篇扎实但受方法论约束的初步探索,距离“揭示偏差根源”还有相当距离。 ...

2026-06-11 · 更新于 2026-06-12 · 2 min · 329 words

Gumbel-BEARD: Automatic Layer Selection for Self-Supervised Adaptation of Whisper in Low-Resource Domains

📄 Gumbel-BEARD: Automatic Layer Selection for Self-Supervised Adaptation of Whisper in Low-Resource Domains #语音识别 #自监督学习 #低资源 #领域适应 9.1/10 | 创新 1.5/2 | 严谨 1.3/1.5 | 实验 1.5/1.5 | 清晰 1/1 | 影响 1.1/1.5 | 开源 1/1.5 | 复现 0.5/0.5 | 工程 1.2/1.5 🔥 9.1/10 | 前25% | #语音识别 | #自监督学习 | #低资源 #领域适应 | arxiv 👥 作者与机构 作者:Zilai Wang, Natarajan Balaji Shankar, Mohan Shi, Kaiyuan Zhang, Abeer Alwan 机构:University of California, Los Angeles, USA ...

2026-06-11 · 更新于 2026-06-12 · 2 min · 327 words

Pretrained self-supervised speech models can recognize unseen consonants

📄 Pretrained self-supervised speech models can recognize unseen consonants #语音识别 #低资源 #自监督学习 #数据集 6.5/10 | 创新 1/2 | 严谨 1.2/1.5 | 实验 1.2/1.5 | 清晰 1/1 | 影响 0.8/1.5 | 开源 0.3/1.5 | 复现 0.5/0.5 | 工程 0.5/1.5 ✅ 6.5/10 | 前50% | #语音识别 | #自监督学习 | #低资源 #数据集 | arxiv 👥 作者与机构 作者:Chihiro Taguchi, Éric Le Ferrand, Hirosi Nakagawa, Hitomi Ono, Kanji Kato, Emily Prud’hommeaux, David Chiang。 机构:University of Notre Dame, USA; University at Buffalo, USA; Tokyo University of Foreign Studies, Japan; Reitaku University, Japan; Independent researcher; Boston College, USA。 ...

2026-06-11 · 更新于 2026-06-12 · 2 min · 362 words

Tight Boundary Prediction in Speaker Diarization Using Causal-Anticausal Consistency

📄 Tight Boundary Prediction in Speaker Diarization Using Causal-Anticausal Consistency #低资源 9.6/10 | 创新 1.8/2 | 严谨 1.3/1.5 | 实验 1.5/1.5 | 清晰 1/1 | 影响 1.2/1.5 | 开源 1.5/1.5 | 复现 0.5/0.5 | 工程 0.8/1.5 🔥 9.6/10 | 前25% | #低资源 | #低资源 | arxiv 👥 作者与机构 作者:Tianchi Ji, Rui Liu, Shixiong Zhang, Haizhou Li 机构:香港中文大学(深圳),中国;上海交通大学,中国;上海人工智能实验室,中国 💡 毒舌点评 这篇工作瞄准了说话人分割中一个具体而实际的痛点——边界预测不准,并提出了一个思路巧妙的解决方案。核心想法(利用因果和反因果模型的一致性)具有一定的理论趣味性,实现起来也算工程上“优雅”。实验部分在多个标准数据集上做了验证,证明了其有效性,尤其是对边界敏感指标的提升,这是值得肯定的。开源了代码和模型权重,对于社区复现和后续研究是负责任的。然而,论文的“新意”更多在于技术组合的巧妙,而非根本性的理论突破。一致性约束的物理或信息论解释略显薄弱,更多是启发式的。消融实验虽然做了,但对一致性约束本身的作用机制(例如,它到底迫使模型学到了什么?)挖掘不够深。另外,将边界预测问题转化为一个在预测边界附近的“精细分类”问题,这个思路不新,本文的贡献在于如何更有效地“定位”这个附近区域。总的来说,这是一篇扎实、有用的工程改进型工作,但距离顶尖会议那种“灵光一现”的开创性还有距离,其影响力主要局限于说话人分割领域内的边界优化技术。 📌 核心摘要 本文针对说话人分割任务中边界预测不精确的问题,提出了一种基于因果-反因果一致性的新方法。核心思想是,对于同一段语音,从过去到未来的“因果”模型和从未来到过去的“反因果”模型,在真正的说话��边界处应产生一致的决策(即预测该点为边界或非边界)。为此,作者设计了一个可微分的边界采样器,利用初始模型(如EEND-VC)的预测作为锚点,在其邻域内密集采样,然后通过一致性损失来优化整个分割模型。该方法将边界优化过程无缝集成到端到端的训练框架中。实验表明,在AliMeeting、AMI和DIHARD III三个数据集上,该方法在边界敏感的指标(B-CUBER, JER)上取得了显著提升,同时整体的分割错误率(DER)也得到保持或改善,验证了所提一致性约束的有效性。 🔗 开源详情 代码:https://github.com/TianchiJi/CA-Consistency-Diarization 模型权重:https://huggingface.co/TianchiJi/ca-consistency-diarization-base 数据集:论文中使用了公开数据集AliMeeting, AMI, DIHARD III,但未提供额外数据集。 Demo:论文中未提及。 复现材料:论文在“Implementation Details”和“Appendix”中提供了详细的训练配置、超参数设置及因果-反因果一致性训练的具体实现细节。提供了指向GitHub代码库和HuggingFace模型库的明确链接。 论文中引用的开源项目: EEND-VC: https://github.com/espnet/espnet (作为基线模型) Pyannote-Audio: https://github.com/pyannote/pyannote-audio (用于数据预处理和评估) 🏗️ 方法概述和架构 本文提出的方法旨在通过引入因果-反因果一致性约束来提升说话人分割模型的边界预测精度。整体架构包含一个基础的端到端说话人分割模型(例如EEND-VC),以及一个在该基础模型上构建的一致性训练模块。 ...

2026-06-11 · 更新于 2026-06-12 · 2 min · 264 words

UR-BERT: Scaling Text Encoders for Massively Multilingual TTS Through Universal Romanization and Speech Token Prediction

📄 UR-BERT: Scaling Text Encoders for Massively Multilingual TTS Through Universal Romanization and Speech Token Prediction #自监督学习 #多语言 #语音合成 #低资源 8.1/10 | 创新 8/2 | 严谨 7/1.5 | 实验 9/1.5 | 清晰 8/1 | 影响 8/1.5 | 开源 7/1.5 | 复现 8/0.5 | 工程 8/1.5 🔥 8.1/10 | 前25% | #语音合成 | #自监督学习 | #多语言 #低资源 | arxiv 👥 作者与机构 作者:Sangmin Lee, Eekgyun Ahn, Woongjib Choi, Hong-Goo Kang 机构:延世大学电子与电气工程系,首尔,韩国 💡 毒舌点评 这篇论文选题重要,想法直白有效(用罗马化替代G2P来扩展语言覆盖面),实验量也足够撑起一个“大规模”的宣称。但细看之下,作者的论证有些“偷懒”。罗马化这个核心决策本身带来的信息损失和对齐歧义问题,他们只是轻描淡写地提了一句,完全没有深入分析。你号称覆盖495种语言(表格里写1162,正文495,数据对不上?),但对那些音系复杂的语言,比如声调语言或含有送气/非送气对立的语言,罗马化到底丢了多少关键信息?STP目标真的补回来了吗?作者没给证据。另外,所有下游微调都绑死在VITS上,UR-BERT作为一个“通用”编码器,在其他TTS架构上是否依然坚挺?这个实验没做。最让我不爽的是,缺乏一个关键的消融基线:在同样罗马化文本上,只做纯文本MLM而不加STP的BERT。没有这个对比,你STP到底贡献了多大价值,是骡子是马没法完全说清楚。实验设计整体不错,但关键的自我剖析和更严格的对照缺失了,让其“重大贡献”的宣称打了点折扣。 ...

2026-06-11 · 更新于 2026-06-12 · 2 min · 355 words