ICLR 2026 - 语音分离 论文列表

ICLR 2026 - 语音分离 共 3 篇论文 ← 返回 ICLR 2026 总览 排名 论文 评分 分档 🥇 MARS-Sep: Multimodal-Aligned Reinforced Sound Separation 7.5分 前25% 🥈 Efficient Audio-Visual Speech Separation with Discrete Lip S 7.5分 前25% 🥉 Knowing When to Quit: Probabilistic Early Exits for Speech S 7.0分 前25% 📋 论文详情 🥇 MARS-Sep: Multimodal-Aligned Reinforced Sound Separation ✅ 7.5/10 | 前25% | #语音分离 | #强化学习 | #多模态模型 #对比学习 👥 作者与机构 第一作者:Zihan Zhang (Zhejiang University) 通讯作者:Tao Jin (Zhejiang University) 作者列表:Zihan Zhang (Zhejiang University), Xize Cheng (Zhejiang University), Zhennan Jiang (Institute of Automation, Chinese Academy of Sciences), Dongjie Fu (Zhejiang University), Jingyuan Chen (Zhejiang University), Zhou Zhao (Zhejiang University), Tao Jin (Zhejiang University) 💡 毒舌点评 ...

2026-05-04 · 更新于 2026-05-20 · 4 min · 708 words

ICLR 2026 - 语音合成 论文列表

ICLR 2026 - 语音合成 共 10 篇论文 ← 返回 ICLR 2026 总览 排名 论文 评分 分档 🥇 FlexiCodec: A Dynamic Neural Audio Codec for Low Frame Rates 9.0分 前10% 🥈 VibeVoice: Expressive Podcast Generation with Next-Token Dif 8.5分 前10% 🥉 SpeechJudge: Towards Human-Level Judgment for Speech Natural 8.5分 前10% 4. FlexiVoice: Enabling Flexible Style Control in Zero-Shot TTS 8.0分 前25% 5. Toward Complex-Valued Neural Networks for Waveform Generatio 8.0分 前25% 6. From Natural Alignment to Conditional Controllability in Mul 8.0分 前25% 7. Hierarchical Semantic-Acoustic Modeling via Semi-Discrete Re 8.0分 前25% 8. Gogo: Group-wise granularity-ordered codec for stable and ef 7.5分 前25% 9. Continuous Audio Language Models 7.0分 前25% 10. MambaVoiceCloning: Efficient and Expressive Text-to-Speech v 6.5分 前50% 📋 论文详情 🥇 FlexiCodec: A Dynamic Neural Audio Codec for Low Frame Rates 🔥 9.0/10 | 前10% | #语音合成 | #自监督学习 | #流匹配 #多语言 ...

2026-05-04 · 更新于 2026-05-20 · 8 min · 1679 words

ICLR 2026 - 语音合成评估 论文列表

ICLR 2026 - 语音合成评估 共 1 篇论文 ← 返回 ICLR 2026 总览 排名 论文 评分 分档 🥇 TTSDS2: Resources and Benchmark for Evaluating Human-Quality 7.5分 前25% 📋 论文详情 🥇 TTSDS2: Resources and Benchmark for Evaluating Human-Quality Text to Speech Systems ✅ 7.5/10 | 前25% | #语音合成评估 | #基准测试 | #语音合成 #模型评估 👥 作者与机构 第一作者:Christoph Minixhofer(爱丁堡大学语音技术研究中心) 通讯作者:论文中未明确指定,根据作者邮箱统一格式,可能为同一机构课题组 作者列表:Christoph Minixhofer(爱丁堡大学语音技术研究中心)、Ondrej Klejch(爱丁堡大学语音技术研究中心)、Peter Bell(爱丁堡大学语音技术研究中心) 💡 毒舌点评 亮点在于构建了首个覆盖14种语言、横跨多个真实世界域(含噪声、野生、儿童语音)的TTS客观评估基准与自动化流水线,实用价值高。但核心创新点(TTSDS2)是对原有TTSDS指标的增量改进,更多是工程优化和鲁棒性验证,而非提出全新评估范式,且其计算开销(CPU-bound)限制了快速迭代。 🔗 开源详情 代码:提供代码仓库链接(github.com/ttsds/pipeline),用于自动化数据创建和基准测试。 模型权重:论文评估的20个系统多为开源,TTSDS2本身不涉及需训练的模型,但依赖的特征提取模型(如mHuBERT-147)是公开的。 数据集:公开发布了包含11,282条评分的人类评估数据集(hf.co/datasets/ttsds/listening_test)。自动化流水线可创建多语言数据集。 Demo:提供在线基准排行榜网站(ttsdsbenchmark.com)。 复现材料:论文详细描述了评估设置、问卷内容、流水线算法(Algorithm 1)、特征选择标准,并提供了特征分布可视化示例(图1)。 论文中引用的开源项目:大量引用了开源工具和模型,如Whisper, Demucs, Pyannote, XNLI模型, VERSA工具包, 以及所评估的20个开源TTS系统。 📌 核心摘要 ...

2026-05-04 · 更新于 2026-05-20 · 1 min · 198 words

ICLR 2026 - 语音增强 #对抗样本 论文列表

ICLR 2026 - 语音增强 #对抗样本 共 1 篇论文 ← 返回 ICLR 2026 总览 排名 论文 评分 分档 🥇 Are Deep Speech Denoising Models Robust to Adversarial Noise 8.5分 前25% 📋 论文详情 🥇 Are Deep Speech Denoising Models Robust to Adversarial Noise? 🔥 8.5/10 | 前25% | #语音增强 #对抗样本 | #信号处理 | #语音增强 #对抗样本 👥 作者与机构 第一作者:Will Schwarzer(马萨诸塞大学阿默斯特分校) 通讯作者:Will Schwarzer(马萨诸塞大学阿默斯特分校) 作者列表:Will Schwarzer(马萨诸塞大学阿默斯特分校)、Philip S. Thomas(马萨诸塞大学阿默斯特分校)、Andrea Fanelli(Dolby Laboratories)、Xiaoyu Liu(Meta) 💡 毒舌点评 论文将音频对抗攻击的研究从简单的扰动约束推进到了考虑真实声学环境(模拟过空传播)和严格心理声学掩蔽的实用化设定,这是一项重要且扎实的安全研究。然而,攻击的成功高度依赖于白盒梯度访问,且论文坦承通用对抗扰动和跨模型迁移基本无效,这限制了其直接展示的“威胁”的即时实用性,更像是一份详尽的系统性风险报告。 🔗 开源详情 ...

2026-05-04 · 更新于 2026-05-20 · 1 min · 131 words

ICLR 2026 - 语音增强 论文列表

ICLR 2026 - 语音增强 共 1 篇论文 ← 返回 ICLR 2026 总览 排名 论文 评分 分档 🥇 SpeechOp: Inference-Time Task Composition for Generative Spe 7.5分 前25% 📋 论文详情 🥇 SpeechOp: Inference-Time Task Composition for Generative Speech Processing ✅ 7.5/10 | 前25% | #语音增强 | #扩散模型 | #语音分离 #多任务学习 👥 作者与机构 第一作者:Justin Lovelace(Cornell University) 通讯作者:未明确说明(论文作者来自Cornell University和Adobe Research,从贡献描述看,Adobe Research团队的Rithesh Kumar, Jiaqi Su, Ke Chen, Zeyu Jin可能承担更多指导角色,但论文未明确标注通讯作者) 作者列表: Justin Lovelace(Cornell University) Rithesh Kumar(Adobe Research) Jiaqi Su(Adobe Research) Ke Chen(Adobe Research) Kilian Q Weinberger(Cornell University) Zeyu Jin(Adobe Research) 💡 毒舌点评 ...

2026-05-04 · 更新于 2026-05-20 · 1 min · 105 words

ICLR 2026 - 语音大模型 论文列表

ICLR 2026 - 语音大模型 共 1 篇论文 ← 返回 ICLR 2026 总览 排名 论文 评分 分档 🥇 Closing the Gap Between Text and Speech Understanding in LLM 8.5分 前25% 📋 论文详情 🥇 Closing the Gap Between Text and Speech Understanding in LLMs 🔥 8.5/10 | 前25% | #语音大模型 | #知识蒸馏 #主动学习 | #知识蒸馏 #主动学习 👥 作者与机构 第一作者:Santiago Cuervo(Université de Toulon, Aix Marseille Université, CNRS, LIS) 通讯作者:未说明 作者列表:Santiago Cuervo(Université de Toulon, Aix Marseille Université, CNRS, LIS)、Skyler Seto(Apple)、Maureen de Seyssel(Apple)、Richard He Bai(Apple)、Zijin Gu(Apple)、Tatiana Likhomanenko(Apple)、Navdeep Jaitly(Apple)、Zakaria Aldeneh(Apple) 💡 毒舌点评 ...

2026-05-04 · 更新于 2026-05-20 · 1 min · 128 words

ICLR 2026 - 语音对话系统 论文列表

ICLR 2026 - 语音对话系统 共 8 篇论文 ← 返回 ICLR 2026 总览 排名 论文 评分 分档 🥇 DrVoice: Parallel Speech-Text Voice Conversation Model via D 9.5分 前10% 🥈 STITCH: Simultaneous Thinking and Talking with Chunked Reaso 8.5分 前25% 🥉 End-to-end Listen, Look, Speak and Act 8.5分 前25% 4. From Text to Talk: Audio-Language Model Needs Non-Autoregres 8.5分 前25% 5. ParaS2S: Benchmarking and Aligning Spoken Language Models fo 8.0分 前25% 6. Human or Machine? A Preliminary Turing Test for Speech-to-Sp 7.5分 前25% 7. Can Speech LLMs Think while Listening? 7.5分 前25% 8. Towards True Speech-to-Speech Models Without Text Guidance 7.5分 前25% 📋 论文详情 🥇 DrVoice: Parallel Speech-Text Voice Conversation Model via Dual-Resolution Speech Representations 🔥 9.5/10 | 前10% | #语音对话系统 | #自回归模型 | #多模态模型 #语音合成 ...

2026-05-04 · 更新于 2026-05-20 · 4 min · 817 words

ICLR 2026 - 语音情感识别 论文列表

ICLR 2026 - 语音情感识别 共 5 篇论文 ← 返回 ICLR 2026 总览 排名 论文 评分 分档 🥇 VowelPrompt: Hearing Speech Emotions from Text via Vowel-lev 8.5分 前25% 🥈 AVERE: Improving Audiovisual Emotion Reasoning with Preferen 8.0分 前25% 🥉 Learnable Fractional Superlets with a Spectro-Temporal Emoti 8.0分 前25% 4. EmotionThinker: Prosody-Aware Reinforcement Learning for Exp 8.0分 前25% 5. Speech World Model: Causal State–Action Planning with Explic 7.5分 前25% 📋 论文详情 🥇 VowelPrompt: Hearing Speech Emotions from Text via Vowel-level Prosodic Augmentation 🔥 8.5/10 | 前25% | #语音情感识别 | #强化学习 | #多语言 #大语言模型 ...

2026-05-04 · 更新于 2026-05-20 · 3 min · 637 words

ICLR 2026 - 语音生成 论文列表

ICLR 2026 - 语音生成 共 1 篇论文 ← 返回 ICLR 2026 总览 排名 论文 评分 分档 🥇 TASTE: Text-Aligned Speech Tokenization and Embedding for Sp 7.0分 前25% 📋 论文详情 🥇 TASTE: Text-Aligned Speech Tokenization and Embedding for Spoken Language Modeling ✅ 7.0/10 | 前25% | #语音生成 | #自回归模型 | #语音大模型 #预训练 👥 作者与机构 第一作者:Liang-Hsuan Tseng (台湾大学电信工程学研究所,MediaTek Research实习) 通讯作者:未明确说明,但Yi-Chang Chen和Hung-yi Lee提供了单位邮箱。 作者列表: Liang-Hsuan Tseng (台湾大学电信工程学研究所,MediaTek Research实习) Yi-Chang Chen (MediaTek Research) Kuan-Yi Lee (台湾大学电信工程学研究所,MediaTek Research实习) Da-Shan Shiu (MediaTek Research) Hung-yi Lee (台湾大学人工智能研究中心) 💡 毒舌点评 ...

2026-05-04 · 更新于 2026-05-20 · 1 min · 126 words

ICLR 2026 - 语音翻译 论文列表

ICLR 2026 - 语音翻译 共 2 篇论文 ← 返回 ICLR 2026 总览 排名 论文 评分 分档 🥇 Scalable Multilingual Multimodal Machine Translation with Sp 8.5分 前25% 🥈 UniSS: Unified Expressive Speech-to-Speech Translation with 8.0分 前25% 📋 论文详情 🥇 Scalable Multilingual Multimodal Machine Translation with Speech-Text Fusion 🔥 8.5/10 | 前25% | #语音翻译 | #多模态模型 | #多语言 #低资源 👥 作者与机构 第一作者:Yexing Du(哈尔滨工业大学,鹏城实验室) 通讯作者:Youcheng Pan(鹏城实验室), Yang Xiang(鹏城实验室), Ming Liu(哈尔滨工业大学,鹏城实验室) 作者列表:Yexing Du(哈尔滨工业大学,鹏城实验室)、 Youcheng Pan(鹏城实验室)、 Zekun Wang(哈尔滨工业大学)、 Zheng Chu(哈尔滨工业大学)、 Yichong Huang(哈尔滨工业大学)、 Kaiyuan Liu(哈尔滨工业大学,鹏城实验室)、 Bo Yang(鹏城实验室)、 Yang Xiang(鹏城实验室)、 Ming Liu(哈尔滨工业大学,鹏城实验室)、 Bing Qin(哈尔滨工业大学,鹏城实验室) 💡 毒舌点评 ...

2026-05-04 · 更新于 2026-05-20 · 2 min · 214 words