Your U-Net Dereverberation Model is Secretly an RIR Encoder

📄 Your U-Net Dereverberation Model is Secretly an RIR Encoder #对比学习 #扩散模型 #U-Net 8.3/10 | 创新 1.5/2 | 严谨 1.1/1.5 | 实验 0.9/1.5 | 清晰 1/1 | 影响 0.9/1.5 | 开源 1/1.5 | 复现 0.5/0.5 | 工程 1.4/1.5 🔥 8.3/10 | 前50% | #对比学习 | #自监督学习 | #扩散模型 #U-Net | arxiv 👥 作者与机构 作者:Sina Khanagha, Timo Gerkmann 机构:Signal Processing Group, University of Hamburg, Germany 💡 毒舌点评 这篇论文试图为“扩散模型如何处理非加性失真(如混响)”这个有点玄学的问题提供一个实证角度的解释,即它们“偷偷”学了个RIR编码器。想法有趣,验证也花了不少功夫,尤其是可视化部分做得不错,让人信服U-Net深层确实在捕捉环境信息。但作为顶会论文,其“惊天发现”的力度可能稍弱,毕竟模型架构(NCSN++)并非作者提出。核心贡献更多是“观察到现象并利用它”——用一个外部编码器给现有模型“开小灶”来提升性能,这在方法论上更像一个实用的工程技巧(FiLM条件化)而非根本性的突破。实验主要在自建的模拟数据集上跑,缺乏真实场景或与最新SOTA方法的广泛对比,说服力打个折扣。作者自称揭示了“混合行为”,但论证链条(相关性 -> 因果性)还不够严密。总而言之,是一篇扎实的、有点意思的分析工作,但离“颠覆认知”的级别还有距离。 📌 核心摘要 本文分析了基于NCSN++ U-Net的单通道语音去混响模型(包括判别式和扩散式)的内部表示。通过可视化中间层特征,发现这些模型都隐式学习了与房间脉冲响应(RIR)强相关的表示,且这种表示的区分度与去混响性能相关。受此启发,作者提出通过对比学习预训练一个RIR编码器,并使用特征线性调制(FiLM)将外部RIR嵌入条件化注入到U-Net中。实验表明,该方法提升了模型对RIR的表示能力,加速了训练收敛,并显著提高了扩散模型在较少推理步数下的去混响性能(PESQ提升0.17-0.28)。 ...

2026-06-09 · 更新于 2026-06-16 · 2 min · 224 words

语音/音乐/音频论文速递 2026-06-09

语音/音乐/音频论文速递 2026-06-09 共分析 48 篇论文 ⚡ 今日概览 📥 抓取 48 篇 → 🔬 深度分析完成 🏷️ 热门方向 方向 数量 分布 #语音合成 10篇 ██████████ #语音识别 9篇 █████████ #自监督学习 3篇 ███ #多模态模型 3篇 ███ #语音增强 2篇 ██ #音频生成 2篇 ██ #说话人验证 2篇 ██ #大语言模型 1篇 █ 📊 论文评分排行榜(48 篇,按分数降序) 排名 论文 总分 分档 主任务 🥇 A Finetuned SpeechLLM for Joint Multi-Granular L2 Asses 10.0分 前25% #大语言模型 🥈 G-MaP-SE: Guided Speech Enhancement via GMM-Based Prior 9.3分 前50% #语音增强 🥉 HoliDubber: Holistic Video Dubbing for Complex Acoustic 9.0分 前10% #语音合成 4. Probing Token Spaces under Generator Shift in AI-Genera 9.0分 前10% #音频编码 5. A Comparative Study of Pre-trained Speech Encoders and 8.9分 前50% #自监督学习 6. AVI-Bench: Toward Human-like Audio-Visual Intelligence 8.8分 前25% #语音识别 7. Liberating LLM Capabilities in Full-Duplex Speech Model 8.7分 前25% #多模态模型 8. MeCo: One-Step MeanFlow-based Corrector for Multi-Chann 8.4分 前25% #语音分离 9. Your U-Net Dereverberation Model is Secretly an RIR Enc 8.3分 前50% #对比学习 10. Predictive Fixed-Filter Active Noise Control (PFANC) Us 8.3分 前25% - 11. TLDR: Compressing Audio Tokens for Efficient Autoregres 8.2分 前25% #语音合成 12. Subtitle-Aligned Fine-Tuning of Whisper for Swiss Germa 8.2分 前25% #语音识别 13. Discovering Functionally Selective Brain Regions with a 8.2分 前25% #多模态模型 14. Parameter-Efficient Continual Learning for Automatic Sp 8.1分 前25% #语音识别 15. OmniMem: Perturbation-aware Memory Compression for Stre 8.0分 前25% #高效推理 16. OpenBibleTTS: Large-Scale Speech Resources and TTS Mode 8.0分 前25% #语音合成 17. FlashTTS: Fast Streaming TTS with MTP Acceleration and 7.9分 前25% #语音合成 18. Multi-View Speech Representation Learning for Parkinson 7.9分 前50% #自监督学习 19. Is Text All You Need? Text as a Universal Information B 7.6分 前50% #语音识别 20. End-to-End Training for Discrete Token LLM based TTS Sy 7.6分 前50% #语音合成 21. Conan-embedding-v3: Fusing Modality-Specific Models for 7.6分 前25% #音频检索 22. Cross-Modal Masking for Robust Silent Speech Synthesis 7.5分 前50% #语音合成 23. Rethinking Depth: A study of the Recursive-Transformer 7.5分 前25% #语音识别 24. What Makes Synthetic Speech Sound Sarcastic? A Prosody- 7.5分 前25% #语音合成 25. FXplorer: A Map-Based Interface for Exploratory Audio E 7.5分 前25% #音频生成 26. Assessing the Energy and Carbon Emissions of Neural Spe 7.4分 前50% #说话人验证 27. Exploring the Scale and Diversity of Speech Anti-spoofi 7.4分 前50% #数据增强 28. From A to B to A: Palindromic Zero-Shot Voice Conversio 7.3分 前50% - 29. A study on the impact of region specific data on the pe 7.2分 前50% #语音识别 30. Speaker-Invariant Representation Learning for Spoofing 7.1分 前25% #对抗训练 31. BareWave: Waveform-Native Flow-Matching Text-to-Speech 7.0分 前50% #语音合成 32. SMC-ITA: Sequential Monte Carlo Inference-Time Alignmen 7.0分 前50% #音频生成 33. Quality-Diversity Search in Sound Generation: Investiga 7.0分 前50% - 34. Can LLMs understand LilyPond? A benchmark for symbolic 7.0分 前50% #音乐生成 35. NüshuVoice: Reviving the Voice of Endangered Nüshu with 7.0分 前50% #语音合成 36. Factors affecting ASR performance: A study using state 6.9分 前50% #语音识别 37. MeanVC 2: Robust Low-Latency Streaming Zero-Shot Voice 6.9分 前50% #语音转换 38. Few-shot Class-variable Incremental Audio Classificatio 6.9分 前50% #音频分类 39. A Hierarchical Feature Engineering Framework for Automa 6.8分 前50% - 40. Fast and Robust On-Device Speaker Diarization: Relative 6.6分 前50% #说话人分离 41. On Low-Bit Quantization Errors in Speaker Verification: 6.6分 前50% #说话人验证 42. Paediatric-HGNN: A Hybrid Heterogeneous Graph Neural Ne 6.5分 后50% #语音合成 43. TinyGiantALM: A Compact Audio-Language Model for Intent 6.4分 前50% #多模态模型 44. Overcoming Decoder Inconsistencies in Whisper for Dravi 6.2分 后50% #语音识别 45. Bridging Traditional Explainability Methods and Multimo 5.4分 后50% #语音识别 46. Sound Field Interpolation Using Physics-Informed Extrem 5.3分 后50% #语音增强 47. A Comparison of SSL-Based Feature Extractors and Back-E 5.0分 后50% #自监督学习 48. AeroSpectra Sentinel: An Auditable LLM Prompt-Chaining 4.5分 后50% #音频事件检测 📋 论文列表 🥇 A Finetuned SpeechLLM for Joint Multi-Granular L2 Assessment and Natural-Language Rationales 10.0/10 | 创新 2.0/2 | 严谨 1.5/1.5 | 实验 1.5/1.5 | 清晰 1/1 | 影响 1.5/1.5 | 开源 1.0/1.5 | 复现 0.5/0.5 | 工程 1.5/1.5 ...

2026-06-09 · 更新于 2026-06-16 · 29 min · 6000 words

A Large-Scale Per-Speaker Analysis of Re-identification Risk in Speech Anonymization

📄 A Large-Scale Per-Speaker Analysis of Re-identification Risk in Speech Anonymization #语音匿名化 #说话人识别 7.1/10 | 创新 1.2/2 | 严谨 1.3/1.5 | 实验 1.5/1.5 | 清晰 1/1 | 影响 0.8/1.5 | 开源 0/1.5 | 复现 0.5/0.5 | 工程 0.8/1.5 ✅ 7.1/10 | 前50% | #语音匿名化 | #说话人识别 | arxiv 👥 作者与机构 作者: Orane Dufour (1), Paul Magron (1), Mickael Rouvier (2), Emmanuel Vincent (1)。机构: 1. Université de Lorraine, CNRS, Inria, LORIA, France; 2. LIA, Avignon University, France。邮箱: {orane.dufour, paul.magron, emmanuel.vincent}@inria.fr, mickael.rouvier@univ-avignon.fr。 ...

2026-06-08 · 更新于 2026-06-16 · 2 min · 228 words

Acoustic Cue Alignment in Audio Language Models for Speech Emotion Recognition

📄 Acoustic Cue Alignment in Audio Language Models for Speech Emotion Recognition #语音情感识别 #提示学习 #多模态模型 #参数高效微调 #迁移学习 7.8/10 | 创新 1.3/2 | 严谨 1.2/1.5 | 实验 1.3/1.5 | 清晰 1/1 | 影响 1/1.5 | 开源 0.7/1.5 | 复现 0.5/0.5 | 工程 0.8/1.5 ✅ 7.8/10 | 前50% | #语音情感识别 | #提示学习 | #多模态模型 #参数高效微调 | arxiv 👥 作者与机构 Iosif Tsangko (1, 2), Andreas Triantafyllopoulos (1, 2), Björn W. Schuller (1, 2, 3, 4) (注:机构详情未在论文正文中明确列出,脚注显示了项目资助信息) ...

2026-06-08 · 更新于 2026-06-16 · 2 min · 359 words

Assessing True Generalisability of Audio-Visual Speech Recognisers

📄 Assessing True Generalisability of Audio-Visual Speech Recognisers #语音识别 #自监督学习 #多模态模型 #基准测试 9.5/10 | 创新 1.6/2 | 严谨 1.3/1.5 | 实验 1.4/1.5 | 清晰 1/1 | 影响 1.4/1.5 | 开源 1.1/1.5 | 复现 0.5/0.5 | 工程 1.2/1.5 🔥 9.5/10 | 前10% | #语音识别 | #自监督学习 | #多模态模型 #基准测试 | arxiv 👥 作者与机构 作者:Zhaofeng Lin, Stavros Petridis, Maja Pantic, Naomi Harte 机构:1 Trinity College Dublin, Ireland;2 Imperial College London, UK 💡 毒舌点评 这篇论文根本不是在发明一个“更好”的AVSR模型,而是在无情地揭露当前AVSR领域集体自嗨的泡沫。它本质上是一篇“基准测评”论文,却起到了比很多模型创新论文更重要的作用——戳穿了LRS3基准带来的虚假繁荣。它的核心贡献是“破”而非“立”,但这种“破”恰恰是领域健康发展所急需的。作者通过近乎偏执的严谨方法(构建严格分布匹配的MV2LRS3集),得出了一个令人尴尬的结论:我们引以为傲的AVSR模型,在离开精心维护的LRS3温室后,表现得一塌糊涂。多模态融合不仅没帮忙,反而成了拖累。最讽刺的是,论文名为“评估真实泛化能力”,但其结论反而揭示了“泛化”这个概念本身在当前AVSR研究中可能被过度推广和误用。这篇论文应该被每一个致力于提升AVSR性能的研究者放在案头,用来审视自己工作的实际意义,而不是仅仅在LRS3刷榜。 ...

2026-06-08 · 更新于 2026-06-16 · 3 min · 480 words

Audio Imitator: Controlling Timbre and Tempo in Video2Audio Synthesis with Audio Reference

📄 Audio Imitator: Controlling Timbre and Tempo in Video2Audio Synthesis with Audio Reference #音频生成 6/10 | 创新 1.4/2 | 严谨 1.2/1.5 | 实验 0.9/1.5 | 清晰 1/1 | 影响 0.5/1.5 | 开源 0/1.5 | 复现 0.4/0.5 | 工程 0.6/1.5 ✅ 6/10 | 前50% | #音频生成 | #音频生成 | arxiv 👥 作者与机构 第一作者:Jiahui Zhao;其他作者:Tianrui Wang, Chunyu Qiang, Cheng Gong, Xijuan Zeng, Feng Deng, Longbiao Wang。 机构:天津大学(1),快手科技(2)。 💡 毒舌点评 “创新”稍显保守:把参考音频拆成音色和节奏分别处理,这想法不算石破天惊。说“首次”或“新颖”有点过了,更像是工程上把已知的两个编码器(BEATs和Style Conditioner)合理地拼了一下。真正的挑战和创新点(如果有的话)在于这种拆分在生成任务上到底比“整体条件”好了多少,以及是否真的在“控制”。 实验“充分”但“不惊艳”:VGGSound数据集+MMAudio微调,标准操作。消融实验(表1)逻辑清晰,证明了各模块都有贡献。但和最SOTA的V2A方法比了吗?只和自家MMAudio的几个变体比,说服力打折。风格相似性提升显著(表2),但以牺牲多少生成多样性或引入多少伪影为代价?论文似乎回避了这个问题。 开源“态度”存疑:给个匿名demo链接,代码权重都不给。想复现?自己搭MMAudio环境再“微调”800步?这对社区共享和技术复现非常不友好。作为预印本可以理解,但降低其短期实际影响力。 局限性“轻描淡写”:作者自己提到了在人声上效果弱,归因于节奏编码器的训练偏差。但更根本的问题是:1)这种固定的“音色-节奏”二分法是否真的普适?2)“控制”的程度和边界在哪?能插值吗?能只改节奏不改音色吗?论文没有深入探讨。 部分结论“过度外推”:从“在VGGSound上改善风格相似性”直接跳到“使模型可控”,有点跳跃。这更像是在特定设定下的风格模仿,距离真正的、可交互的“控制”还有距离。标题中的“Controlling”略显激进。 📌 核心摘要 本文提出了AudioIM,一个用于视频到音频(V2A)生成、并能控制生成音频音色和节奏的属性感知框架。现有V2A方法通常将参考音频作为整体条件信号,难以实现对风格属性的细粒度控制。为此,AudioIM采用两项关键技术:1)掩码训练策略:在训练时部分遮蔽音频潜在表示,使模型学习在部分观测条件下进行流匹配推断,从而在推理时能利用提示音频的潜在特征提供细粒度风格信息。2)双风格编码器:使用基于BEATs的音色编码器和基于Style Conditioner的节奏编码器,分别从参考音频中提取音色和节奏特征,并通过全局和帧级条件注入生成骨干网络。在VGGSound数据集上的实验表明,AudioIM在保持语义对齐和时间同步性能的同时,显著提升了生成音频与参考音频的风格相似性(SS-MOS从基线3.22提升至4.06)。消融研究验证了各组件的有效性。论文指出该方法在非人声音效(特别是乐器声)上效果更显著,而对人声的风格控制较弱。 ...

2026-06-08 · 更新于 2026-06-16 · 3 min · 552 words

Audio-Oscar: A Multi-Agent System for Complex Audio Scene Generation, Orchestration, and Refinement

📄 Audio-Oscar: A Multi-Agent System for Complex Audio Scene Generation, Orchestration, and Refinement #音频生成 #语音合成 #音频质量评估 9.9/10 | 创新 1.6/2 | 严谨 1.3/1.5 | 实验 1.2/1.5 | 清晰 1/1 | 影响 1.4/1.5 | 开源 1.5/1.5 | 复现 0.5/0.5 | 工程 1.4/1.5 🔥 9.9/10 | 前10% | #音频生成 | #语音合成 | #音频质量评估 | arxiv 👥 作者与机构 作者:Yifan Duan, Qixiang Xu, Hengtao Wu, Zhanxun Liu, Wenhao Guan, Junxi Liu, Ziyang Ma, Kelu Xu, Xie Chen 机构: ...

2026-06-08 · 更新于 2026-06-16 · 3 min · 509 words

Beyond Semantic Dominance: Cognitive Affective Reasoning and Empathetic Response Alignment in Audio Language Models

📄 Beyond Semantic Dominance: Cognitive Affective Reasoning and Empathetic Response Alignment in Audio Language Models #语音合成 #强化学习 #参数高效微调 #多模态模型 9.2/10 | 创新 1.8/2 | 严谨 1.4/1.5 | 实验 1.3/1.5 | 清晰 1/1 | 影响 0.8/1.5 | 开源 1.2/1.5 | 复现 0.5/0.5 | 工程 1.2/1.5 🔥 9.2/10 | 前10% | #语音合成 | #强化学习 | #参数高效微调 #多模态模型 | arxiv 👥 作者与机构 作者:Zhixian Zhao, Shuiyuan Wang, Wenjie Tian, Jingbin Hu, Ziyu Zhang, Lei Xie 机构:Audio, Speech and Language Processing Group (ASLP@NPU), Northwestern Polytechnical University, Xi’an, China ...

2026-06-08 · 更新于 2026-06-16 · 4 min · 691 words

BiEAR: A Human Auditory-Inspired Adaptive Binaural Front-end for Multi-Speaker Localisation and Distance Estimation

📄 BiEAR: A Human Auditory-Inspired Adaptive Binaural Front-end for Multi-Speaker Localisation and Distance Estimation #声源定位 #多任务学习 #语音增强 8.5/10 | 创新 8/2 | 严谨 7/1.5 | 实验 8/1.5 | 清晰 8/1 | 影响 7/1.5 | 开源 2/1.5 | 复现 8/0.5 | 工程 7/1.5 🔥 8.5/10 | 前25% | #声源定位 | #多任务学习 | #语音增强 | arxiv 👥 作者与机构 作者:Hanyu Meng, Eliathamby Ambikairajah, Vidhyasaharan Sethu, Qiquan Zhang, Haizhou Li 机构:1 The University of New South Wales, Sydney, Australia; 2 Tongyi Speech Lab, Alibaba Group, Hangzhou, China; 3 School of Artificial Intelligence, The Chinese University of Hong Kong, Shenzhen, China ...

2026-06-08 · 更新于 2026-06-16 · 4 min · 741 words

Contrastive Training with LLM-generated Near-Misses for Robust Code-Switching Speech Recognition

📄 Contrastive Training with LLM-generated Near-Misses for Robust Code-Switching Speech Recognition #语音识别 #对比学习 #数据增强 7.1/10 | 创新 1.3/2 | 严谨 1.2/1.5 | 实验 1/1.5 | 清晰 1/1 | 影响 1/1.5 | 开源 0.5/1.5 | 复现 0.5/0.5 | 工程 0.6/1.5 ✅ 7.1/10 | 前50% | #语音识别 | #对比学习 | #数据增强 | arxiv 👥 作者与机构 作者:Tung X. Nguyen, Hieu Minh Truong, Giang-Son Nguyen, Nhu Vo, Wray Buntine, Dung D. Le 机构:VinUniversity (越南), University of Technology Sydney (澳大利亚), Monash University (澳大利亚) ...

2026-06-08 · 更新于 2026-06-16 · 2 min · 371 words