论文速递 | 语音/音乐/音频论文速递

Sound Field Interpolation Using Physics-Informed Extreme Learning Machine with Pre-Training

📄 Sound Field Interpolation Using Physics-Informed Extreme Learning Machine with Pre-Training 5.3/10 | 创新 1.2/2 | 严谨 1.1/1.5 | 实验 0.8/1.5 | 清晰 0.9/1 | 影响 0.4/1.5 | 开源 0/1.5 | 复现 0.3/0.5 | 工程 0.6/1.5 📝 5.3/10 | 后50% | #语音增强 | arxiv 👥 作者与机构 Hayato Komaba, Gen Sato, Ken Kurata, Yusuke Ikeda Department of Information Systems and Multimedia Design, Tokyo Denki University, JAPAN 💡 毒舌点评这篇论文像是给PINN的“慢”病开了个急诊偏方——用ELM的闭式解替代迭代微调，思路清晰，工程吸引力明显。但“急诊室”只搭在了一维自由场的“模型”上，就像在无重力真空中测试一辆新车，结论的普适性大打折扣。作者声称“超过三个数量级的加速”是基于一个强对比：用预训练的PINN微调7000次作为基准，而不是与一个优化到同等精度的、更轻量的PINN架构对比。这使得加速比的宣传意义大于实际参考价值。最大的槽点在于噪声鲁棒性实验：SNR=10dB时性能暴跌，但对于一个依赖求解线性系统（伪逆）的方法，这几乎是命中注定的，论文却轻描淡写为“indicates susceptibility”，缺乏深入的理论或改进讨论。另外，预训练时间（约20分钟）和微调时间（0.42秒）的并置，容易让人忽略“总时间”从1219秒到1219秒几乎没变的事实。这更像是一个针对固定源域、需要反复适应多个相似目标域的特定场景解决方案，而非通用的实时插值突破。 📌 核心摘要本文针对基于物理信息神经网络（PINN）的声场插值方法计算成本高、训练时间长的问题，提出了一种结合PINN预训练与物理信息极端学习机（PIELM）的混合框架。核心思想是将PINN训练得到的、能表征波动物理的隐藏层权重，迁移到PIELM中。对于每个新的目标声场，不再进行迭代微调，而是通过求解一个由测量数据误差和波动方程约束共同构成的线性系统，以闭式解快速计算输出层权重。在一维自由场平面波的仿真验证中，该方法在插值精度上与微调数千次的PINN相当，但将新目标场的适应时间从数百秒降低至亚秒级，实现了三个数量级以上的加速。然而，该方法在低信噪比环境下性能下降明显，且验证场景较为单一。 ...

Speaker-Invariant Representation Learning for Spoofing Detection via Gradient Reversal and A Variational Information Bottleneck

📄 Speaker-Invariant Representation Learning for Spoofing Detection via Gradient Reversal and A Variational Information Bottleneck #对抗训练 7.1/10 | 创新 1.6/2 | 严谨 1.3/1.5 | 实验 1.3/1.5 | 清晰 1/1 | 影响 0.8/1.5 | 开源 0.2/1.5 | 复现 0.3/0.5 | 工程 0.6/1.5 ✅ 7.1/10 | 前25% | #对抗训练 | #对抗训练 | arxiv 👥 作者与机构作者：Anh-Tuan Dao, Driss Matrouf, Mickael Rouvier, Nicholas Evans。机构：Laboratoire Informatique d’Avignon, Avignon Universite, France; EURECOM, Sophia Antipolis, France。 ...

Subtitle-Aligned Fine-Tuning of Whisper for Swiss German ASR: Benchmark Contamination, Convention Mismatch, and an Honest Baseline at 25.6% WER (13.8% cWER)

📄 Subtitle-Aligned Fine-Tuning of Whisper for Swiss German ASR: Benchmark Contamination, Convention Mismatch, and an Honest Baseline at 25.6% WER (13.8% cWER) #语音识别 #参数高效微调 8.2/10 | 创新 1.6/2 | 严谨 1.4/1.5 | 实验 1.4/1.5 | 清晰 0.8/1 | 影响 1.2/1.5 | 开源 0/1.5 | 复现 0.5/0.5 | 工程 1.3/1.5 🔥 8.2/10 | 前25% | #语音识别 | #参数高效微调 | arxiv 👥 作者与机构作者：Felix Akeret 机构：独立研究者（Zurich, Switzerland）。前ETH Zurich文凭工程师，前伯尔尼大学、FHNW、CeTIM莱顿/慕尼黑客座讲师。 💡 毒舌点评这篇论文像一位愤怒但严谨的揭发者，把瑞士德语ASR领域的“皇帝新衣”扒了个精光。作者用一系列无可辩驳的自训练实验（包括让一个零基础模型在测试集上刷到13.88%）证明，那些漂亮的17% WER数字很大程度上是“约定匹配”的结果，而非真正的方言理解。最讽刺的是，作者自己费尽心思训出来的“诚实基线”（25.6% WER）在数字上反而最丑，但cWER（13.8%）却比被批评的SOTA们“诚实”指标更低。这是一种��风险的学术赌博：要么被视为拨乱反正的英雄，要么被视为在砸所有人的锅。其对LoRA缩放因子的发现（\(\alpha/r=0.2\) 而非流行的2.0）非常实用，可能拯救了许多被幻觉折磨的Whisper微调者。然而，论文的语气偶尔显得过于强势，仿佛在指控同行学术不端（尽管他更多是批评方法论），且新提出的cWER指标虽然合理，但规则分类器的细节不够透明，可能引发新的争议。总的来说，这是一篇技术扎实、观点犀利、对社区有重要警示意义的论文，但其冲击性结论需要更稳健的方法论支撑才能完全服众。 ...

TinyGiantALM: A Compact Audio-Language Model for Intent-Aware Reasoning under Resource Constraints

📄 TinyGiantALM: A Compact Audio-Language Model for Intent-Aware Reasoning under Resource Constraints #多模态模型 #指令微调 6.4/10 | 创新 1.3/2 | 严谨 1.2/1.5 | 实验 1/1.5 | 清晰 1/1 | 影响 0.5/1.5 | 开源 0.3/1.5 | 复现 0.5/0.5 | 工程 0.6/1.5 ✅ 6.4/10 | 前50% | #多模态模型 | #指令微调 | arxiv 👥 作者与机构 Vinh-Thuan Le 1 University of Science, VNU-HCM, Ho Chi Minh City, Vietnam; 2 Vietnam National University, Ho Chi Minh City, Vietnam 💡 毒舌点评优点： ...

TLDR: Compressing Audio Tokens for Efficient Autoregressive Text-to-Speech

📄 TLDR: Compressing Audio Tokens for Efficient Autoregressive Text-to-Speech #语音合成 #自回归模型 #参数高效微调 #模型压缩 8.2/10 | 创新 1.5/2 | 严谨 1.3/1.5 | 实验 1.2/1.5 | 清晰 1/1 | 影响 1.5/1.5 | 开源 0.2/1.5 | 复现 0.5/0.5 | 工程 1/1.5 🔥 8.2/10 | 前25% | #语音合成 | #参数高效微调 | #自回归模型 #模型压缩 | arxiv 👥 作者与机构 Yejin Lee, Junwon Moon, Hyoeun Kim, Hyunjin Choi：成均馆大学（Sungkyunkwan University） Heeseung Kim：首尔市立大学（University of Seoul） Kyuhong Shim：成均馆大学（Sungkyunkwan University） 💡 毒舌点评这篇论文的立意很好，直击了当前AR-TTS模型“又慢又占内存”的痛点。方法设计上，“换汤不换药”（用patch替代token）的思路虽然不算石破天惊，但胜在实用，能直接嫁接到现有模型上，工程价值明显。然而，几个“但是”不得不提：1) 实验上有点“温室里的花朵”，只在CosyVoice3这一个“温室”里做实验，数据也是相对纯净的LibriTTS，面对更多样、更嘈杂的现实数据时，性能如何是个问号；2) “固定patch大小”像是给模型戴上了镣铐，语音的疏密变化明显，自适应patch才是更优雅的解法；3) 主观评测就找了25个英语母语者，这个样本量在顶会论文里略显寒酸，说服力打了折扣。总的来说，这是一篇扎实的工程优化论文，但离“令人眼前一亮”的理论突破或全面系统的实验验证还有距离。 ...

What Makes Synthetic Speech Sound Sarcastic? A Prosody-Controlled Perception Study

📄 What Makes Synthetic Speech Sound Sarcastic? A Prosody-Controlled Perception Study #语音合成 7.5/10 | 创新 1.5/2 | 严谨 1/1.5 | 实验 1/1.5 | 清晰 1/1 | 影响 1/1.5 | 开源 1/1.5 | 复现 0.5/0.5 | 工程 0.5/1.5 ✅ 7.5/10 | 前25% | #语音合成 | #语音合成 | arxiv 👥 作者与机构 Zhu Li, Shekhar Nayak, Matt Coler Speech Technology Lab, University of Groningen, The Netherlands {zhu.li, s.nayak, m.coler}@rug.nl 💡 毒舌点评这篇论文的出发点很好——用可控TTS来拆解韵律线索，这是个扎实的方法论贡献。但读下来，最大的槽点在于“可控”的精度问题。论文声称实现了“正交”刺激，但承认通过自然语言提示控制TTS，无法完全隔离单个维度，只能靠事后统计验证“近似正交”。这就像用语言指挥一个AI厨师“要咸但不能影响甜度和辣度”，最终菜的味道还是个黑箱混合物。其次，人类实验部分依赖在线问卷和自我报告的“近母语水平”，数据可靠性存疑。最令人皱眉的是模型评估部分，用一个大模型去“模拟参与者”，然后得出“人类与模型权重不同”的结论——这简直是用模型的胡言乱语去对比人类的感知，比较的基线本身就不稳固。说白了，论文在方法上是创新的，但在执行和论证的严谨性上充满了妥协和含糊其辞，把一个本可以更硬核的感知实验做成了一篇略显疲软的“demo”论文。 📌 核心摘要本研究旨在解决现有讽刺感知研究中自然语音韵律线索共变、难以隔离单一维度影响的方法学困境。作者引入了一个基于Qwen3-TTS的可控神经语音合成框架，通过自然语言提示独立操纵语速、音高变化和响度三个维度，构建了2×2×2的正交刺激集（24个语义中性英语短句×8个条件）。随后，设计了一项人类感知实验（66名英语使用者）和一项机器评估（使用Qwen3-Omni模型），要求被试/模型基于纯语音刺激对讽刺性和自然性进行五点评分。统计分析采用线性混合效应模型。核心发现是：在人类判断中，响度是显著驱动讽刺感知的最强因素（\(β=0.285, p=.017\)）；而在模型预测中，语速成为最主要的线索（\(β=0.313, p=.009\)）。两者在整体评分排序上无显著相关性（\(ρ=-0.11, p=0.26\)），揭示了生物听觉系统与多模态模型在处理语音语用信息时根本性的线索加权差异。研究证明了可控TTS作为感知实验刺激生成工具的价值。 ...

Your U-Net Dereverberation Model is Secretly an RIR Encoder

📄 Your U-Net Dereverberation Model is Secretly an RIR Encoder #对比学习 #扩散模型 #U-Net 8.3/10 | 创新 1.5/2 | 严谨 1.1/1.5 | 实验 0.9/1.5 | 清晰 1/1 | 影响 0.9/1.5 | 开源 1/1.5 | 复现 0.5/0.5 | 工程 1.4/1.5 🔥 8.3/10 | 前50% | #对比学习 | #自监督学习 | #扩散模型 #U-Net | arxiv 👥 作者与机构作者：Sina Khanagha, Timo Gerkmann 机构：Signal Processing Group, University of Hamburg, Germany 💡 毒舌点评这篇论文试图为“扩散模型如何处理非加性失真（如混响）”这个有点玄学的问题提供一个实证角度的解释，即它们“偷偷”学了个RIR编码器。想法有趣，验证也花了不少功夫，尤其是可视化部分做得不错，让人信服U-Net深层确实在捕捉环境信息。但作为顶会论文，其“惊天发现”的力度可能稍弱，毕竟模型架构（NCSN++）并非作者提出。核心贡献更多是“观察到现象并利用它”——用一个外部编码器给现有模型“开小灶”来提升性能，这在方法论上更像一个实用的工程技巧（FiLM条件化）而非根本性的突破。实验主要在自建的模拟数据集上跑，缺乏真实场景或与最新SOTA方法的广泛对比，说服力打个折扣。作者自称揭示了“混合行为”，但论证链条（相关性 -> 因果性）还不够严密。总而言之，是一篇扎实的、有点意思的分析工作，但离“颠覆认知”的级别还有距离。 📌 核心摘要本文分析了基于NCSN++ U-Net的单通道语音去混响模型（包括判别式和扩散式）的内部表示。通过可视化中间层特征，发现这些模型都隐式学习了与房间脉冲响应（RIR）强相关的表示，且这种表示的区分度与去混响性能相关。受此启发，作者提出通过对比学习预训练一个RIR编码器，并使用特征线性调制（FiLM）将外部RIR嵌入条件化注入到U-Net中。实验表明，该方法提升了模型对RIR的表示能力，加速了训练收敛，并显著提高了扩散模型在较少推理步数下的去混响性能（PESQ提升0.17-0.28）。 ...

语音/音乐/音频论文速递 2026-06-09

语音/音乐/音频论文速递 2026-06-09 共分析 48 篇论文 ⚡ 今日概览 📥 抓取 48 篇 → 🔬 深度分析完成 🏷️ 热门方向方向数量分布 #语音合成 10篇 ██████████ #语音识别 9篇 █████████ #自监督学习 3篇 ███ #多模态模型 3篇 ███ #语音增强 2篇 ██ #音频生成 2篇 ██ #说话人验证 2篇 ██ #大语言模型 1篇 █ 📊 论文评分排行榜（48 篇，按分数降序）排名论文总分分档主任务 🥇 A Finetuned SpeechLLM for Joint Multi-Granular L2 Asses 10.0分前25% #大语言模型 🥈 G-MaP-SE: Guided Speech Enhancement via GMM-Based Prior 9.3分前50% #语音增强 🥉 HoliDubber: Holistic Video Dubbing for Complex Acoustic 9.0分前10% #语音合成 4. Probing Token Spaces under Generator Shift in AI-Genera 9.0分前10% #音频编码 5. A Comparative Study of Pre-trained Speech Encoders and 8.9分前50% #自监督学习 6. AVI-Bench: Toward Human-like Audio-Visual Intelligence 8.8分前25% #语音识别 7. Liberating LLM Capabilities in Full-Duplex Speech Model 8.7分前25% #多模态模型 8. MeCo: One-Step MeanFlow-based Corrector for Multi-Chann 8.4分前25% #语音分离 9. Your U-Net Dereverberation Model is Secretly an RIR Enc 8.3分前50% #对比学习 10. Predictive Fixed-Filter Active Noise Control (PFANC) Us 8.3分前25% - 11. TLDR: Compressing Audio Tokens for Efficient Autoregres 8.2分前25% #语音合成 12. Subtitle-Aligned Fine-Tuning of Whisper for Swiss Germa 8.2分前25% #语音识别 13. Discovering Functionally Selective Brain Regions with a 8.2分前25% #多模态模型 14. Parameter-Efficient Continual Learning for Automatic Sp 8.1分前25% #语音识别 15. OmniMem: Perturbation-aware Memory Compression for Stre 8.0分前25% #高效推理 16. OpenBibleTTS: Large-Scale Speech Resources and TTS Mode 8.0分前25% #语音合成 17. FlashTTS: Fast Streaming TTS with MTP Acceleration and 7.9分前25% #语音合成 18. Multi-View Speech Representation Learning for Parkinson 7.9分前50% #自监督学习 19. Is Text All You Need? Text as a Universal Information B 7.6分前50% #语音识别 20. End-to-End Training for Discrete Token LLM based TTS Sy 7.6分前50% #语音合成 21. Conan-embedding-v3: Fusing Modality-Specific Models for 7.6分前25% #音频检索 22. Cross-Modal Masking for Robust Silent Speech Synthesis 7.5分前50% #语音合成 23. Rethinking Depth: A study of the Recursive-Transformer 7.5分前25% #语音识别 24. What Makes Synthetic Speech Sound Sarcastic? A Prosody- 7.5分前25% #语音合成 25. FXplorer: A Map-Based Interface for Exploratory Audio E 7.5分前25% #音频生成 26. Assessing the Energy and Carbon Emissions of Neural Spe 7.4分前50% #说话人验证 27. Exploring the Scale and Diversity of Speech Anti-spoofi 7.4分前50% #数据增强 28. From A to B to A: Palindromic Zero-Shot Voice Conversio 7.3分前50% - 29. A study on the impact of region specific data on the pe 7.2分前50% #语音识别 30. Speaker-Invariant Representation Learning for Spoofing 7.1分前25% #对抗训练 31. BareWave: Waveform-Native Flow-Matching Text-to-Speech 7.0分前50% #语音合成 32. SMC-ITA: Sequential Monte Carlo Inference-Time Alignmen 7.0分前50% #音频生成 33. Quality-Diversity Search in Sound Generation: Investiga 7.0分前50% - 34. Can LLMs understand LilyPond? A benchmark for symbolic 7.0分前50% #音乐生成 35. NüshuVoice: Reviving the Voice of Endangered Nüshu with 7.0分前50% #语音合成 36. Factors affecting ASR performance: A study using state 6.9分前50% #语音识别 37. MeanVC 2: Robust Low-Latency Streaming Zero-Shot Voice 6.9分前50% #语音转换 38. Few-shot Class-variable Incremental Audio Classificatio 6.9分前50% #音频分类 39. A Hierarchical Feature Engineering Framework for Automa 6.8分前50% - 40. Fast and Robust On-Device Speaker Diarization: Relative 6.6分前50% #说话人分离 41. On Low-Bit Quantization Errors in Speaker Verification: 6.6分前50% #说话人验证 42. Paediatric-HGNN: A Hybrid Heterogeneous Graph Neural Ne 6.5分后50% #语音合成 43. TinyGiantALM: A Compact Audio-Language Model for Intent 6.4分前50% #多模态模型 44. Overcoming Decoder Inconsistencies in Whisper for Dravi 6.2分后50% #语音识别 45. Bridging Traditional Explainability Methods and Multimo 5.4分后50% #语音识别 46. Sound Field Interpolation Using Physics-Informed Extrem 5.3分后50% #语音增强 47. A Comparison of SSL-Based Feature Extractors and Back-E 5.0分后50% #自监督学习 48. AeroSpectra Sentinel: An Auditable LLM Prompt-Chaining 4.5分后50% #音频事件检测 📋 论文列表 🥇 A Finetuned SpeechLLM for Joint Multi-Granular L2 Assessment and Natural-Language Rationales 10.0/10 | 创新 2.0/2 | 严谨 1.5/1.5 | 实验 1.5/1.5 | 清晰 1/1 | 影响 1.5/1.5 | 开源 1.0/1.5 | 复现 0.5/0.5 | 工程 1.5/1.5 ...

A Large-Scale Per-Speaker Analysis of Re-identification Risk in Speech Anonymization

📄 A Large-Scale Per-Speaker Analysis of Re-identification Risk in Speech Anonymization #语音匿名化 #说话人识别 7.1/10 | 创新 1.2/2 | 严谨 1.3/1.5 | 实验 1.5/1.5 | 清晰 1/1 | 影响 0.8/1.5 | 开源 0/1.5 | 复现 0.5/0.5 | 工程 0.8/1.5 ✅ 7.1/10 | 前50% | #语音匿名化 | #说话人识别 | arxiv 👥 作者与机构作者: Orane Dufour (1), Paul Magron (1), Mickael Rouvier (2), Emmanuel Vincent (1)。机构: 1. Université de Lorraine, CNRS, Inria, LORIA, France; 2. LIA, Avignon University, France。邮箱: {orane.dufour, paul.magron, emmanuel.vincent}@inria.fr, mickael.rouvier@univ-avignon.fr。 ...

Acoustic Cue Alignment in Audio Language Models for Speech Emotion Recognition

📄 Acoustic Cue Alignment in Audio Language Models for Speech Emotion Recognition #语音情感识别 #提示学习 #多模态模型 #参数高效微调 #迁移学习 7.8/10 | 创新 1.3/2 | 严谨 1.2/1.5 | 实验 1.3/1.5 | 清晰 1/1 | 影响 1/1.5 | 开源 0.7/1.5 | 复现 0.5/0.5 | 工程 0.8/1.5 ✅ 7.8/10 | 前50% | #语音情感识别 | #提示学习 | #多模态模型 #参数高效微调 | arxiv 👥 作者与机构 Iosif Tsangko (1, 2), Andreas Triantafyllopoulos (1, 2), Björn W. Schuller (1, 2, 3, 4) （注：机构详情未在论文正文中明确列出，脚注显示了项目资助信息） ...