Posts

SphereVBx: Spherical Variational Bayes Clustering for Simplified EEND-VC Diarization

📄 SphereVBx: Spherical Variational Bayes Clustering for Simplified EEND-VC Diarization #无监督学习 8.3/10 | 创新 1.4/2 | 严谨 1.2/1.5 | 实验 1.3/1.5 | 清晰 1/1 | 影响 0.6/1.5 | 开源 1.4/1.5 | 复现 0.5/0.5 | 工程 0.9/1.5 🔥 8.3/10 | 前50% | #无监督学习 | #无监督学习 | arxiv 👥 作者与机构 Petr Pálka (1), Jiangyu Han (2), Prachi Singh (2), Marc Delcroix (2), Naohiro Tawara (2), Lukáš Burget (1) 1: Brno University of Technology, Czechia 2: NTT, Inc., Japan ...

Statistical validation and full-sphere extension of a Bayesian model for human static sound localisation

📄 Statistical validation and full-sphere extension of a Bayesian model for human static sound localisation #音频质量评估 #贝叶斯方法 #信号处理基础 6.7/10 | 创新 1.2/2 | 严谨 1.3/1.5 | 实验 1.3/1.5 | 清晰 1/1 | 影响 0.6/1.5 | 开源 0/1.5 | 复现 0.5/0.5 | 工程 0.8/1.5 ✅ 6.7/10 | 前50% | #音频质量评估 | #贝叶斯方法 | #信号处理基础 | arxiv 👥 作者与机构 Roberto Barumerli (通讯作者): Dyson School of Design Engineering, Imperial College London, London, United Kingdom Fabian Brinkmann: Audio Communication Group, Technische Universität Berlin, Germany Emanuele Zanoni: Department of Industrial Systems Technology and Management, University of Padova, Vicenza, Italy Anton Hoyer: Department of Industrial Systems Technology and Management, University of Padova, Vicenza, Italy Lorenzo Picinali: Dyson School of Design Engineering, Imperial College London, London, United Kingdom Michele Geronazzo: Audio Communication Group, Technische Universität Berlin, Germany 💡 毒舌点评这篇工作技术执行扎实，但创新性有限，更像是对前作的系统化“补全”和“工程化验证”，而非提出全新的模型或理论突破。其核心贡献——显式似然函数的推导——在概念上是贝叶斯建模的自然延伸，技术细节也更多是现有方法的组合。实验设计虽详尽，但结论的力度被一些未被充分解释或解决的矛盾所削弱。例如，声称“全球面覆盖是主要因素”，但BIC统计检验却不显著；声称模板质量重要，但参数估计（\(\sigma_{\mathrm{prior}}\)）的混淆表明“重要”到了能扭曲其他参数估计的程度。这使得部分结论听起来像是“条件式”的真理（“一旦…则…”），而非坚实的因果发现。论文试图同时完成方法论框架和应用案例，结果两边都未达到顶会级别应有的深度。开源部分值得称赞，是社区需要的，但不足以大幅提升论文本身的质量评级。 ...

Suppressing spectral edge effects in Schroeder Harmonic Complex

📄 Suppressing spectral edge effects in Schroeder Harmonic Complex 7.3/10 | 创新 1/2 | 严谨 1.2/1.5 | 实验 0.6/1.5 | 清晰 1/1 | 影响 0.5/1.5 | 开源 1.5/1.5 | 复现 0.5/0.5 | 工程 1/1.5 ✅ 7.3/10 | 前50% | #语音增强 | arxiv 👥 作者与机构作者：Alessandro Altoè 机构：听觉研究中心，南加州大学耳鼻喉科Caruso系，洛杉矶，CA 90033，美国 (Auditory Research Center, Caruso Department of Otolaryngology, University of Southern California, Los Angeles, CA, 90033) 💡 毒舌点评这篇论文解决了一个听觉实验中真实存在的小麻烦：你用的“啁啾”信号里混着不该有的固定频率“杂音”。作者的方案是给频谱边缘做个“柔化”处理，想法直接，实现简单。不过，就像给旧家具刷了层新漆，它确实让东西看起来（听起来）更干净了，但本质上并没有改变家具的结构（信号的基本生成原理）。验证部分尤其薄弱，全靠“你看这图，听着没杂音了”这种主观说辞，连个dB数都舍不得给，这让“显著抑制”的宣称打了折扣。对于追求严谨的顶会来说，这种程度的实验论证有点不够看。但话说回来，如果这工具真能帮听觉实验排除干扰，对这个小圈子倒是有用的。 📌 核心摘要传统Schroeder谐波复信号因其近似线性的频率扫描特性而被广泛用于听觉系统研究，但其固有的频谱边缘效应会在\(f_1\)和\(f_2\)处产生两个可听的、群延迟未定义的“频率固定”分量，干扰实验。周期性FM扫描虽无此问题，却在周期起始处引入瞬态咔嗒声。本文提出一种“锥度Schroeder复信号”设计方法：在保持核心频带\([f_1, f_2]\)内谐波幅度恒定的同时，在频带外施加一个\(M\)阶幂律衰减的锥度函数（衰减率\(6M\) dB/倍频程），然后沿用Schroeder相位公式计算相位。通过平滑频谱边缘，该方法有效抑制了原始信号中的稳态分量和FM扫描中的瞬态分量。定性验证（语谱图对比和主观听感）表明，新信号在低调制率下也无明显不需要的成分。参数\(M\)控制了时频表示中垂直与水平模糊的权衡。 ...

The effect of micro-changes in the pluck trajectory on the sound of an acoustic guitar

📄 The effect of micro-changes in the pluck trajectory on the sound of an acoustic guitar #声学测量 #信号处理基础 6.8/10 | 创新 0.8/2 | 严谨 1.3/1.5 | 实验 1.2/1.5 | 清晰 1/1 | 影响 0.5/1.5 | 开源 0.3/1.5 | 复现 0.5/0.5 | 工程 1.2/1.5 ✅ 6.8/10 | 前50% | #信号处理基础 | #声学测量 | arxiv 👥 作者与机构作者：Marek Pluta, Jan Jasiński, Daniel Tokarczyk, Julia Grygiel 机构：AGH University of Krakow, al. Mickiewicza 30, Krakow, Poland ...

video-SALMONN-R: Learning to ReWatch, ReAsk, and ReAnswer for Efficient Video Understanding

📄 video-SALMONN-R\(^3\): Learning to ReWatch, ReAsk, and ReAnswer for Efficient Video Understanding #多模态模型 #强化学习 #参数高效微调 8.2/10 | 创新 1.4/2 | 严谨 1.3/1.5 | 实验 1.4/1.5 | 清晰 1/1 | 影响 0.8/1.5 | 开源 0.5/1.5 | 复现 0.5/0.5 | 工程 1.3/1.5 🔥 8.2/10 | 前10% | #多模态模型 | #强化学习 | #参数高效微调 | arxiv 👥 作者与机构一作：Yixuan Li (清华大学 liyixuan25@mails.tsinghua.edu.cn)；通讯作者：Chao Zhang (清华大学 czhang1@tsinghua.edu.cn)；其他作者：Guangzhi Sun (剑桥大学)， Yudong Yang (清华大学)， Wei Li (字节跳动)， Zejun Ma (字节跳动)。机构包括清华大学、字节跳动和剑桥大学。 💡 毒舌点评这篇论文抓住了“视频LLM推理时算力分配不均”这个痛点，提出了一个“先粗后精”的重看范式，核心卖点是跳过了昂贵且可能有害的“链式思维”冷启动，直接通过强化学习（RL）从指令微调基座模型上训练重看策略，这确实是个讨巧且有效的工程思路。重答和重问两个机制设计简单但作用关键，实验也充分证明了其有效性。不过，论文的“首提”声称需要谨慎看待，相关工作已很丰富。整体看是一篇扎实、工程优化到位的工作，但理论新颖性有提升空间，且其成功严重依赖高质量的基座模型和精心设计的奖励函数。 ...

VieSpeaker: A Large-Scale Vietnamese Speaker Recognition Dataset Beyond Visual Dependency

📄 VieSpeaker: A Large-Scale Vietnamese Speaker Recognition Dataset Beyond Visual Dependency #说话人识别 #大语言模型 #预训练 7.5/10 | 创新 1.5/2 | 严谨 1.2/1.5 | 实验 1.1/1.5 | 清晰 1/1 | 影响 1.2/1.5 | 开源 0/1.5 | 复现 0.5/0.5 | 工程 1/1.5 ✅ 7.5/10 | 前25% | #说话人识别 | #预训练 | #大语言模型 | arxiv 👥 作者与机构作者：Viet Hoang Pham, Tran Trung Nguyen, Bao Thu Ho, Phuong Tuan Dat, Thi Thu Trang Nguyen 机构：Hanoi University of Science and Technology, Hanoi, Vietnam ...

ZONOS2 Technical Report

📄 ZONOS2 Technical Report #语音合成 #多语言 #自回归模型 10/10 | 创新 1.5/2 | 严谨 1.3/1.5 | 实验 1.5/1.5 | 清晰 1/1 | 影响 1.4/1.5 | 开源 1.5/1.5 | 复现 0.5/0.5 | 工程 1.3/1.5 🔥 10/10 | 前25% | #语音合成 | #多语言 | #自回归模型 | arxiv 👥 作者与机构作者：Gabriel Clark, Sofian Mejjoute, Mohamed Osman, George Close, Beren Millidge 机构：Zyphra 💡 毒舌点评这篇技术报告读起来像一份精心包装的产品发布说明书，而非一篇严谨的学术论文。最大的槽点在于“过度声明”与“选择性对比”：摘要中声称“state-of-the-art naturalness, prosody, and voice cloning fidelity”，但结果表（IV, V）显示，在关键指标如WER和UTMOS上，ZONOS2在多个语言上显著落后于闭源模型（如Eleven Labs V3, Gemini 3.1 Flash）和部分开源模型（如Fish S2 Pro, VoxCPM 2）。其所谓“竞争力”高度依赖自家提出的ZTTS1-Eval基准，而在这个基准上，其“Quality Mode”虽提升了一些指标，但往往以牺牲说话人相似度为代价（对比表IV/ V 中“8B”与“Quality Mode”行）。此外，将80%以上的英文训练数据（图3）归因于“公开语音语料库、播客”等，却未提供这些数据集的任何链接或开源协议，使得“开源”光环下的数据透明度大打折扣，存在“数据黑箱”的嫌疑。讨论部分（VII）对MoE训练不稳定性的承认倒是挺实在的。 ...

语音/音乐/音频论文速递 2026-06-24

语音/音乐/音频论文速递 2026-06-24 共分析 39 篇论文 ⚡ 今日概览 📥 抓取 39 篇 → 🔬 深度分析完成 🏷️ 热门方向方向数量分布 #语音识别 6篇 ██████ #语音增强 6篇 ██████ #语音合成 2篇 ██ #多模态模型 2篇 ██ #音乐生成 2篇 ██ #信号处理基础 2篇 ██ #音频深度伪造检测 1篇 █ #对比学习 1篇 █ 📊 论文评分排行榜（39 篇，按分数降序）排名论文总分分档主任务 🥇 ZONOS2 Technical Report 10.0分前25% #语音合成 🥈 Layer-wise Probing of wav2vec 2.0 and Whisper for Conso 9.5分前50% #语音识别 🥉 CN-NewsTTS Bench: a target-level automatic benchmark fo 9.2分前10% #语音合成 4. BanglaFake: Constructing and Evaluating a Specialized B 9.0分后50% #音频深度伪造检测 5. Data Scale, Not Latency, Shapes Cross-Lingual Encoder T 9.0分前25% #语音识别 6. Breaking Shortcut Learning for Cross-Trial EEG-Guided T 8.6分前50% #对比学习 7. AVOC: Enhancing Hour-Level Audio-Video Understanding in 8.4分前25% #多模态模型 8. SphereVBx: Spherical Variational Bayes Clustering for S 8.3分前50% #无监督学习 9. ParaPairAudioBench: Paralinguistic Pairwise Audio Bench 8.2分前50% #语音质量评估 10. video-SALMONN-R\(^3\): Learning to ReWatch, ReAsk, and Re 8.2分前10% #多模态模型 11. Audio-visual Contrastive Alignment for Diffusion-based 8.1分前25% #语音增强 12. Perceptual Evaluation of Higher-Order Ambisonic Codecs 8.0分前50% #音频编码 13. DTT-BSR+: A Generative-Regression Cascade for Music Sou 8.0分前25% #生成对抗网络 14. Heterogeneous 2D/1D Signal Representation Fusion for Un 7.6分前50% - 15. Selective Capability Unlearning in End-to-End Spoken La 7.6分前25% - 16. A Multi-Stage Separation-and-Classification Framework G 7.5分前50% #音频分类 17. Progressive Alignment Objectives for Aligner-Encoder ba 7.5分前25% #语音识别 18. Comparative Reasoning: Making an Audio Language Model B 7.5分前25% #语音情感识别 19. VieSpeaker: A Large-Scale Vietnamese Speaker Recognitio 7.5分前25% #说话人识别 20. Suppressing spectral edge effects in Schroeder Harmonic 7.3分前50% #语音增强 21. Real-Time Interactive Music Generation via Data-Free St 7.1分前50% #音乐生成 22. A Methodology for Characterizing Underwater Radiated No 7.0分前50% #信号处理基础 23. A Fusion-Aware Two-Stage Framework for Mispronunciation 7.0分前25% #语音识别 24. Neuromorphic Speech Enhancement with Dual-Branch Spikin 7.0分前50% #语音增强 25. NeuroSonic: Conditional Flow Matching for EEG-to-Speech 7.0分前50% #语音生成 26. The effect of micro-changes in the pluck trajectory on 6.8分前50% #信号处理基础 27. Evaluation of Headrest-Integrated Loudspeakers for Enha 6.8分前50% - 28. Statistical validation and full-sphere extension of a B 6.7分前50% #音频质量评估 29. Beyond U-Net: A Latent-Representation-Aligned Skip-Free 6.6分前50% #语音增强 30. Measuring User's Mental Models of Speech Translatio 6.6分前50% #语音翻译 31. Audio–Image Alignment as a Continued-Pretraining Stage 6.2分前50% #语音识别 32. Poster: Exploring the Limits of Audio-Based Detection o 6.2分前50% - 33. Joint Learning of Covariance Estimation and White Noise 5.8分前50% #语音增强 34. Sonus Health: Calibrated Heart-Murmur Detection from Sm 5.7分前50% #音频事件检测 35. Autoencoder based optimized SSL representations: Comple 5.5分前50% #语音识别 36. It's Complicated: On the Design and Evaluation of A 5.5分前50% #大语言模型 37. Digital Revival: Acoustic Documentation and Digital Rea 5.3分后50% #音乐生成 38. Aligning MusicLLM with Emotion using Instruction Tuning 4.9分后50% #音乐情感识别 39. A Variational-Flow Analysis of StoRM under Noise-Power 4.4分前50% #语音增强 📋 论文列表 🥇 ZONOS2 Technical Report 10.0/10 | 创新 1.5/2 | 严谨 1.3/1.5 | 实验 1.5/1.5 | 清晰 1/1 | 影响 1.4/1.5 | 开源 1.5/1.5 | 复现 0.5/0.5 | 工程 1.3/1.5 ...

A DDSP Framework for Adaptive Room Equalization

📄 A DDSP Framework for Adaptive Room Equalization #自适应滤波 6.5/10 | 创新 1.5/2 | 严谨 1/1.5 | 实验 1.3/1.5 | 清晰 1/1 | 影响 0.5/1.5 | 开源 0/1.5 | 复现 0.5/0.5 | 工程 0.7/1.5 ✅ 6.5/10 | 前50% | #自适应滤波 | #自适应滤波 | arxiv 👥 作者与机构论文作者：F. Marcos-Macias, M. P. Daza-Llin, M. Camara, J. L. Blanco。论文未明确说明作者所属机构。 💡 毒舌点评这篇工作试图搭建一个漂亮的“乐高”框架，把经典的自适应滤波（Fx-LMS）和时髦的可微分信号处理（DDSP）用自动微分粘合在一起，立意是好的。但问题在于，这个“乐高”目前只是在精心搭建的模拟沙盒里跑得不错。论文实验环境受控得过了头——只用了有限的、干净的RIR和音乐，回避了真实世界里最头疼的噪声、硬件非线性和随机移动，这让结论的实际价值打折扣。对iHAM这个相对小众的优化器，虽然展示了性能，但对其适用边界、计算开销的深入讨论不足。最致命的是，音频处理研究没有主观听音测试（MUSHRA）就像菜肴没有最后的调味，即使客观指标再好，也说服不了挑剔的耳朵。把Fx-LMS在特定设置下不收敛直接标记为“NC”并一笔带过，分析深度不够，未能完全揭示其失败的根本原因与框架设计的具体关联。总的来说，这是一篇扎实的“方法学框架”论文，但离“解决实际问题”还有距离，更像是给后续研究者提供了一个可玩性较高的工具箱。 📌 核心摘要本文提出了一种模块化的可微分数字信号处理（DDSP）框架，用于解决时变声学条件下的自适应房间均衡化问题。该框架通过自动微分实现了端到端的闭环控制，将传统的Fx-LMS自适应滤波算法作为其在特定假设（FIR均衡器、单样本帧、时域均方误差损失）下的特例，从而统一了经典方法与基于优化的方法。框架允许灵活更换均衡器结构、损失函数、响应估计方法和优化器。实验基于真实测量的房间脉冲响应和多样的音乐激励信号，在模拟的听者/占用者位置变化场景下进行。结果表明，基于频域均方误差（FD-MSE）的损失函数比时域损失更适应非平稳音乐信号，所提出的参数化均衡器（22参数）在性能上优于长FIR均衡器基线（2048抽头）。在测试的优化器中，iHM-3（三阶同伦分析方法）取得了最佳的频谱跟踪性能。消融研究强调了帧长度选择以及在线系统响应估计精度对稳定性和响应速度的关键影响。该工作为结合经典自适应信号处理与现代可微分编程提供了灵活的开源基础。 🔗 开源详情代码：https://github.com/fermarcosmac/DDSP-adaptive-EQ-26.git （论文明确给出）模型权重：论文中未提及预训练模型权重。数据集： SoundCam 数据集：论文引用了该数据集[35]的Conference Room子集，用于获取房间脉冲响应。具体数据链接未在文中直接提供，但注明了引用信息。 MedleyDB 数据集：论文引用了该数据集[1]，用于获取音乐激励信号。具体数据链接未在文中直接提供，但注明了引用信息。论文中明确指出，实验中使用的具体RIR列表和音乐曲目列表可在其代码仓库中找到，以支持完全复现。 Demo：论文中未提及。复现材料：论文中指出，用于复现实验的代码、设置、以及所使用的具体RIR和音乐曲目列表均在上述代码仓库中提供，以支持完全复现。论文中引用的开源项目： dasp-pytorch：论文中在实现可微分参数均衡器时使用了此包，但未提供其具体链接。 pyaec：论文中用其实现Fx-LMS和Fx-FDAF基线，并明确给出了其GitHub链接：https://github.com/ewan-xu/pyaec 🏗️ 方法概述和架构本文提出的自适应房间均衡化（ARE）框架是一个闭环控制系统，其核心目标是通过不断调整均衡器参数来最小化均衡后系统响应与目标响应之间的差异，从而补偿时变的线性声学失真。框架整体架构如图1所示，其数据流和关键组件如下： ...

A Generalized Formalism of Auto-Regressive Decoding for Speech Processing

📄 A Generalized Formalism of Auto-Regressive Decoding for Speech Processing #自回归模型 4.1/10 | 创新 1/2 | 严谨 1.2/1.5 | 实验 0/1.5 | 清晰 1/1 | 影响 0.5/1.5 | 开源 0/1.5 | 复现 0/0.5 | 工程 0.4/1.5 📝 4.1/10 | 后50% | #自回归模型 | #自监督学习 | arxiv 👥 作者与机构 Julia Gachot, Philipp Allgeuer, Marie S. Bauer, Stefan Wermter Knowledge Technology, Department of Informatics, University of Hamburg, Germany 💡 毒舌点评一篇典型的“理论先行，实验为零”的宣言式论文。作者试图用一套四步走的通用框架来统一自回归解码这个看似简单却包罗万象的领域。框架本身逻辑自洽，归纳得也挺规整，就像给一堆形状各异的解码算法强行套上了一个统一的乐高底板。问题在于，这个底板到底结不结实？好不好用？能搭出比现有积木城堡更漂亮的东西吗？论文通篇没有回答。它只告诉你“我有个好想法”，但不证明这个想法比别人现有的好。在顶会，光有想法是不够的，你得用扎实的实验（哪怕只是在一个小任务上的消融）来证明这个想法的威力。把“消融研究方法学”当贡献提出来，却自己不做一个示例，这多少有点空手套白狼的意思。对于一篇自称面向“语音处理”的论文，里面关于语音的专属讨论却少得可怜，更像是披着语音外衣的通用序列生成综述。整体来说，是一篇有潜在价值但远未成熟的工作，更像一篇position paper或workshop论文，离正式的contribution paper还有距离。 ...