论文速递 | 语音/音乐/音频论文速递

On Low-Bit Quantization Errors in Speaker Verification: Diagnostic and Mitigation

📄 On Low-Bit Quantization Errors in Speaker Verification: Diagnostic and Mitigation #说话人验证 #模型压缩 6.6/10 | 创新 1.2/2 | 严谨 1.1/1.5 | 实验 1/1.5 | 清晰 1/1 | 影响 0.6/1.5 | 开源 0.7/1.5 | 复现 0.5/0.5 | 工程 0.5/1.5 ✅ 6.6/10 | 前50% | #说话人验证 | #模型压缩 | arxiv 👥 作者与机构 Hugo Leguillier, Driss Matrouf, Guillaume Lechien, Mickael Rouvier LIA, UPR 4128, France; Aday, France; Avignon University 💡 毒舌点评这篇论文像一篇详实的“尸检报告”，把低比特量化在说话人验证里的“死法”分析得明明白白，从哪一层开始烂的（中间阶段）、到哪个精度突然暴毙（2比特）、死因是什么（近阈值的决策翻转），最后还提供了一套“分级抢救”方案（多精度级联）。诊断部分做得相当细致，甚至可以说是优雅。但问题是，尸检对象就俩（ResNet-36/200），解剖工具也只用了一个（KMQAT），这结论能推广到其他“患者”（模型架构）身上吗？提出的抢救方案听起来不错，可实际ICU（嵌入式设备）里能不能跑得动、耗材（内存）够不够、要不要反复调参（校准），文中却含糊其辞。总之，这是一篇优秀的诊断学论文，但开出的药方缺乏在复杂临床环境（真实部署）下的充分验证。 📌 核心摘要本文针对说话人验证模型在低比特量化时的性能下降问题，提出了一种联合层分析和分数分析的诊断框架。研究发现：1) 2比特量化是性能显著恶化的关键拐点；2) 量化敏感性在网络中部分布不均匀，中间到后期的网络阶段（尤其是Stage 2和3）对性能恢复最关键；3) 量化引起的分数漂移在2比特时急剧增加，且有害的决策错误（决策翻转）高度集中在FP32决策阈值附近。基于这些发现，作者设计并验证了一种校准的多精度级联推理策略：大部分样本在2比特下即可可靠决策，仅对分数接近阈值的模糊样本提升至更高精度（3比特或4比特），从而在保持接近FP32性能的同时，显著降低了平均推理计算成本。 ...

OpenBibleTTS: Large-Scale Speech Resources and TTS Models for Low-Resource Languages

📄 OpenBibleTTS: Large-Scale Speech Resources and TTS Models for Low-Resource Languages #语音合成 #低资源 #数据集 #模型评估 #流匹配 #语音生成 #基准测试 8/10 | 创新 1.4/2 | 严谨 1.2/1.5 | 实验 1.3/1.5 | 清晰 1/1 | 影响 0.8/1.5 | 开源 1/1.5 | 复现 0.5/0.5 | 工程 0.8/1.5 🔥 8/10 | 前25% | #语音合成 | #低资源 | #数据集 #模型评估 | arxiv 👥 作者与机构 David Guzmán1,2, Luel Hagos Beyene3,4, Jesujoba Oluwadara Alabi5, Yejin Jeon1,2, Dietrich Klakow5, David Ifeoluwa Adelani1,2,6 1 McGill University 2 Mila - Quebec AI Institute 3 AIMS Research and Innovation Centre 4 NM-AIST 5 Saarland University 6 Canada CIFAR AI Chair ...

Overcoming Decoder Inconsistencies in Whisper for Dravidian and Low-Resource Languages

📄 Overcoming Decoder Inconsistencies in Whisper for Dravidian and Low-Resource Languages #语音识别 #低资源 #多语言 #自回归模型 6.2/10 | 创新 1.3/2 | 严谨 1/1.5 | 实验 1.1/1.5 | 清晰 1/1 | 影响 0.5/1.5 | 开源 0.2/1.5 | 复现 0.5/0.5 | 工程 0.6/1.5 ✅ 6.2/10 | 后50% | #语音识别 | #低资源 | #多语言 #自回归模型 | arxiv 👥 作者与机构作者：Venkata Kumar Tripathi, Chowdam Kumar, Pankaj Wasnik 机构：Media Analysis Group, Sony Research India 邮箱：kumud.tripathi@sony.com, chowdam.kumar@sony.com, pankaj.wasnik@sony.com 💡 毒舌点评这篇论文切中了多语言ASR中一个真实且重要的痛点：Whisper等模型在达罗毗荼语上的表现显著落后于印地语等。作者通过语言学分析将问题归因于形态复杂性导致的解码器注意力失衡，这个动机是合理且有启发性的。提出的Weighted-Attention和Self-Conditioning是直接针对这一问题的工程化尝试，方法本身是合理且可理解的。然而，最大的问题在于贡献的“天花板”较低。两个模块都是对现有Transformer解码器的微小调整（门控和残差连接），创新深度有限。实验规模（仅微调解码器、使用Medium模型、8种印度语言+2种泛化语言）和与当前最强基线（如Whisper-large-v3或专有SOTA）的差距分析不足，使得结论的说服力打了折扣。更关键的是，完全未开源，对于一项声称解决“公平性”问题的工作来说，这限制了其社会影响力和可复现性。总的来说，这是一篇扎实的、解决特定问题的工作，但离顶会论文所期望的突破性贡献仍有距离。 ...

Paediatric-HGNN: A Hybrid Heterogeneous Graph Neural Network for Detecting Disfluency in Children's Speech via Multiscale Acoustic Fusion

📄 Paediatric-HGNN: A Hybrid Heterogeneous Graph Neural Network for Detecting Disfluency in Children's Speech via Multiscale Acoustic Fusion #语音合成 #语音增强 #图神经网络 #多模态模型 #数据增强 6.5/10 | 创新 1/2 | 严谨 1.2/1.5 | 实验 1/1.5 | 清晰 1/1 | 影响 0.8/1.5 | 开源 0.2/1.5 | 复现 0.5/0.5 | 工程 0.8/1.5 ✅ 6.5/10 | 后50% | #语音合成 | #图神经网络 | #语音增强 #多模态模型 | arxiv 👥 作者与机构 Rashini Liyanarachchi, Rachael Mackay, Alison Short, Aditya Joshi, Erik Meijering 1 University of New South Wales (UNSW), Sydney, Australia 2 Western Sydney University, Sydney, Australia 3 Resourced Music Therapy, Sydney, Australia ...

Parameter-Efficient Continual Learning for Automatic Speech Recognition

📄 Parameter-Efficient Continual Learning for Automatic Speech Recognition #语音识别 #持续学习 #低资源 8.1/10 | 创新 1.3/2 | 严谨 1.2/1.5 | 实验 1.3/1.5 | 清晰 1/1 | 影响 0.9/1.5 | 开源 1/1.5 | 复现 0.5/0.5 | 工程 0.9/1.5 🔥 8.1/10 | 前25% | #语音识别 | #参数高效微调 | #持续学习 #低资源 | arxiv 👥 作者与机构作者：Steven Vander Eeckt, Hugo Van Hamme 机构：Department Electrical Engineering ESAT-PSI, KU Leuven, Leuven, Belgium 💡 毒舌点评论文提出了一个在ASR领域探索PECL的扎实工作，但“最全面实证研究”的宣称需要更审慎的评估。方法核心是对SSVD的逆向应用（改头部为尾部）并结合持续学习中经典技巧（权重平均），其新颖性更多体现在特定领域的适配和验证，而非原理上的突破。实验设计虽合理，但仅两个任务的序列长度，对于宣称“减少遗忘”这一CL核心挑战的验证略显不足。部分基线（MiLoRA， OPLoRA）在实验2中缺失结果却未作讨论，是一个明显的疏漏。论文写作清晰，但公式(2)的笔误和“Separate Model”描述的潜在矛盾需在终稿中修正。整体而言，这是一篇合格的、有实用价值的领域工作，但距离顶尖会议的理论深度或实验规模仍有差距。 📌 核心摘要本文针对语音基础模型在多任务顺序适配中面临的灾难性遗忘和参数效率问题，提出了CSSVD方法。该方法基于奇异值分解（SVD），将预训练权重矩阵划分为高能量的“头部”和低能量的“尾部”。与SSVD在头部进行适应不同，CSSVD将新任务的适应限制在尾部子空间内，仅学习一个近似旋转矩阵，从而保护对旧任务至关重要的主干知识。在学习后续任务时，通过简单的凸组合（权重平均）来合并模型，进一步平滑更新以减轻遗忘。在两个多语言/方言ASR基准上的实验表明，CSSVD相比多种源自NLP/视觉领域的先进PECL基线（如LoRA+FTA， BiLoRA），能显著降低平均词错误率（WER）并极大缓解遗忘（BWT更接近零）。消融研究证实了尾部适应、近似旋转和权重平均这三个组件的协同有效性。 ...

Predictive Fixed-Filter Active Noise Control (PFANC) Using Convolutional Recurrent Neural Networks for Dynamic Noises

📄 Predictive Fixed-Filter Active Noise Control (PFANC) Using Convolutional Recurrent Neural Networks for Dynamic Noises 8.3/10 | 创新 1.5/2 | 严谨 1.2/1.5 | 实验 1.5/1.5 | 清晰 1/1 | 影响 1.3/1.5 | 开源 0/1.5 | 复现 0.5/0.5 | 工程 1.3/1.5 🔥 8.3/10 | 前25% | arxiv 👥 作者与机构作者：Zhengding Luo, Haowen Li, Haozhe Ma, Dongyuan Shi, Wen Zhang, Woon-Seng Gan 机构：新加坡南洋理工大学电气与电子工程学院新加坡国立大学计算学院中国西北工业大学智能声学与沉浸式通信中心 💡 毒舌点评这篇论文在“预测性”这个点上做得不错，把GFANC从“反应式”升级到“前瞻性”，算是给固定滤波器ANC加了个小脑。CRNN的设计中规中矩，用GRU处理时序也算合理。理论分析那块，信息论推导挺唬人，但实际指导意义有多大？高阶马尔可夫假设在真实噪声里真的成立吗？论文没敢深究。实验嘛，调频噪声这种规律变化的东西当然好做，真实噪声也还行，但只测了交通和手推车，跟实验室理想环境也差不太多。最大亮点可能是那个双速率架构，看起来挺工程化。不过，整篇论文感觉是“增量改进”多于“范式革新”，在方法对比上，没跟Transformer这类当红模型比，有点保守。给8.5分，是认可它在固定滤波器框架内的扎实工作和创新思路，但离“震撼人心”还差得远。 📌 核心摘要本文针对现有生成式固定滤波器主动噪声控制（GFANC）方法因依赖当前噪声帧而存在的跟踪滞后问题，提出了一种预测性固定滤波器主动噪声控制（PFANC）方法。PFANC采用前瞻性控制范式，其核心是一个卷积循环神经网络（CRNN），该模型同时处理多个连续的噪声帧，以预测下一时刻的最优控制滤波器权重向量。通过利用噪声信号跨帧的时间相关性进行前瞻性预测，PFANC能更有效地跟踪动态变化的噪声。论文进一步提供了基于高阶马尔可夫链的理论分析，从信息论角度证明了多帧观测可以降低控制滤波器预测误差的下界。在合成调频信号（线性与对数啁啾）和真实动态噪声（交通、手推车）上的仿真实验表明，PFANC的降噪性能持续优于GFANC及其贝叶斯、卡尔曼滤波扩展版本，并且响应速度显著快于传统的FxLMS算法。此外，PFANC在不同实测声学路径间展现出良好的迁移能力。 🔗 开源详情代码：https://github.com/Luo-Zhengding/Predictive-ANC 模型权重：论文中未提及提供预训练模型权重下载。数据集：训练和评估使用的数据集为：合成线性啁啾信号数据集：包含10,000个训练实例和1,000个测试实例。合成对数啁啾信号数据集：包含10,000个训练实例和1,000个测试实例。真实噪声数据集：来自SONYC Urban Sound Tagging Dataset的子集，包含13,000个训练实例和2,000个测试实例。获取链接：论文中未提供作者使用特定子集的具体获取链接（数据集基于公开的SONYC Urban Sound Tagging Dataset）。 Demo：论文中未提及。复现材料：训练配置：论文第5.1节和表3提供了详细的参数配置（如采样率、帧长、滤波器长度、子控制滤波器数量M、用于预测的帧数F等）。训练细节在第3.2节和第5.2.2节描述（使用Adam优化器、MSE损失函数、训练轮数约30轮）。模型架构：论文第3.1节和图3详细描述了CRNN的架构，包括共享CNN模块、GRU模块及全连接层。检查点：论文中未提及具体的预训练模型权重文件或下载链接。论文中引用的开源项目：未提及（论文对比了GFANC、GFANC-Bayes、GFANC-Kalman等方法，但未引用其具体代码仓库链接）。 🏗️ 方法概述和架构 PFANC方法的核心是构建一个能够预测下一帧控制滤波器权重的CRNN模型，并采用双速率在线控制架构。整个方法可分为离线训练和在线控制两个阶段。 ...

Probing Token Spaces under Generator Shift in AI-Generated Music Detection

📄 Probing Token Spaces under Generator Shift in AI-Generated Music Detection #自监督学习 #音频编码 #对比学习 9/10 | 创新 1.4/2 | 严谨 1.2/1.5 | 实验 1/1.5 | 清晰 1/1 | 影响 1.2/1.5 | 开源 1.5/1.5 | 复现 0.5/0.5 | 工程 1.2/1.5 🔥 9/10 | 前10% | #音频编码 | #自监督学习 | #对比学习 | arxiv 👥 作者与机构作者：Joonyong Park, Jungwoo Kim, Junyoung Koh, Yuki Saito。论文中未明确说明作者所属的具体机构。 💡 毒舌点评这篇论文像一份精心设计的实验报告，而非一篇突破性的研究。其最大的亮点在于实验设计的“控制变量”思想——用一个固定的CoMoE分类器来孤立Token空间的影响，这确实是一个聪明的实验设置。然而，这恰恰也暴露了其核心弱点：论文本质上是在验证一个相对直觉性的假设（即不同的音频表示会影响检测器的泛化能力），并提供了一个实验框架。其最大的问题在于“为什么”层面的解释极其匮乏。我们观察到X-Codec在Udio上好，MERT在Suno上好，但论文对此提供的解释几乎为零。是Token的离散化粒度？是训练数据的重叠？是音频编解码器的重建特性？作者只停留在现象描述。此外，CoMoE的四流设计动机略显模糊，特别是对不同Token空间（如EnCodec的8层RVQ）进行截取的规则（q=0,1 vs q=6,7）是否公平且最优，并未给出令人信服的讨论。整篇论文感觉是在用复杂的实验设置来包装一个简单的核心观点，理论深度和机制创新是其明显的短板。 📌 核心摘要本文研究了AI生成音乐检测器在面对生成器偏移（即处理训练时未见过的生成器输出）时的鲁棒性问题。为公平评估不同音频表示（Token空间）的影响，作者提出了CoMoE（Codec-Mixture-of-Experts），一个固定的四流探测分类器。通过在MoM-open（一个使用FMA和MTG-Jamendo真实音频、并保留原MoM-CLAM生成器协议的开源数据集）上进行源受限评估，研究发现标准评估已饱和，而虚假音频源受限评估能有效区分不同Token空间的迁移性能。核心结论是，在生成器偏移条件下，音频Token空间（如EnCodec、DAC、X-Codec、MERT离散化单元）的选择本身应成为一个关键的实验变量。 🔗 开源详情代码：https://github.com/MAAP-LAB/CoMoE （论文明确提供）模型权重： EnCodec 24 kHz: https://huggingface.co/facebook/encodec_24khz （论文明确提供） DAC 44 kHz: https://github.com/descriptinc/descript-audio-codec （论文明确提供） X-Codec mini: https://huggingface.co/m-a-p/xcodec_mini_infer （论文明确提供） MERT-v0-public: https://huggingface.co/m-a-p/MERT-v0-public （论文明确提供）数据集： MoM-open：论文构建的数据集，基于FMA-medium和MTG-Jamendo。具体获取链接未在论文中直接给出，但与代码仓库（https://github.com/MAAP-LAB/CoMoE）关联。真实音频原始数据集：FMA (https://github.com/mdeff/fma)， MTG-Jamendo (https://github.com/MTG/mtg-jamendo-dataset)。 Demo：未提及。复现材料：论文提供了训练配置（12 epochs, AdamW, lr=2e-4, label smoothing 0.05, seed 42, single H100 GPU），代码仓库应包含相关脚本。论文中引用的开源项目：DiffRhythm (https://github.com/AIFSH/DiffRhythm)， Riffusion (https://github.com/riffusion/riffusion)， YuE (https://github.com/yue-genesis/yue)。 🏗️ 方法概述和架构本文提出的核心方法是CoMoE，一个用于公平比较异质离散音频Token空间的固定分类器探针。其设计原则是：保持下游分类器架构、训练流程和评估协议完全一致，仅替换输入的Token空间，从而将性能差异完全归因于Token表示本身。 ...

Quality-Diversity Search in Sound Generation: Investigating Innovation Engines for Audio Exploration

📄 Quality-Diversity Search in Sound Generation: Investigating Innovation Engines for Audio Exploration 7/10 | 创新 1.2/2 | 严谨 1.1/1.5 | 实验 1.3/1.5 | 清晰 1/1 | 影响 1/1.5 | 开源 0/1.5 | 复现 0.5/0.5 | 工程 0.9/1.5 ✅ 7/10 | 前50% | arxiv 👥 作者与机构 Björn Þór Jónsson (贡献相等), Çağrı Erdem (贡献相等), Stefano Fasciani (贡献相等), Kyrre Glette (贡献相等) 单位：Department of Informatics, University of Oslo, Norway；Department of Musicology, University of Oslo, Norway 通讯作者邮箱：bthj@uio.no ...

Rethinking Depth: A study of the Recursive-Transformer for Speech Recognition

📄 Rethinking Depth: A study of the Recursive-Transformer for Speech Recognition #参数高效微调 7.5/10 | 创新 1.4/2 | 严谨 1.2/1.5 | 实验 1.1/1.5 | 清晰 1/1 | 影响 1/1.5 | 开源 0.3/1.5 | 复现 0.5/0.5 | 工程 1/1.5 ✅ 7.5/10 | 前25% | #语音识别 | #参数高效微调 | arxiv 👥 作者与机构 Thomas Rolland, Carlos Carvalho, Alberto Abad INESC-ID, Portugal Instituto Superior Técnico, Portugal 💡 毒舌点评这篇论文做了一件扎实但不算惊艳的事情：把在NLP里已经不算新鲜的“层共享递归”思路，系统地在ASR编码器上过了一遍。它的价值在于“系统性”——像个勤勉的工程师，把递归深度、层分配这些旋钮拧了个遍，告诉你哪个位置效果最好（L=5，加上首尾不共享的层）。实验设计控制变量做得不错，结果也显示参数减66%性能不掉，甚至参数相同的情况下还能打过基线，这对追求模型轻量化的实际应用算是个好消息。但最大的槽点在于对“效率”的讨论极不完整：只谈参数量，完全回避了“推理速度”这个递归模型的命门。循环次数L增加，计算量线性增长，延迟必然增加，论文却对此讳莫如深。这就像只告诉你汽车省油，却不提它跑得有多慢。此外，数据集全是朗读体，离真实的嘈杂、对话场景差距尚远。总结：一份参数效率的详细调参报告，实用但缺乏深度洞察，对递归模型的效率讨论是“瘸腿”的。 📌 核心摘要本文对应用于ASR编码器的递归Transformer（Recursive-Transformer）及其变体Latent-Recursive-Transformer进行了系统性实验研究。研究动机源于对预训练ASR编码器（Whisper-medium）中间层冗余性的分析（图1）。核心方法是将编码器划分为Prelude（前导，非共享）、Recurrent（循环，共享）和Coda（结尾，非共享）三个功能块，通过控制循环次数L和各块层数来研究性能与参数效率的平衡。实验表明，Latent-Recursive架构在参数减少66%时（L1配置，25.2M参数）仍能保持与75.6M参数基线可比的性能（LibriSpeech WER 2.16% vs 2.12%），而在参数匹配设置下（L3配置，75.6M参数），性能甚至超越基线（WER 2.03%）。研究还发现存在最优循环深度（L=5），并验证了该方法在中文数据集（AISHELL-1）和另一种架构（Branchformer）上的泛化能力。 ...

SMC-ITA: Sequential Monte Carlo Inference-Time Alignment for Video-to-Audio Generation

📄 SMC-ITA: Sequential Monte Carlo Inference-Time Alignment for Video-to-Audio Generation #音频生成 #多模态模型 #流匹配 7/10 | 创新 1.6/2 | 严谨 1.2/1.5 | 实验 1.4/1.5 | 清晰 1/1 | 影响 0.8/1.5 | 开源 0/1.5 | 复现 0.5/0.5 | 工程 0.5/1.5 ✅ 7/10 | 前50% | #音频生成 | #多模态模型 | #流匹配 | arxiv 👥 作者与机构作者：Haoyu Zhang, Yuta Oshima, Xingjian Du, Chunfeng Wang, Irene Li, Yusuke Iwasawa, Yutaka Matsuo 单位：The University of Tokyo, University of Rochester, Independent ...