论文速递 | 语音/音乐/音频论文速递

Disentangling Speaker and Language Effects in Cross-Lingual Speaker Verification for Iberian Languages

📄 Disentangling Speaker and Language Effects in Cross-Lingual Speaker Verification for Iberian Languages #说话人验证 #迁移学习 #自监督学习 #多语言 #数据集 5.6/10 | 创新 1.1/2 | 严谨 0.9/1.5 | 实验 0.7/1.5 | 清晰 0.6/1 | 影响 0.7/1.5 | 开源 1/1.5 | 复现 0.3/0.5 | 工程 0.3/1.5 📝 5.6/10 | 前50% | #说话人验证 | #迁移学习 | #自监督学习 #多语言 | arxiv 👥 作者与机构第一作者：Pol Buitrago（Barcelona Supercomputing Center, Universitat Politècnica de Catalunya）通讯作者：Pol Buitrago（Barcelona Supercomputing Center, Universitat Politècnica de Catalunya）作者列表：Pol Buitrago（Barcelona Supercomputing Center, Universitat Politècnica de Catalunya）、Javier Hernando（Universitat Politècnica de Catalunya） 💡 毒舌点评本文尝试用一套漂亮的同说话人双语评测集来解耦跨语言 SV 中的语言与说话人混淆效应，研究动机清晰且评测设计确有巧思。然而全文仅围着 mHuBERT-147 一个模型打转，连 ECAPA-TDNN 或 WavLM 的影子都没见着，结论的普适性几乎无从谈起；西班牙语-加利西亚语同说话人评测集仅 21 人，却据此得出"语言效应仍占主导"这样的大结论，说服力堪忧。更让人捏把汗的是，CLTM 定义中训练/测试说话人身份的具体关系始终含混不清，而这么关键的变量一旦控制不好，因果推断怕是站不住脚。 ...

Do Multimodal Large Language Models Need Reasoning to Classify Dementia from Speech?

📄 Do Multimodal Large Language Models Need Reasoning to Classify Dementia from Speech? 6.5/10 | 创新 1.4/2 | 严谨 1.1/1.5 | 实验 1.1/1.5 | 清晰 0.9/1 | 影响 0.6/1.5 | 开源 0.5/1.5 | 复现 0.2/0.5 | 工程 0.7/1.5 ✅ 6.5/10 | 前50% | #语音属性识别 | #Adapter | arxiv 👥 作者与机构第一作者：Liming Wang（MIT CSAIL）通讯作者：未说明作者列表：Liming Wang（MIT CSAIL）、Neguine Rezaii（Massachusetts General Hospital, Harvard Medical School）、Bradford C. Dickerson（Massachusetts General Hospital, Harvard Medical School）、James Glass（MIT CSAIL） 💡 毒舌点评本文的亮点在于系统性地揭露了MLLM的显式推理文本在痴呆语音分类中并非银弹，并巧妙地将模型内部的隐藏表征作为更可靠的分类信号，这一洞察值得肯定，跨域迁移的分析也提供了新的视角。然而，实验严重依赖一个完全私有、不可公开复现的数据集LEADS，且关键对比中系统性地缺失了针对语音专用foundation model（如Wav2vec 2.0、HuBERT）的强基线，使得“MLLM内部表征优越”这一核心论断缺乏坚实的比较基准，整体说服力因此打了不小的折扣。 ...

Enhancing Flow Matching with A Unified Guidance Framework for Efficient and Robust Speech Synthesis

📄 Enhancing Flow Matching with A Unified Guidance Framework for Efficient and Robust Speech Synthesis 7.1/10 | 创新 1.2/2 | 严谨 1.2/1.5 | 实验 1/1.5 | 清晰 0.8/1 | 影响 1/1.5 | 开源 0.2/1.5 | 复现 0.3/0.5 | 工程 1.4/1.5 ✅ 7.1/10 | 前50% | #语音合成 | #流匹配 | arxiv 👥 作者与机构第一作者：Zuda Yu（Zuoyebang, China）通讯作者：未说明作者列表：Zuda Yu（Zuoyebang）、Qianhui Xu（Zuoyebang）、Ting Chen（Zuoyebang）、Junhui Zhang（Zuoyebang）、Tao Fu（Zuoyebang）、Hongjiang Yu（Zuoyebang）、Qiangqing Wang（Zuoyebang）、Yang Song（Zuoyebang） 💡 毒舌点评本文亮点在于将数据层面的异构扰动与模型层面的蒸馏+轨迹矫正统一到一个框架中，成功在3步推理下实现超真值的说话人相似度，工程价值突出；短板则是方法本质是已知技术的组合，且对比实验中缺失了与Consistency Models、CoMoSpeech等主流加速路的直接比较，停于自说自话。 📌 核心摘要解决问题：针对流匹配在语音生成中的两大瓶颈——零样本音色泄漏（语义token残留源说话人声学信息）和高推理延迟（CFG双倍计算开销+弯曲ODE路径需多步积分），提出统一引导框架。方法核心：Data-guidance (DG) 通过模型驱动交叉合成+信号驱动声学变形构造严重不匹配的训练对，强制模型从声学提示中获取音色；Enhanced Model-guidance (MG) 在一个在线循环中将CFG感知的速度场蒸馏到网络权重，同时用蒸馏后模型在线生成直线轨迹并进行轨迹矫正，消除CFG并支持3步推理。与已有方法的新对比：DG将Seed-VC的单阶段扰动扩展为双阶段异构退化；MG首次将内在引导蒸馏与在线轨迹矫正统一在同一训练Loop中，无需额外的CFG或无分类器引导。主要实验结果：VC任务中，Unified Guidance在3 NFE下RTF 0.024，非平行LibriTTS SIM达0.850（Base 10 NFE为0.793），Seed-TTS SIM达0.767（Base 0.730），超过10步Base并接近甚至超过真值平行SIM；TTS任务中，3步Unified FM在CosyVoice2 LLM后端下SIM达0.888，WER轻微上升至2.60/2.45。详细表格见下文。实际意义：为实时零样本语音合成/转换提供了一种高效的流水线，3倍加速且音色相似度显著改善，适合工业部署。主要局限性：缺少与蒸馏/一致性模型等主流加速方法的横向对比，未提供主观听感MOS评测，训练和推理的某些关键细节（如batch size、ODE solver）缺失，开源程度极低。 🏗️ 方法概述和架构论文提出一个统一引导框架，围绕条件流匹配（CFM）的语音生成模型，在数据侧和模型侧分别进行优化。整体流程为：输入包含语义token（内容）和声学提示（音色），经DiT解码器预测速度场，通过求解ODE生成Mel谱，再经声码器合成波形。训练分两个阶段：先用标准CFM在匹配数据上预训练基础模型，再用混合数据执行统一引导优化。 ...

Evaluating Pretrained Music Embeddings for Cross-Performance Jazz Standard Recognition

📄 Evaluating Pretrained Music Embeddings for Cross-Performance Jazz Standard Recognition 5.8/10 | 创新 1/2 | 严谨 1/1.5 | 实验 1/1.5 | 清晰 1/1 | 影响 0.5/1.5 | 开源 0.5/1.5 | 复现 0.3/0.5 | 工程 0.5/1.5 📝 5.8/10 | 前50% | #音乐检索 | #对比学习 | arxiv 👥 作者与机构第一作者：Çağrı Eser（未说明）通讯作者：未说明作者列表：Çağrı Eser（未说明） 💡 毒舌点评亮点在于将爵士标准识别定位为音乐表示学习的"压力测试"，并敏锐地发现预训练嵌入中表演者身份会严重干扰旋律级检索，所提的轻量监督对比投影提供了有益的缓解思路。短板是实验规模极小（仅16首标准），缺少与现有专业 cover song 识别系统的比较，方法本身只是套用已有组件，未能给出具有说服力的量化增益，更像一个探索笔记而非完整研究。 📌 核心摘要本文研究跨演奏的爵士标准识别——即从任意一段即兴录音中识别出基础曲目（如"Autumn Leaves"），而不是识别具体录音。作者基于Jazz Trio Database构建了一个经过筛选的16首标准、79个演奏的基准数据集，采用留一演奏交叉验证。实验对比了从零开始训练的Harmonic CNN基线、冻结的MERT和MuQ预训练嵌入的线性/MLP探测，以及k近邻检索。结果显示Harmonic CNN严重过拟合、窗口准确率仅0.034；预训练嵌入的Top-1准确率有限但Top-5改善明显（MuQ+MLP探针的Top-5达0.438），但kNN检索存在强烈的表演者偏差——检索到的近邻常来自同一演奏者但为不同曲目。作者提出一种轻量级的监督对比投影，在冻结编码器上训练一个投影MLP和分类头，联合交叉熵与监督对比损失，将同曲目不同演奏的窗口拉近，以减少表演者偏差并提升Top-5准确率（最高从0.359升至0.469）。该工作表明爵士标准识别对音乐表示模型极具挑战性，且表演者偏差在检索中不可忽视，但数据集过小、缺乏与专门版本识别系统的对比，结论难以泛化。 🔗 开源详情代码：https://github.com/cagries/tipofmyear （注：该页面仅为项目介绍页，未提供实际的训练、评估或数据处理代码）模型权重： MERT-v1-95M：https://huggingface.co/m-a-p/MERT-v1-95M MuQ-large-msd-iter：https://huggingface.co/OpenMuQ/MuQ-large-msd-iter 数据集：基于Jazz Trio Database构建了过滤子集，但未提供该子集的直接获取链接或生成脚本 Demo：论文中未提及复现材料：论文中未提及论文中引用的开源项目： MERT（https://huggingface.co/m-a-p/MERT-v1-95M） MuQ（https://huggingface.co/OpenMuQ/MuQ-large-msd-iter） 🏗️ 方法概述和架构本工作采用多分支评估管线，核心对比三种范式：从零训练的Harmonic CNN、冻结预训练嵌入+线性/MLP探测、以及基于相同嵌入的k近邻检索。此外，还提出一个可选的监督对比投影模块，用于重塑嵌入空间以缓解表演者偏差。 ...

From Objectives to Applications: Aligning Architectural Biases in Audio Self-Supervised Learning

📄 From Objectives to Applications: Aligning Architectural Biases in Audio Self-Supervised Learning 7.5/10 | 创新 1/2 | 严谨 1.2/1.5 | 实验 1.2/1.5 | 清晰 0.8/1 | 影响 1.2/1.5 | 开源 0.8/1.5 | 复现 0.3/0.5 | 工程 1/1.5 ✅ 7.5/10 | 前25% | #音频理解 | #自监督学习 | arxiv 👥 作者与机构第一作者：Kele Xu（国防科技大学，未说明具体实验室）通讯作者：Yulin Sun（国防科技大学，未说明具体实验室）、Qisheng Xu（国防科技大学，未说明具体实验室）作者列表：Kele Xu（国防科技大学）、Yulu Fang（国防科技大学）、Boda Zhou（国防科技大学）、Yulin Sun（国防科技大学）、Qisheng Xu（国防科技大学）、Qiya Song（国防科技大学）、Jin Zhang（国防科技大学）、Cheng Yang（国防科技��学）、Huaimin Wang（国防科技大学） 💡 毒舌点评这篇综述巧妙地将音频自监督学习从“时序列举”提升为“需求驱动的架构对齐”视角，提出的五类处理需求与架构映射矩阵具有很强的启发性。然而，全文更像一本精致的分类目录，缺乏任何定量实验或元分析来支撑“对齐”这一核心主张，导致其结论停留在经验归纳而非可验证的假设层面，实践指导力大打折扣。 📌 核心摘要本文尝试从预训练目标与网络架构偏置对齐的视角重新审视音频自监督学习（SSL），而非按时间线罗列方法。作者将现有SSL目标归纳为五大范式：早期辅助任务、对比学习、生成与重建、离散token预测和多模态对齐，并将教师-学生目标构建视为一种跨范式的目标构造机制。论文分析了每种范式对模型的处理需求（如局部编码、不变性学习、全局推断、语义抽象、跨模态对应），并进一步将这些需求映射到CNN、RNN/SSM、Transformer及混合架构的归纳偏置，构建了“目标-架构对齐矩阵”（Table I）。论文紧接着考察了该对齐矩阵在语音处理、环境声分析、音乐信息检索、医学/生物声学及多模态理解五个应用领域的实际表现，并回顾了标准评测基准与挑战。作为综述，论文未提供��立实验数据，但整理了丰富的模型归类与代表性方法列表。其实际意义在于为音频SSL研究者提供了一个从“需求-架构”角度进行方法选择和创新的结构化框架，有助于缩小预训练设计与下游任务之间的鸿沟。主要局限性在于对齐关系缺乏定量验证，且对架构选择与最终性能的因果关联缺少实证支撑，同时未涵盖最新的端到端音频语言模型训练动态。 ...

MG-RWKV: Multi-Grained Context-Aware RWKV for Temporal Forgery Localization

📄 MG-RWKV: Multi-Grained Context-Aware RWKV for Temporal Forgery Localization 6.9/10 | 创新 1.4/2 | 严谨 1.1/1.5 | 实验 1.2/1.5 | 清晰 0.8/1 | 影响 0.7/1.5 | 开源 0.5/1.5 | 复现 0.3/0.5 | 工程 0.9/1.5 ✅ 6.9/10 | 前50% | #RNN | arxiv 👥 作者与机构第一作者：Jingchen Ni（清华大学）共同第一作者：Cangjin Yu（未说明机构）通讯作者：Ke Zhang（苏州大学）、Chun Yuan（清华大学深圳国际研究生院）其他作者：Dan Jiang、Quan Zhang、Keyu Lv、Shannan Yan、Linyue Pan（均未说明机构） 💡 毒舌点评本文巧妙地将线性复杂度的 RWKV 改造为双向多粒度检测器，在三个伪造定位基准上全面刷榜，设计思路清晰且工程量扎实。然而，全文在音频和视觉模态上一把抓却未深入解决模态间对齐与互补的核心难题，所谓“多模态”只是简单特征拼接，对纯音/纯视频场景下的跨模态泛化分析严重缺失。此外，论文未见任何代码或权重发布，声称“开源”却只闻楼梯响，复现可信度大打折扣。 📌 核心摘要本文针对未剪辑音视频中的时序伪造定位任务，提出了一种线性复杂度的多粒度框架 MG-RWKV。其核心方法包含三个模块：双向 RWKV 架构以线性成本捕获双向时序上下文；多粒度混合专家通过不同膨胀率的卷积分支实现可解释的自适应尺度选择；跨粒度一致性约束在非伪造区域强制相邻特征金字塔层级特征对齐，以减少误报。与现有 CNN 受限感受野、Transformer 二次复杂度的方法不同，MG-RWKV 利用数据依赖的状态演化达到 \(\mathcal{O}(T)\) 复杂度并保持了密集的长程连接。在 Lav-DF、TVIL、Psynd 三个数据集及大规模 AV-Deepfake1M 基准上，MG-RWKV 均取得 SOTA 性能，尤其在严格 tIoU 阈值下优势显著：Lav-DF AP@0.95 达 38.47%（视觉+音频），TVIL AP@0.95 达 71.31%，Psynd AP@0.95 达 90.09%，AV-Deepfake1M AP@0.95 达 24.53%，相比之前最优方法 DiMoDif 提升 19.10 个百分点。实际意义在于为内容鉴伪提供了一种高效且可解释的起止点定位方案。主要局限是未提供开源代码与权重，跨模态与跨数据集的鲁棒性验证不足，且对极长视频的线性假设缺乏极致长周期的实验支持。 ...

NPUsper: Eliminating Redundant Computation for Real-Time Whisper on Mobile NPUs

📄 NPUsper: Eliminating Redundant Computation for Real-Time Whisper on Mobile NPUs #语音识别 9/10 | 创新 1.4/2 | 严谨 1.4/1.5 | 实验 1/1.5 | 清晰 0.9/1 | 影响 1.2/1.5 | 开源 1.3/1.5 | 复现 0.5/0.5 | 工程 1.5/1.5 🔥 9/10 | 前10% | #语音识别 | #自回归模型 | arxiv 👥 作者与机构第一作者：Sihyeon Lee（Korea University）通讯作者：Suman Banerjee（University of Wisconsin–Madison）、Seyeon Kim（Korea University）作者列表：Sihyeon Lee（Korea University）、Hojeong Lee（University of Wisconsin–Madison）、Sungwon Woo（Korea University）、Chengpo Yan（University of Wisconsin–Madison）、Suman Banerjee（University of Wisconsin–Madison）、Seyeon Kim（Korea University） 💡 毒舌点评本文用交叉注意力的时序特性来无阈值检测幻觉，一举砍掉了流式Whisper中常年“标配��的低效音频填充，想法干净得让人嫉妒。工程上，面向NPU的受控展开解码也把静态图执行和动态自回归解码的矛盾调和得相当漂亮。但实验验证的骨架太细：主结果就靠两个长音频样本撑着，统计说服力基本没有，难以让人完全信服其在各种声学场景下的稳健性。幻觉检测虽称“无阈值”，但滤波窗口等超参依然需要手动选定，跨模型大小的泛化也只是做了初步验证，多少有点“按下葫芦浮起瓢”的意思。 ...

ORCA: Open-ended Response Correctness Assessment for Audio Question Answering

📄 ORCA: Open-ended Response Correctness Assessment for Audio Question Answering #音频理解 #大语言模型 #基准测试 #模型评估 #数据集 7.9/10 | 创新 1.5/2 | 严谨 1.3/1.5 | 实验 1.4/1.5 | 清晰 1/1 | 影响 0.9/1.5 | 开源 0.5/1.5 | 复现 0.3/0.5 | 工程 1/1.5 ✅ 7.9/10 | 前25% | #音频理解 | #大语言模型 | #基准测试 #模型评估 | arxiv 👥 作者与机构第一作者：Šimon Sedláček（Brno University of Technology, Speech@FIT）、Sara Barahona（Universidad Autónoma de Madrid）、Bolaji Yusuf（Brno University of Technology, Speech@FIT）、Laura Herrera-Alarcón（Universidad Autónoma de Madrid）、Santosh Kesiraju（Brno University of Technology, Speech@FIT）（注明同等贡献）通讯作者：未说明作者列表：Šimon Sedláček（Brno University of Technology, Speech@FIT）、Sara Barahona（Universidad Autónoma de Madrid）、Bolaji Yusuf（Brno University of Technology, Speech@FIT）、Laura Herrera-Alarcón（Universidad Autónoma de Madrid）、Santosh Kesiraju（Brno University of Technology, Speech@FIT）、Cecilia Bolaños（University of Buenos Aires）、Alicia Lozano-Diez（Universidad Autónoma de Madrid）、Sathvik Udupa（Brno University of Technology, Speech@FIT）、Fernando López（Universidad Autónoma de Madrid）、Allison Ferner（Tufts University）、Ramani Duraiswami（University of Maryland）、Jan Černocký（Brno University of Technology, Speech@FIT） 💡 毒舌点评亮点：将Beta分布引入音频QA评估，巧妙地把人类评分的均值和分歧度同时建模，并提供了一套完整的三阶段标注-修正流程，数据集价值较高。短板：框架严重依赖由Gemini生成的rationale和Whisper转录文本，这些文本grounding的质量直接影响评估上限；方法在大规模、多类型、多语言音频QA上的泛化能力完全未知，且关键训练超参数意外缺失，削弱了复现信心。 ...

Positive-Incentive Noise Predictor for Adversarial Purification in Speaker Verification

📄 Positive-Incentive Noise Predictor for Adversarial Purification in Speaker Verification 7.4/10 | 创新 1.2/2 | 严谨 1.2/1.5 | 实验 1.2/1.5 | 清晰 0.8/1 | 影响 0.8/1.5 | 开源 1/1.5 | 复现 0.4/0.5 | 工程 0.8/1.5 ✅ 7.4/10 | 前50% | #说话人验证 | #扩散模型 | arxiv 👥 作者与机构第一作者：Yibo Bai（EURECOM, Audio Security and Privacy Group）通讯作者：未明确说明，推测为第一作者或项目负责人 Nicholas Evans 作者列表：Yibo Bai（EURECOM, Audio Security and Privacy Group）、Sizhou Chen（The University of Sydney, School of Computer Science）、Michele Panariello（EURECOM, Audio Security and Privacy Group）、Hao Ma（Northwestern Polytechnical University, School of Marine Science and Technology; China Telecom Institute of Artificial Intelligence (TeleAI)）、Xiao-Lei Zhang（Northwestern Polytechnical University, School of Marine Science and Technology; China Telecom Institute of Artificial Intelligence (TeleAI); Research and Development Institute of Northwestern Polytechnical University in Shenzhen）、Xuelong Li（China Telecom Institute of Artificial Intelligence (TeleAI)）、Massimiliano Todisco（EURECOM, Audio Security and Privacy Group）、Nicholas Evans（EURECOM, Audio Security and Privacy Group） 💡 毒舌点评这篇论文的洞察简洁有力——扩散净化的鲁棒性高度依赖前向加噪而非昂贵的反向去噪，这一实证观察对简化防御pipeline具有启发性。然而，将这一洞察包装为“正激励噪声”（π-noise）的理论体系时，从信息论互信息下界到实际使用的hinge loss之间的理论跨越巨大，论文对此的论证更像是一种事后合理化的修辞，而非严格的推导。实验部分的白盒攻击评估全面，但对CW攻击的缺失令人遗憾；同时，简单的固定高斯加噪基线（Noise-0.01）在多数指标上与提出的学习型PnP-Diff性能持平甚至更优，这直接动摇了“学习任务有益噪声”这一核心主张的说服力。作者未能充分解释并消融学习带来的增益边界，使得核心创新点的坚实程度存疑。 ...

Speech Playground: An Interactive Tool for Speech Analysis and Comparison

📄 Speech Playground: An Interactive Tool for Speech Analysis and Comparison 4.1/10 | 创新 0.5/2 | 严谨 0.3/1.5 | 实验 0/1.5 | 清晰 0.6/1 | 影响 0.3/1.5 | 开源 1/1.5 | 复现 0.2/0.5 | 工程 1.2/1.5 📝 4.1/10 | 后50% | arxiv 👥 作者与机构第一作者：Stephen McIntosh（The University of Tokyo, Japan）第二作者：Daisuke Saito（The University of Tokyo, Japan，原文未明确注明机构，仅从邮件域推断）通讯作者：Nobuaki Minematsu（The University of Tokyo, Japan） 💡 毒舌点评 This paper promotes an interactive web tool that unifies modern speech representations under a single UI, which is an engineering convenience, not a research contribution. Without a single quantitative experiment—no latency measurements, no alignment accuracy benchmarks against Praat or Montreal Forced Aligner, no user study—it remains a demo abstract dressed up as a paper. The Diff mode and encoder extensibility are functionally nice, but top-tier venues demand evidence, not screenshots. ...