论文速递 | 语音/音乐/音频论文速递

Conan-embedding-v3: Fusing Modality-Specific Models for Omni-Modal Embedding

📄 Conan-embedding-v3: Fusing Modality-Specific Models for Omni-Modal Embedding #多模态模型 #模型融合 7.6/10 | 创新 1.6/2 | 严谨 1.3/1.5 | 实验 1.4/1.5 | 清晰 1/1 | 影响 0.4/1.5 | 开源 0.2/1.5 | 复现 0.5/0.5 | 工程 1.2/1.5 ✅ 7.6/10 | 前25% | #音频检索 | #模型融合 | #多模态模型 | arxiv 👥 作者与机构作者：Shiyu Li, Zhiyuan Hu, Yifan Wang, Peiming Li, Zheng Wei, Yang Tang 机构：腾讯，清华大学 💡 毒舌点评这篇工作像给一台精心调教的V8发动机（视觉专家）外挂了一套涡轮增压系统（音频专家），然后发现接口不匹配（投影器漂移），最后通过一套“打补丁”（投影器恢复）加“重新磨合”（平衡排练）的维修手册解决了问题。方法论框架清晰，问题定义（Projector Drift）有洞察力，实验验证了流程的必要性。然而，整个框架更像是一个工程上的“拼装修补”方案，而非从根本上理解或解决模态融合的理论困境。计算成本高昂（A100训练两周），且严重依赖特定基础模型（Qwen3-VL-8B）和经验参数（融合系数α），通用性存疑。开源不彻底（无代码、无权重），复现门槛极高。论文在音频领域（MAEB SOTA）有直接贡献，但作为“全模态”工作，其视觉部分并未超越同期专用模型，影响力受限。 📌 核心摘要论文提出Conan-embedding-v3，一个用于全模态检索的“解耦-融合-恢复”框架。核心流程是：1）从同一个视觉-语言基础模型出发，独立训练图像、视频、文档和音频四个领域专家；2）通过任务向量融合（Task Arithmetic）将四个专家合并到一个密集骨干网络中；3）针对融合后出现的“投影器漂移”问题（即为音频专家训练的投影器与融合后骨干网络不匹配），采用“投影器恢复”（仅微调投影器）和“平衡排练”（轻量级多模态数据混合训练）来修复并平衡最终模型。最终模型在MMEB（图像/视频/文档）上达到74.96分，在MAEB（音频）上达到55.61分。 ...

Cross-Modal Masking for Robust Silent Speech Synthesis Using sEMG and Lipreading

📄 Cross-Modal Masking for Robust Silent Speech Synthesis Using sEMG and Lipreading #语音合成 #多模态模型 #语音识别 #数据增强 #正则化微调 7.5/10 | 创新 2.5/2 | 严谨 2.8/1.5 | 实验 2.5/1.5 | 清晰 2.3/1 | 影响 1.5/1.5 | 开源 0.5/1.5 | 复现 2.0/0.5 | 工程 2.5/1.5 ✅ 7.5/10 | 前50% | #语音合成 | #数据增强 | #多模态模型 #语音识别 | arxiv 👥 作者与机构 Eder del Blanco (†, 博士生), David Gimeno-Gómez (†, 博士), Eva Navas, Carlos-D. Martínez-Hinarejos, Inma Hernáez。机构： ...

Discovering Functionally Selective Brain Regions with a Deep Topographic Multimodal Model

📄 Discovering Functionally Selective Brain Regions with a Deep Topographic Multimodal Model #多模态模型 #正则化微调 #数据增强 8.2/10 | 创新 1.5/2 | 严谨 1.2/1.5 | 实验 1.5/1.5 | 清晰 1/1 | 影响 0.7/1.5 | 开源 1.3/1.5 | 复现 0.5/0.5 | 工程 0.5/1.5 🔥 8.2/10 | 前25% | #多模态模型 | #数据增强 | #正则化微调 | arxiv 👥 作者与机构作者：Badr AlKhamissi, Johannes Mehrer, Lara Marinov, Ahmed Abdelaal, Abdulkadir Gokce, Martin Schrimpf 机构：NeuroAI Lab, EPFL（洛桑联邦理工学院） *共同一作 💡 毒舌点评这篇工作试图在多模态模型上复现并发现人脑的功能组织，雄心勃勃，但其核心贡献的“新颖性”需要更严格的审视。将空间平滑性约束应用于单一连续皮层平面的概念，在单模态拓扑模型中已有先例，本文的“多模态”和“跨阶段”整合是其主要扩展点。然而，这种扩展更多是工程上的组合，而非概念上的飞跃。方法的严谨性依赖于一系列精心设计的实验和对照，但部分关键对照（如更强大的非拓扑基线）的缺失削弱了结论的强度。论文的写作和可视化非常出色，逻辑清晰，实验结果引人注目，尤其是发现新网络并进行人体验证的闭环。最大的软肋在于对“新发现”网络的验证力度不足，仅依赖于单一数据集和初步的fMRI激活，缺乏因果干预，这在顶会审稿中会被视为一个显著的局限。对于语音/音频领域的研究者而言，本文提供的是一种新颖的神经AI建模范式，其直接技术迁移价值有限，但其“模型引导假设生成与验证”的研究思路具有启发意义。 ...

End-to-End Training for Discrete Token LLM based TTS System

📄 End-to-End Training for Discrete Token LLM based TTS System #语音合成 #多任务学习 #强化学习 #流匹配 7.6/10 | 创新 1.4/2 | 严谨 1.1/1.5 | 实验 0.9/1.5 | 清晰 1/1 | 影响 1/1.5 | 开源 0.2/1.5 | 复现 0.5/0.5 | 工程 1.5/1.5 ✅ 7.6/10 | 前50% | #语音合成 | #多任务学习 | #强化学习 #流匹配 | arxiv 👥 作者与机构论文作者：Changfeng Gao, Yong Ren, Jun Yuan, Ye Bai, Zhao You, ShiDong Shang。单位未在摘要或作者列表中明确列出，但论文标题和内容表明与小米AI实验室相关。根据作者信息，机构为小米AI实验室与南京大学。 💡 毒舌点评 SOTA声明的谨慎性：论文声称达到“new SOTA result”，但在主实验表格（Table 1）中，与JoyVoice（WER 0.97% zh, 1.69% en）和CosyVoice3-1.5B（WER 1.12% zh, 2.21% en）等模型相比，提升幅度有限（如中文WER从0.97%降至0.78%）。考虑到其使用了0.6B参数的LLM，性能增益是合理的，但“SOTA”的表述可能需要更谨慎地限定在特定模型规模下。实验设计的局限：论文的核心实验主要基于内部大规模数据集训练的模型进行自比较（Table 1中的Stage1/2/3和w/o E2E），以及与外部模型的有限对比。然而，论文未提供在相同数据、相同基础模型（如Qwen3-0.6B）上与非E2E训练基线（w/o E2E-training）的直接、公平对比的具体实现细节（如是否使用了完全相同的训练数据子集和超参数），这削弱了“E2E训练关键”这一结论的绝对说服力。组件贡献的归因模糊：虽然消融研究（Table 2, 3）移除了\(L_{LM}\)或\(L_{FM}\)，证明了它们的重要性，但论文未深入分析三阶段训练中每个阶段（特别是Stage 2的独立微调）对最终性能的具体贡献比例。Stage 2允许为不同模块使用不同数据，这引入了额外变量，其效果与E2E优化本身的效果未被完全解耦。理论分析的实用性存疑：Section 2.4的信息论分析将Tokenizer训练形式化为源编码问题，概念上有趣，但公式推导（如公式14）较为初步，且与实验结果的直接关联较弱（如Table 4中H和I的微小差异如何对应显著的性能提升？）。这部分更像理论点缀，而非深入的机理分析。开源与可复现性短板：尽管论文在训练细节上描述详尽，但完全未提供代码、模型权重或内部数据集的获取途径。对于一个声称方法更简单、性能更优的框架，缺乏开源极大地限制了社区验证和直接应用其价值。 📌 核心摘要本文提出了一种用于基于离散令牌的LLM的TTS系统的端到端（E2E）训练框架。该框架统一优化了语音分词器、自回归LLM、基于流匹配（FM）的声码器和一个辅助奖励模型（RM）。核心方法包括：1）通过一阶损失（\(L_1\)）联合训练分词器，使其直接适应下游LLM预测、FM重构和RM识别任务；2）通过二阶损失（\(L_2\)）在LLM生成的令牌分布上优化系统，缓解训练-测试不匹配；3）设计了三阶段训练流程以稳定优化。实验表明，该框架在Seed-TTS-Eval基准上，使用0.6B LLM和0.5B FM模型，取得了0.78%（中文）和1.56%（英文）的WER，达到了SOTA水平。消融研究验证了各损失项和端到端优化的重要性。理论分析从信息论角度探讨了高质量语音令牌应具备高熵和强时序依赖性。 ...

Exploring the Scale and Diversity of Speech Anti-spoofing Datasets: Experiments and Analysis

📄 Exploring the Scale and Diversity of Speech Anti-spoofing Datasets: Experiments and Analysis #数据增强 7.4/10 | 创新 1.5/2 | 严谨 1.2/1.5 | 实验 1.3/1.5 | 清晰 1/1 | 影响 1/1.5 | 开源 0/1.5 | 复现 0.5/0.5 | 工程 0.9/1.5 ✅ 7.4/10 | 前50% | #数据增强 | #数据增强 | arxiv 👥 作者与机构作者：Zhuolin Yi, Jun Xue, Yanzhen Ren, Yihuan Huang, Yi Chai, Daixian Li, Guanxiang Feng, Jiajun Liu 机构：武汉大学，网络安全学院 💡 毒舌点评这篇论文像一篇扎实的综述加上一组“控制变量”的实验。优点在于它抓住了一个实际痛点——数据越堆越多但效果提升有限，并设计了两个正交实验来验证“规模”与“多样性”的影响。结论对工业界数据集构建有直接指导意义。但缺点也很明显：首先，论文自称“挑战‘规模优先’范式”，但实验仅基于一个固定模型（Wav2Vec-AASIST），其结论是否能推广到其他容量或架构的模型存疑，这大大削弱了“挑战”的力度。其次，对“多样性”的定义仅限于“生成方法种类”，忽略了更本质的声学特征、说话人、信道等多样性维度，使得结论的普适性打折扣。最后，实验设计中的采样策略（随机采样）过于简单，与作者在局限性中提到的“更有效的样本选择策略”相比，当前结论可能只是特定采样下的特例。总的来说，这是一篇“提出好问题，但解答不够深入”的实证工作。 ...

Factors affecting ASR performance: A study using state of the art ASR models in Indic Languages

📄 Factors affecting ASR performance: A study using state of the art ASR models in Indic Languages #语音识别 #低资源 6.9/10 | 创新 1/2 | 严谨 1.2/1.5 | 实验 1/1.5 | 清晰 1/1 | 影响 1/1.5 | 开源 0/1.5 | 复现 0.5/0.5 | 工程 1.2/1.5 ✅ 6.9/10 | 前50% | #语音识别 | #低资源 | arxiv 👥 作者与机构作者：Agneedh Basu, Pavan Kumar J, Pranav Bhat, Sujith Pulikodan, Visruth Sanka, Nihar Desai, Prasanta Kumar Ghosh 机构：1 AI & Robotics Technology Park (ARTPARK), I-Hub @ IISc, Bangalore, India；2 Department of Electrical Engineering, Indian Institute of Science, Bangalore, India ...

Fast and Robust On-Device Speaker Diarization: Relative Minimum Cluster Size for Stride-Accelerated Pipelines

📄 Fast and Robust On-Device Speaker Diarization: Relative Minimum Cluster Size for Stride-Accelerated Pipelines #说话人分离 6.6/10 | 创新 1/2 | 严谨 1/1.5 | 实验 1/1.5 | 清晰 1/1 | 影响 0.8/1.5 | 开源 0.3/1.5 | 复现 0.5/0.5 | 工程 1/1.5 ✅ 6.6/10 | 前50% | #说话人分离 | #说话人分离 | arxiv 👥 作者与机构作者：Fumiaki Yamaguchi 机构：未说明（仅作者本人） 💡 毒舌点评这篇论文就像一个经验丰富的工程师写的一份高质量技术报告，而非一篇旨在突破边界的算法论文。作者很聪明地找到了一个实际问题（加速导致性能下降），并给出了一个简洁的、一招鲜的解决方案（调整聚类阈值）。诊断部分做得不错，像侦探一样把“凶手”锁定在聚类阶段的“说话人欠计数”。但核心贡献——那个比例\(f\)——说白了就是一个超参数扫描的结果，且是在测试集上扫出来的，这在机器学习界是绝对的禁忌。论文自己也承认了这点，试图用“鲁棒设置”来辩解，但说服力有限。整个工作像是给现有的Pyannote流水线打了个高效的补丁，能用，但离“新方法”差得远。投个应用会议混个poster差不多，想冲顶会的算法轨道？省省吧。 📌 核心摘要本文对基于Pyannote 3.1的说话人分离流水线进行性能工程优化，以在消费级硬件（RTX 5070 Ti GPU, Apple M4笔记本）上实现加速，同时尽量保持说话人分离错误率（DER）。研究发现，通过增粗分割步长（从1秒到3秒）和使用每块嵌入（per-chunk embedding）的简单策略可以实现数倍加速，且在AMI数据集上几乎不影响DER。然而，该策略在更野性的VoxConverse数据集上会导致DER显著上升。作者通过聚类中间结果的可视化和分析，将性能下降的根本原因诊断为聚类阶段的“说话人欠计数”：由于步长增粗导致每个说话人的嵌入数量大幅减少，在固定最小聚类大小（mcs=12）下，部分说话人的嵌入簇被错误地合并或丢弃。为解决此问题，作者提出了一种“相对最小聚类大小”方案，即 \(mcs = \mathrm{round}(f \cdot n)\) ，其中\(n\)是嵌入总数，\(f\)是一个固定比例（实验确定为0.01）。该方案使聚类阈值自适应于录音的嵌入预算，从而用一个超参数在AMI上保持DER，并在VoxConverse上恢复了约89%的精度损失（DER从0.113恢复到0.079）。该加速流水线在AMI上最高实现了12.2倍加速。在更困难的MSDWild数据集上，该方案的增益有限，作者指出其性能下降并非主要由嵌入预算机制主导。论文最后讨论了超参数选择依赖测试集、方法泛化性等局限性。 ...

Few-shot Class-variable Incremental Audio Classification via Prototype Adaptation and Pseudo Class-variable Training

📄 Few-shot Class-variable Incremental Audio Classification via Prototype Adaptation and Pseudo Class-variable Training #音频分类 #数据增强 6.9/10 | 创新 1.4/2 | 严谨 1.1/1.5 | 实验 1.3/1.5 | 清晰 1/1 | 影响 0.8/1.5 | 开源 0/1.5 | 复现 0.5/0.5 | 工程 0.8/1.5 ✅ 6.9/10 | 前50% | #音频分类 | #数据增强 | arxiv 👥 作者与机构作者：Yanxiong Li, Guoqing Chen, Qianqian Li, Sen Huang 机构：华南理工大学电子与信息工程学院 💡 毒舌点评这篇论文在定义问题上有点小聪明，把“类别只增不减”这个常见假设改成了“可增可减”，确实更贴近智能音箱这种需要增删关键词的现实场景。技术上，CPAN这个网络设计得有点复杂，四个模块（APGM, SAMP, PAMP，融合）堆在一起，虽然动机是好的（想同时兼顾稳定性与可塑性），但看着就让人头大。更让人费解的是伪类变量训练（PCTS），在基础训练阶段用混合操作（mixup）造伪类别，然后模拟增删，这个操作的有效性和泛化能力值得怀疑——它真的能模拟真实增量场景中复杂的特征分布变化吗？实验上，表格数据看着挺漂亮，AA分数确实比CEC、PAN这些方法高，但作者只挑了这几个特定的基线比较，有没有和其他更近期的、针对类增量学习的小样本方法（比如在CV领域用得比较多的）直接对比呢？另外，论文在LS-100上加了随机增减和同时增减的“更难”设置（图3），看起来是为了展示鲁棒性，但这部分实验结果图（Figure 3）在提供的文本里只有描述没有实际图和具体数值，说服力打了折扣。总的来说，论文像个精心设计的“补丁”方案，解决了现有FCAC方法的一个明显缺陷，但这个“补丁”本身是否足够优雅和强大，还有待更全面的检验。 📌 核心摘要该论文针对小样本类增量音频分类（FCAC）中普遍假设类别数量单调递增的局限性，提出了一个更通用的任务：小样本类变量增量音频分类（FCIAC），即增量会话中的类别数量可以增加或减少。为解决FCIAC问题，作者设计了一个由编码器和分类器组成的模型。编码器采用预训练的ResNet-18。分类器的核心是一个类变量原型适应网络（CPAN），它包含四个模块：类增加时激活的原型生成模块（APGM）、训练后冻结的稳定性适应模块（SAMP）、在增量会话中持续更新的可塑性适应模块（PAMP）以及一个融合模块。CPAN能够根据当前会话是类别增加还是减少，动态地生成新类原型并更新所有现有类原型。此外，为了解决增量会话中训练样本稀少的问题，作者在基础会话阶段设计了伪类变量训练策略（PCTS）。该策略通过从基础类数据中合成伪类样本，并交替执行模拟类别增加和减少的训练步骤，使模型在基础训练阶段就能预先适应未来增量会话中类别数量的动态变化。在三个音频数据集上的实验表明，所提方法在平均准确率（AA）上显著优于CEC、PAN和AFMO等现有基线方法。消融研究证实了CPAN和PCTS的有效性。统计检验（Friedman与Nemenyi）进一步证实了该方法的优越性具有统计显著性。 🔗 开源详情代码：https://github.com/cgq2971-afk/FCIAC 模型权重：论文中未提及提供预训练或训练好的模型权重。数据集：LS-100, NSynth-100, FSC-89，可从以下链接获取：https://www.modelscope.cn/profile/pp199124903 Demo：论文中未提及提供在线演示。复现材料：论文中未提及提供具体的训练配置文件、检查点或详细的复现指南。论文中引用的开源项目：论文中引用ResNet作为编码器架构，但未明确提及引用其他具体的开源项目或工具库的代码。 🏗️ 方法概述和架构本文提出的FCIAC方法框架包含一个基础会话和多个增量会话。 ...

FlashTTS: Fast Streaming TTS with MTP Acceleration and X-pred Mean Flow Distillation

📄 FlashTTS: Fast Streaming TTS with MTP Acceleration and X-pred Mean Flow Distillation #语音合成 #流式处理 7.9/10 | 创新 1.2/2 | 严谨 1.3/1.5 | 实验 1.3/1.5 | 清晰 1/1 | 影响 1.2/1.5 | 开源 0/1.5 | 复现 0.5/0.5 | 工程 1.4/1.5 ✅ 7.9/10 | 前25% | #语音合成 | #流式处理 | arxiv 👥 作者与机构 Hanke Xie, Xiaming Ren, Dake Guo, Ruonan You, Wenhao Li, Jingbin Hu, Guobin Ma, Huakang Chen, Kejie Xu, Rui Huang, Weiguo Tan, Xianrong Wang, Lei Xi Audio, Speech and Language Processing Group (ASLP@NPU), School of Software, Northwestern Polytechnical University; Huawei Technologies Co., Ltd ...

From A to B to A: Palindromic Zero-Shot Voice Conversion with Non-Parallel Data

📄 From A to B to A: Palindromic Zero-Shot Voice Conversion with Non-Parallel Data 7.3/10 | 创新 1.4/2 | 严谨 1.1/1.5 | 实验 1.3/1.5 | 清晰 1/1 | 影响 1/1.5 | 开源 0.5/1.5 | 复现 0.3/0.5 | 工程 0.7/1.5 ✅ 7.3/10 | 前50% | arxiv 👥 作者与机构作者：Moshe Mandel (独立研究者，以色列)， Shlomo E. Chazan (OriginAI, 以色列) 联系邮箱：moshe.mandel@mail.huji.ac.il, shlomi@originai.co 💡 毒舌点评这篇文章的点子挺“巧”的，把KNN-VC这个现成的“零件”拿来，通过一个“合成-真实”配对的回文训练把一个简单的检索方法升级成了一个监督学习框架。这就像你发现了一个很好的食材（KNN特征），但没有好的菜谱，于是你写了一本菜谱（回文训练），结果做出来的菜（转换效果）比直接用食材好很多，特别是“味道”（说话人相似性）更正了。这种“站在巨人肩膀上做加法”的思路是有效的，也确实提升了性能。但问题在于，这本“菜谱”的核心——那个说话人损失——是直接从别处借来的现成调料（ECAPA-TDNN），文章并没有在“调料搭配”或“火候控制”（损失函数的具体设计、权重、稳定性分析）上给出足够深入的见解。实验部分，多语言泛化的能力看起来很诱人，但只展示了WER和两个总体分数，缺乏对转换质量在不同语言上具体表现的深入分析（比如，韵律保持如何？音素混淆在哪里？）。另外，文章一边声称“无需显式建模韵律”，一边又在对比中指出别人的韵律问题，这种论证方式有点取巧。总的来说，这是一个工程上扎实、效果不错的工作，但理论深度和实验分析的细致程度离顶级会议的要求还差那么一口气。 📌 核心摘要本文提出了一种用于零样本语音转换的回文式训练框架。该方法不依赖于并行语音数据，而是利用预训练的WavLM特征，通过离线KNN检索将目标说话人音频转换为合成源音频，从而构建“合成源-真实目标”训练对。系统由WavLM编码器、基于Transformer的潜在空间转换器和HiFi-GAN声码器组成，并采用三阶段训练策略。其核心创新是在训练中引入了一个基于预训练说话人验证模型（ECAPA-TDNN）的波形级说话人损失，以直接优化转换后语音的说话人相似性。在LibriSpeech上的实验表明，该方法在说话人相似性和EER指标上优于多个近期基线，同时在内容保持（WER/CER）和主观质量（MOS/SMOS）上保持可比。此外，该模型在未进行微调的情况下，在8种非英语语言上展示了强大的跨语言泛化能力，实现了更低的WER和可比的说话人相似性。 🔗 开源详情代码：论文未提供代码仓库链接，仅提供了一个项目页面/演示页面（https://palindromic-vc.github.io）。因此，严格意义上并无可执行的开源代码。模型权重：论文中未提及模型权重链接。数据集：论文中使用了 LibriSpeech 数据集和 Multilingual LibriSpeech 数据集。具体链接或开源协议论文中未提及。 Demo：https://palindromic-vc.github.io 复现材料：论文中详细描述了三个训练阶段的流程、关键模型参数（如Transformer层数、头数、隐藏维度）和超参数（如学习率），为复现提供了理论基础。但未提供具体的配置文件、检查点或详细附录的下载链接。论文中引用的开源项目： WavLM: 论文中未提及链接，仅标注了引用 [chen2022wavlm]。 HiFi-GAN vocoder: 论文中未提及链接，仅标注了引用 [kong2020hifi]。 ECAPA-TDNN speaker verification model: 论文中未提及链接，仅标注了引用 [desplanques2020ecapa]。 RedimNet Speaker Verifier: 论文中未提及链接，仅标注了引用 [yakovlev24_redimnet]。 Whisper-Large-V3: 论文中未提及链接，仅标注了引用 [radford2022whisper]。作者与机构作者：Moshe Mandel (独立研究者，以色列)， Shlomo E. Chazan (OriginAI, 以色列) 联系邮箱：moshe.mandel@mail.huji.ac.il, shlomi@originai.co 毒舌点评这篇文章的点子挺“巧”的，把KNN-VC这个现成的“零件”拿来，通过一个“合成-真实”配对的回文训练把一个简单的检索方法升级成了一个监督学习框架。这就像你发现了一个很好的食材（KNN特征），但没有好的菜谱，于是你写了一本菜谱（回文训练），结果做出来的菜（转换效果）比直接用食材好很多，特别是“味道”（说话人相似性）更正了。这种“站在巨人肩膀上做加法”的思路是有效的，也确实提升了性能。但问题在于，这本“菜谱”的核心——那个说话人损失——是直接从别处借来的现成调料（ECAPA-TDNN），文章并没有在“调料搭配”或“火候控制”（损失函数的具体设计、权重、稳定性分析）上给出足够深入的见解。实验部分，多语言泛化的能力看起来很诱人，但只展示了WER和两个总体分数，缺乏对转换质量在不同语言上具体表现的深入分析（比如，韵律保持如何？音素混淆在哪里？）。另外，文章一边声称“无需显式建模韵律”，一边又在对比中指出别人的韵律问题，这种论证方式有点取巧。总的来说，这是一个工程上扎实、效果不错的工作，但理论深度和实验分析的细致程度离顶级会议的要求还差那么一口气。 ...