论文速递 | 语音/音乐/音频论文速递

Learning task-specific subspaces via interventional post-training of speech foundation models

📄 Learning task-specific subspaces via interventional post-training of speech foundation models #自监督学习 #对比学习 #数据增强 #参数高效微调 6.2/10 | 创新 1.5/2 | 严谨 1/1.5 | 实验 1/1.5 | 清晰 1/1 | 影响 0.7/1.5 | 开源 0.2/1.5 | 复现 0.5/0.5 | 工程 0.3/1.5 ✅ 6.2/10 | 前50% | #自监督学习 | #自监督学习 | #对比学习 #数据增强 | arxiv 👥 作者与机构作者：Jack Cox (通讯作者), Jon Barker 机构：University of Sheffield, United Kingdom (英国谢菲尔德大学) 💡 毒舌点评这篇工作就像一个巧妙的玩具：想法（用TTS做可控干预数据来分离表示）很有趣，但玩具本身太小（32个训练说话人，合成数据），玩出来的结果（内容子空间性能下降）也未能完全证明其价值。论文像一篇扎实的课程项目报告，而非一篇能说服顶会审稿人的研究。最大的“惊喜”是内容子空间在关键任务上性能不升反降，这直接挑战了“联合学习能更好分离”的初衷。作者将此归因于预训练目标与下游任务不匹配，但这恰恰暴露了该方法的核心局限：它依赖于一个完美的、与任务无关的干预数据集，而这在现实中很难获得。总体而言，创新点值得鼓励，但实验的规模和深度严重不足，结论的普适性存疑。 📌 核心摘要本文针对语音基础模型表示信息纠缠的问题，提出了一种基于因果干预思想的后训练方法。核心是使用一个通过零样本TTS（F5-TTS）合成的、可密集控制内容和说话人变量的数据集，并设计一个多部分对比损失（干预对比学习）来联合学习两个正交子空间：内容子空间和说话人子空间。实验在wav2vec 2.0, HuBERT, WavLM三个骨干上进行，评估任务包括VoxCeleb1上的域外说话人验证和Speech Commands上的关键词识别。结果显示，所学说话人子空间能显著提升域外说话人验证性能，证明其有效分离了说话人信息；然而，内容子空间在关键词识别任务上性能下降，表明其未能有效保留或增强任务所需的内容信息。联合学习两个子空间相比单独学习未显示出明显优势。 ...

MLLP-VRAIN UPV system for the IWSLT 2026 Simultaneous Speech Translation task

📄 MLLP-VRAIN UPV system for the IWSLT 2026 Simultaneous Speech Translation task #语音识别 #大语言模型 6.9/10 | 创新 1/2 | 严谨 1.2/1.5 | 实验 1.3/1.5 | 清晰 1/1 | 影响 0.6/1.5 | 开源 0.4/1.5 | 复现 0.4/0.5 | 工程 1/1.5 ✅ 6.9/10 | 前50% | #语音识别 | #大语言模型 | arxiv 👥 作者与机构作者：Jorge Iranzo-Sánchez， Gerard Mas-Mollà， Adrià Giménez， Jorge Civera， Albert Sanchis， Alfons Juan 机构：Machine Learning and Language Processing, VRAIN, Universitat Politècnica de València ...

MVEB: Massive Video Embedding Benchmark

📄 MVEB: Massive Video Embedding Benchmark #基准测试 6.5/10 | 创新 1.5/2 | 严谨 1.3/1.5 | 实验 1/1.5 | 清晰 1/1 | 影响 0.5/1.5 | 开源 0/1.5 | 复现 0.5/0.5 | 工程 0.7/1.5 ✅ 6.5/10 | 前50% | #基准测试 | #基准测试 | arxiv 👥 作者与机构 Adnan El Assadi (哈佛大学), Roman Solomatin (SaluteDevices, MIRAI), Isaac Chung (Zendesk), Chenghao Xiao (上海财经大学), Deep Shah (Google LLC), Manan Dey (Salesforce), Shriya Sudhakar (康奈尔大学), Zacharie Bugaud (Astera Institute), Wissam Siblini (独立贡献者), Ayush Sunil Munot (印度理工学院克勒格布尔分校), Yashwanth Devavarapu (巴克莱银行), Rakshitha Ireddi (巴克莱银行), Michelle Yang (独立贡献者), Márton Kardos (奥胡斯大学), Niklas Muennighoff (斯坦福大学), Kenneth Enevoldsen (奥胡斯大学)。 ...

Next-Turn: Duration-Aware Streaming Endpoint Detection via Time-to-Next-Speech-Onset Prediction

📄 Next-Turn: Duration-Aware Streaming Endpoint Detection via Time-to-Next-Speech-Onset Prediction #语音合成 #语音识别 #流式处理 #多任务学习 #自监督学习 #参数高效微调 #实时处理 7.9/10 | 创新 1.5/2 | 严谨 1.2/1.5 | 实验 1.2/1.5 | 清晰 1/1 | 影响 1.2/1.5 | 开源 0/1.5 | 复现 0.5/0.5 | 工程 1.3/1.5 ✅ 7.9/10 | 前50% | #语音合成 | #多任务学习 | #语音识别 #流式处理 | arxiv 👥 作者与机构 Tristan Tsoi, Jiajun Deng, Yingke Zhu, Huu Quyen Dang, Tianxiang Cao, Nikita Kuzmin, Tao Zhong, Simon Lui 华为中央媒体技术学院, 香港中文大学, 南洋理工大学 ...

Non-Autoregressive Minimum Bayes' Risk Decoding for Fast Speech Recognition

📄 Non-Autoregressive Minimum Bayes' Risk Decoding for Fast Speech Recognition 7.6/10 | 创新 1.3/2 | 严谨 1.1/1.5 | 实验 1.2/1.5 | 清晰 1/1 | 影响 0.9/1.5 | 开源 0.6/1.5 | 复现 0.5/0.5 | 工程 1/1.5 ✅ 7.6/10 | 前25% | arxiv 👥 作者与机构作者：Hiroyuki Deguchi, Takatomo Kano, Katsuki Chousa, Marc Delcroix 机构：NTT, Inc., Japan 💡 毒舌点评本文提出了一种将MBR解码与非自回归模型高效采样能力相结合的框架，想法直接且实验验证看似充分。然而，核心创新略显单薄，本质上是将已知的MBR解码范式应用到已知的NAR模型高效采样特性上，缺乏对框架内部机制更深刻的理论分析或新颖的架构设计。实验验证虽然跨多个数据集，但关键对比（如与更多AR解码策略、不同NAR基线的对比）不足，且高度依赖一个未公开的Web语料库来展示其“速度优势”，这在一定程度上削弱了结果的说服力。论文声称“无需额外训练”，但这是以不改进模型本身为前提的，属于方法层面的“免费午餐”，其价值上限受限于基础NAR模型的输出概率质量。内存开销问题被轻描淡写为“未来工作”，实则是实际部署的重大障碍。整体而言，这是一项扎实的工程改进，但距离一篇具有强大理论贡献或变革性影响的顶会论文尚有距离。 📌 核心摘要本文针对非自回归（NAR）语音识别解码因独立性假设导致的性能退化问题，提出NAR-MBR解码框架。该方法的核心在于巧妙利用NAR模型（如Mask-CTC）的架构特性：其编码器在单次前向计算中即产生上下文独立的token概率分布，使得并行采样多个候选路径的计算成本几乎为零。基于此，NAR-MBR从模型输出分布中高效采样一组候选序列，将其同时作为MBR解码的假设集和伪参考集。随后，以最大化基于负WER的期望效用为目标，从候选集中选择最优序列。整个解码过程无需对模型进行任何额外训练。在LibriSpeech、Switchboard、AMI及内部Web语料库上的实验表明，NAR-MBR解码（尤其在Niter=1时）显著且一致地提升了NAR解码的准确率，并在保持高速的同时达到了与自回归波束搜索相当的WER。 🔗 开源详情代码：论文中未提供指向本研究代码（如NAR-MBR解码实现）的具体GitHub仓库链接。仅引用并使用了开源库mbrs [34]。模型权重：论文中未提及模型权重的下载链接。数据集：论文使用了以下数据集： LibriSpeech: 标准公开数据集，论文中未提供直接链接。 Switchboard: 标准公开数据集，论文中未提供直接链接。 AMI: 标准公开数据集，论文中未提供直接链接。 Web presentation corpus: 这是作者团队自建的数据集（346小时训练数据，3.7小时开发/测试集），论文中未提供获取链接。 Demo：论文中未提及在线演示链接。复现材料：论文中未提及提供训练配置、检查点文件或详细复现指南的附录/补充材料链接。论文中引用的开源项目： ESPNet（参考文献[29]）：端到端语音处理工具包，论文未提供直接链接，通常可从 https://github.com/espnet/espnet 获取。 mbrs（参考文献[34]）：用于最小贝叶斯风险解码的库，论文提供了链接：https://aclanthology.org/2024.emnlp-demo.30/。作者与机构作者：Hiroyuki Deguchi, Takatomo Kano, Katsuki Chousa, Marc Delcroix 机构：NTT, Inc., Japan ...

OlfactProfile: Profile-Conditioned Odor Prediction from Audiovisual Content

📄 OlfactProfile: Profile-Conditioned Odor Prediction from Audiovisual Content #多模态模型 #数据集 5.6/10 | 创新 1.4/2 | 严谨 1/1.5 | 实验 0.9/1.5 | 清晰 1/1 | 影响 0.5/1.5 | 开源 0.1/1.5 | 复现 0.3/0.5 | 工程 0.4/1.5 📝 5.6/10 | 前50% | #多模态模型 | #数据集 | arxiv 👥 作者与机构 Zhengyu Lou (东华大学)，Bosheng Qin (浙江大学)，Yanan Wang (东华大学)，Duanduan Yin (东华大学)，Wentao Ye (浙江大学)，Xin Yu (东华大学) 💡 毒舌点评这篇嗅觉预测的论文想法有趣，但作为一篇NeurIPS/ICML/ICLR级别的投稿，其“硬伤”不少。最大的槽点在于数据集：号称“首个”配对档案的视听嗅觉数据集，但仅1,350个视频片段，每个片段仅一个标注者，这数据规模在深度学习时代显得“寒酸”。这直接导致所有实验结果的统计显著性和泛化能力存疑，堪称“在沙子上盖高楼”。其次，核心方法OAR模块设计复杂，公式一到十堆砌了大量MLP和调制，但缺乏对模块复杂度必要性的深入讨论和可视化分析，让人怀疑是不是“过度设计”。与MLLM的比较（表4）也显得“取巧”，未说明基线模型的具体推理设置，且“无档案”设置下，DeepSeek-V3.2和GPT-5.1的排名比GPT-4.1还高，这与直觉相悖，可能提示提示策略或评估的偶然性。最后，下游应用场景（VR影院、广告）的用户研究样本量小（12人），且未提供详细的统计检验，说服力有限。总体而言，论文提出了一个有价值的问题，但受限于数据规模和实验深度，其宣称的“结构性增益”更像是一个在小数据集上的有趣现象，而非普适性结论。 📌 核心摘要本文提出了“档案条件化气味预测”这一新问题，旨在解决现有气味预测方法忽视个体嗅觉偏好（如敏感度、耐受性）的局限。为支持该问题，作者构建了首个配备注释者嗅觉档案的视听嗅觉数据集VOD（1,350个视频，99类气味，3个语义轨道：前景、背景、情感气味）。核心方法OlfactProfile包含两个关键组件：OAR（嗅觉感知路由）模块和Scent Skill Library (SSL)。OAR通过轨道感知视听路由和字段级档案调制，使不同档案维度（如敏感度、耐受性）能通过不同路径影响气味推理。SSL提供结构化气味先验知识。实验在受控条件下表明，简单的档案信息拼接或统一调制反而会降低性能，而结构化的字段级条件化能带来一致提升，且增益在依赖环境解读和情感关联的背景/情感气味轨道上最为显著。模型在人类对比中接近专家水平，并在下游嗅觉增强应用中提升了用户感知的适配度。 🔗 开源详情代码：论文中未提及代码开源。模型权重：论文中未提及模型权重开源。数据集：论文声称构建了VOD数据集，但未提供任何公开下载链接或开源协议。 Demo：论文中未提及。复现材料：论文提及补充材料提供实现细节，但未提供具体的配置文件、数据预处理脚本或可直接运行的资源。论文中引用的开源项目： HuBERT：引用了公开代码库。 OlfacKit：提及使用了开源气味释放硬件，但未提供具体链接。 🏗️ 方法概述和架构 OlfactProfile是一个结构化的多模态框架，旨在根据视听内容和用户的嗅觉偏好档案预测三个语义气味轨道（前景、背景、情感气味）。其核心思想是：1) 不同气味轨道对视听证据的依赖方式不同；2) 档案信息应作为结构化的条件信号，而非一个扁平的辅助向量。框架主要由OAR（Olfactory-Aware Routing）模块和SSL（Scent Skill Library）库构成。 ...

One-Step Token-to-Waveform Generation with MeanFlow in Latent Space

📄 One-Step Token-to-Waveform Generation with MeanFlow in Latent Space #语音合成 #生成模型 #自回归模型 #流匹配 #扩散模型 #Transformer 9.3/10 | 创新 1.4/2 | 严谨 1.2/1.5 | 实验 1.1/1.5 | 清晰 1/1 | 影响 1.2/1.5 | 开源 1.5/1.5 | 复现 0.5/0.5 | 工程 1.4/1.5 🔥 9.3/10 | 前10% | #语音合成 | #Transformer | #生成模型 #自回归模型 | arxiv 👥 作者与机构作者：Zheqi Dai, Guangyan Zhang, Zhen Ye, Jingyu Li, Haolin He, Chunyat Wu, Yiwen Guo, Qiuqiang Kong 机构：1 The Chinese University of Hong Kong, Hong Kong SAR, China; 2 LIGHTSPEED, Tencent, Hong Kong SAR, China; 3 The Hong Kong University of Science and Technology, Hong Kong SAR, China; 4 Independent Researcher ...

Perceptual compensation for tonal context in self-supervised speech models

📄 Perceptual compensation for tonal context in self-supervised speech models #自监督学习 #迁移学习 7.7/10 | 创新 1.5/2 | 严谨 1.2/1.5 | 实验 1/1.5 | 清晰 1/1 | 影响 0.8/1.5 | 开源 1/1.5 | 复现 0.5/0.5 | 工程 0.7/1.5 ✅ 7.7/10 | 前50% | #语音识别 | #自监督学习 | #迁移学习 | arxiv 👥 作者与机构论文标题: Perceptual compensation for tonal context in self-supervised speech models 论文作者: James Kirby, Ioana Krehan, Michele Gubian 论文机构: Institute for Phonetics and Speech Processing, LMU Munich, Germany arXiv ID: 2606.17835 ...

PhASE-Flow: Phonetic-Conditioned Acoustic Flow Matching in SSL Representation Domain for Speech Enhancement

📄 PhASE-Flow: Phonetic-Conditioned Acoustic Flow Matching in SSL Representation Domain for Speech Enhancement #语音增强 #流匹配 #自监督学习 #生成模型 7.6/10 | 创新 1.7/2 | 严谨 1.4/1.5 | 实验 0.7/1.5 | 清晰 0.9/1 | 影响 0.9/1.5 | 开源 0.4/1.5 | 复现 0.5/0.5 | 工程 1.1/1.5 ✅ 7.6/10 | 前25% | #语音增强 | #自监督学习 | #流匹配 #生成模型 | arxiv 👥 作者与机构 Jun Gao, Xiaobin Rong, Yu Sun, Dahan Wang, Jing Lu 单位：南京大学现代声学研究所；南京大学-地平线智能音频实验室；三星电子（中国）研发中心 💡 毒舌点评这篇论文把语音增强的战场从大家熟悉的梅尔图谱和STFT直接搬到了WavLM的内部表征空间里，想法挺有意思，有点“跳出三界外”的感觉。消融实验做得比较扎实，把各种空间（梅尔、STFT、SSL声学、SSL音素）都比了一遍，结论也比较清晰。但问题也很明显：第一，论文对方法本身“可能”的局限性避而不谈，这不是一个成熟作者该有的态度；第二，效率优势（4步采样）喊得很响，但具体快多少、实时性能否达标，一个数据都没给，属于“口说无凭”；第三，在最具挑战性的混响场景下，虽然比同行好点，但SpkSim和dWER的断崖式下跌说明生成式模型“幻觉”的通病它也没治好。总的来说，技术路线有新意，实验设计合理，但自我批判的深度不足，工程落地的证据链也不完整。给个8分左右的分数，属于能发出来但离让人拍案叫绝还差口气的论文。 ...

Reading between the Lines: Leveraging Large Language Models for Global Dementia and Depression Assessment from Clinical Interviews

📄 Reading between the Lines: Leveraging Large Language Models for Global Dementia and Depression Assessment from Clinical Interviews #语音情感识别 6.8/10 | 创新 1.5/2 | 严谨 1/1.5 | 实验 0.7/1.5 | 清晰 1/1 | 影响 0.5/1.5 | 开源 0.8/1.5 | 复现 0.5/0.5 | 工程 0.8/1.5 ✅ 6.8/10 | 前50% | #语音情感识别 | #语音情感识别 | arxiv 👥 作者与机构作者：Franziska Braun, Alea Rüggeberg, Thomas Ranzenberger, Hartmut Lehfeld, Thomas Hillemacher, Tobias Bocklet, Korbinian Riedhammer。机构：1TH Nürnberg, 2FAU Erlangen, 3PMU Klinikum Nürnberg, Germany。 ...