论文速递 | 语音/音乐/音频论文速递

Improving multichannel speech enhancement through accurate room-acoustic simulations

📄 Improving multichannel speech enhancement through accurate room-acoustic simulations #语音增强 #数据增强 #多通道 #语音识别 6.8/10 | 创新 1.2/2 | 严谨 1.2/1.5 | 实验 1/1.5 | 清晰 1/1 | 影响 0.8/1.5 | 开源 0.2/1.5 | 复现 0.4/0.5 | 工程 1/1.5 ✅ 6.8/10 | 前50% | #语音增强 | #数据增强 | #多通道 #语音识别 | arxiv 👥 作者与机构 Georg Götz, Alessia Milo, Steinar Guðjónsson, Daniel Gert Nielsen, Jesper Pedersen, Finnur Pind Treble Technologies, Reykjavík, Iceland 邮箱: georg.goetz@treble.tech, am@treble.tech, sg@treble.tech, dgn@treble.tech, jp@treble.tech, fp@treble.tech ...

Is Natural Always Appropriate? Investigating Naturalness and Appropriateness Across Different Domains for TTS Evaluation

📄 Is Natural Always Appropriate? Investigating Naturalness and Appropriateness Across Different Domains for TTS Evaluation #语音合成 #模型评估 7.2/10 | 创新 1.5/2 | 严谨 1.2/1.5 | 实验 0.8/1.5 | 清晰 1/1 | 影响 0.8/1.5 | 开源 0.7/1.5 | 复现 0.5/0.5 | 工程 0.7/1.5 ✅ 7.2/10 | 前25% | #语音合成 | #模型评估 | arxiv 👥 作者与机构 Dominika Woszczyk (Iconic, United Kingdom) Andreas Triantafyllopoulos (Technische Universität München, Germany) Jura Miniota (KTH Royal Institute of Technology, Sweden) Éva Székely (KTH Royal Institute of Technology, Sweden) Bjoern Schuller (Imperial College London, United Kingdom) ...

Linguistic Bias Mitigation for Spoofing Detection via Gradient Reversal and A Variational Information Bottleneck

📄 Linguistic Bias Mitigation for Spoofing Detection via Gradient Reversal and A Variational Information Bottleneck #自监督学习 #数据增强 8.6/10 | 创新 1.5/2 | 严谨 1.3/1.5 | 实验 1.5/1.5 | 清晰 1/1 | 影响 1.3/1.5 | 开源 0.5/1.5 | 复现 0.5/0.5 | 工程 1/1.5 🔥 8.6/10 | 前25% | #自监督学习 | #自监督学习 | #数据增强 | arxiv 👥 作者与机构作者：Anh-Tuan Dao, Driss Matrouf, Mickael Rouvier, Nicholas Evans。机构：Laboratoire Informatique d’Avignon, Avignon Universite, France；EURECOM, Sophia Antipolis, France。邮箱：{anh-tuan.dao, driss.matrouf, mickael.rouvier}@univ-avignon.fr, evans@eurecom.fr。 ...

Listening Between the Lines: Joint Learning of ASR Embeddings and LLM-Augmented Linguistics for Dementia Detection

📄 Listening Between the Lines: Joint Learning of ASR Embeddings and LLM-Augmented Linguistics for Dementia Detection #数据增强 #自监督学习 #多模态模型 7/10 | 创新 1.3/2 | 严谨 1.1/1.5 | 实验 1.3/1.5 | 清晰 1/1 | 影响 0.7/1.5 | 开源 0.8/1.5 | 复现 0.5/0.5 | 工程 0.3/1.5 ✅ 7/10 | 前50% | #数据增强 | #数据增强 | #自监督学习 #多模态模型 | arxiv 👥 作者与机构 Jung, Park, Oh（Jiyoun Jung, Jonghyeon Park, Myungwoo Oh）。机构：1 Division of Communication and Media, Ewha Womans University, South Korea; 2 NAVER Cloud, South Korea。邮箱：olivierjiyounjung@gmail.com, jong-hyeon.park@navercorp.com, myungwoo.oh@navercorp.com。 ...

LOPA: Enhancing Spoken Language Assessment via Latent Ordinal Prototype Alignment

📄 LOPA: Enhancing Spoken Language Assessment via Latent Ordinal Prototype Alignment #低资源 6.2/10 | 创新 1.4/2 | 严谨 1.1/1.5 | 实验 0.8/1.5 | 清晰 0.9/1 | 影响 0.6/1.5 | 开源 0.2/1.5 | 复现 0.5/0.5 | 工程 0.7/1.5 ✅ 6.2/10 | 前50% | #低资源 | #低资源 | arxiv 👥 作者与机构论文作者来自台湾师范大学（National Taiwan Normal University）。 💡 毒舌点评优点：问题定位精准：直击当前SLA领域依赖大型MLLM导致的成本与可解释性问题，提出了一个轻量级的替代范式。方法设计具有可解释性：SALR的层权重可视化（Table 4）清晰展示了模型在不同测试部分对不同深度特征的依赖，LOPA的序数约束为潜在空间提供了几何解释，这是纯端到端黑盒模型所缺乏的。实验设计严谨：进行了全面的消融实验（Table 2）和显著性检验（Table 3），验证了SALR和LOPA各自的有效性。性能扎实：在标准基准S&I 2025上取得了与SOTA MLLM方法相当的结果，证明了轻量级框架的潜力。不足与可商榷之处：创新性有局限：LOPA将原型学习和序数约束结合并非全新思想，论文的主要贡献在于将其成功应用于SLA任务并展示了与SALR的协同效应。技术新颖性属于增量改进而非突破。实验泛化性存疑：所有实验仅在一个数据集（S&I 2025）上进行，且该数据集可能与作者机构相关（论文提及由台湾语言训练测试中心支持）。缺乏在更多样化、更大规模或跨语言数据集上的验证，结论的普适性不足。基线比较可能不够公平：虽然与Phi-4 MLLM系列比较，但未详细说明这些MLLM的训练配置（如是否使用了语音转录文本、指令格式等）。将本文的纯音频模型与可能融合了文本信息的MLLM对比，需要更谨慎的分析。对“序数结构”的利用可能被高估：LOPA通过损失函数强制原型间距与分数间距成比例，这确实引导了潜在空间的几何结构，但模型最终输出仍通过一个线性头映射为分数，其序数性是否完全由LOPA“内化”为表示，还是仅作为正则化项存在，值得进一步分析。开源严重不足：完全未提供代码、模型权重或数据集，极大阻碍了研究的可复现性和社区的跟进验证，这是当前版本的一个重大缺陷。 📌 核心摘要本文提出LOPA，一个用于口语语言评估（SLA）的轻量级框架，旨在避免对大型多模态语言模型（MLLM）的依赖。该框架包含两个核心组件：语义锚定层路由（SALR）从冻结的Whisper编码器中自适应聚合多层特征；潜在序数原型对齐（LOPA）通过原型损失和序数约束损失，在潜在空间中显式构建与CEFR等级对齐的序数几何结构。在Speak & Improve 2025评估集上，该模型（仅使用Whisper Large-v3编码器）达到了0.361的RMSE和0.828的PCC，性能与经过微调的十亿参数MLLM系统（如Phi-4-MTL-APP）相当，同时具备更高的效率和可解释性。 ...

LuxEmo: Expressive Text-to-Speech Corpus for Luxembourgish

📄 LuxEmo: Expressive Text-to-Speech Corpus for Luxembourgish #语音合成 #语音识别 #自监督学习 #低资源 #基准测试 7.5/10 | 创新 1.3/2 | 严谨 1.2/1.5 | 实验 1.1/1.5 | 清晰 1/1 | 影响 0.7/1.5 | 开源 0.5/1.5 | 复现 0.5/0.5 | 工程 1.2/1.5 ✅ 7.5/10 | 前25% | #语音合成 | #自监督学习 | #语音识别 #低资源 | arxiv 👥 作者与机构 Nina Hosseini-Kivanani Sandipana Dowerah 💡 毒舌点评这篇论文好在选题切中要害——低资源语言+表达性语音+真实场景数据，确实是块缺肉的骨头。LuxEmo语料库的构建和公开（附带采样链接）是实打实的贡献，工作流描述也算清楚。但“严苛审稿人”视角下，槽点不少：语料库就4位主播，还来自同一个青年节目，说能代表“卢森堡语”有点勉强，作者自己也承认了，但评审意见应更尖锐地指出这直接限制了论文声称的“系统性评估”的普适性上限。情绪分布那“0.5%的愤怒”简直是个事故级数据倾斜，论文仅在结论提一句，审稿人应该追问这如何影响了模型训练与评估的有效性，以及基准测试结论在多大程度上是“可泛化的”。评估方面，20人主观听测且无显著性检验，置信区间大幅重叠，这个“基准”的排名可靠性打个大问号。论文反复强调代码混合是挑战，但分析部分却没拿出任何细粒度的分析（比如混合段vs纯语种段的WER对比），这属于典型的“提了但没分析”，深度不足。另外，像情绪检测分类器的训练数据、置信度阈值选取这些影响复现的关键细节一笔带过，不够“严谨”。总的来说，是一篇合格的资源发布和基准测试论文，但离顶会要求的深度分析和严谨论证还有距离，其影响力主要局限在资源本身，而非方法论或深刻洞察。 📌 核心摘要本文介绍了LuxEmo，一个用于卢森堡语的表达性语音语料库和TTS基准测试集。该语料库包含从RTL青年广播档案中通过半自动工作流提取的21小时自发语音，标注了语言、说话人身份和四种情绪（中性、快乐、悲伤、愤怒）。作者在LuxEmo上评估了五种TTS系统，涵盖跨语言迁移、多语言支持和卢森堡语适配等方案。主要发现包括：没有单一TTS系统在所有评估维度（音频质量、可懂度、韵律、说话人相似度、情感自然度）上最优；目标语言适配在部分指标上有效但非全面；基于ASR的客观可懂度与人类主观感知的自然度、情感表现存在差异。论文同时指出了语料库在说话人覆盖、情绪分布均衡性以及评估统计显著性方面的局限性。 🔗 开源详情代码：论文中未提供代码链接。模型权重：论文中未提供模型权重链接。数据集：LuxEmo语料库。论文中未提供公开获取链接，但提供了语料库采样链接：https://anonymous.4open.science/r/LuxEmo_Sample-445F/。 Demo：论文中未提及。复现材料：论文中未提供完整的训练配置、检查点或附录，但提及了数据划分使用的固定随机种子为42。论文中引用的开源项目：论文中提及了以下项目，但未提供具体链接。 DeepFilterNet [32] NISQA v2.0 [24] DNSMOS [30] LuxASR [9, 26, 35] Wav2Vec2-based mms-lid-4017 model [27] Whisper [28] SpeechBrain ECAPA-TDNN [29] pYIN [21] Sequitur G2P (用于LuxEmo): https://github.com/PeterGilles/sequitur-g2p German gruut (用于EmoDB比较): https://github.com/sequitur-g2p/sequitur-g2p 🏗️ 方法概述和架构本文的方法可分为两大核心部分：LuxEmo语料库构建和TTS基准测试评估。 ...

MuseBench: Benchmarking Intent-Level Audiovisual Arts Understanding in MLLMs

📄 MuseBench: Benchmarking Intent-Level Audiovisual Arts Understanding in MLLMs #多模态模型 7.9/10 | 创新 1.5/2 | 严谨 1.3/1.5 | 实验 1.4/1.5 | 清晰 1/1 | 影响 0.7/1.5 | 开源 0.3/1.5 | 复现 0.5/0.5 | 工程 1.2/1.5 ✅ 7.9/10 | 前50% | #语音合成 | #多模态模型 | arxiv 👥 作者与机构作者：Yuxuan Fan, Gyusik Seo, Jing Hao, Jaemin Cho, Mohit Bansal, Jaehong Yoon 机构：南洋理工大学（NTU Singapore），香港大学，约翰霍普金斯大学，艾伦人工智能研究所（AI2），北卡罗来纳大学教堂山分校 💡 毒舌点评这篇论文的工作量扎实，构建了一个瞄准“艺术意图”理解的评估基准，方向不错，算是给当前主要关注事实性描述的视频理解评估补充了一个维度。但问题也很明显：首先，作为一篇评测论文，其“创新”更多是组合式的（视频论文+混合题型+评估指标），并非有突破性的方法洞察；其次，评估对象（MLLMs）的表现本身就在预期之中——差得远呢，这暴露的是整个领域在常识和文化先验上的短板，而非这篇基准独有的发现。论文花费大量篇幅描述构建流程，技术含量更多体现在流程设计的严谨性上，而非模型或算法。最大的硬伤是“开源”的模糊性，声称为社区做贡献，却不给代码和数据链接，这在如今顶会的评审环境下是重大扣分项。对于语音/音乐领域的读者来说，本文除了“评测”这个方法论思路外，具体贡献离我们的核心关切有点远。 📌 核心摘要本文介绍了MuseBench，一个旨在评估多模态大语言模型（MLLMs）对视听艺术进行意图层面理解的新型基准。与现有主要评估感知识别的基准不同，MuseBench专注于测试模型是否理解创作选择背后的原因（如为什么使用某种镜头或构图）。该基准包含4，016个经专家验证的问题，覆盖电影、静态视觉艺术、舞台表演和游戏艺术四大类共11个子领域。问题从超过10，000个候选视频论文中提炼，通过一个四阶段流水线（片段分割、描述、问题生成、干扰项生成）构建，并采用迭代式人工审核保证质量。问题格式结合了单选和多选，选项数在4到8个之间变化。评估协议为单选题引入机会校正准确率（CAA），为多选题引入基于集合的F1值。对28个SOTA MLLMs的零样本评估表明，最强模型仅达48.29%准确率，远低于人类专家的87.18%，且模型在游戏艺术类别和多选题全面性上表现尤差。自适应关键帧选择提升有限，瓶颈在于艺术词汇和文化先验，而非时序定位。 🔗 开源详情代码：论文中未提及具体的代码仓库链接。虽然文中提到“未来将发布MuseBench代码”，但当前未提供可访问的GitHub等链接。模型权重：论文中未提及。本文为基准测试论文，未提出或发布新的模型权重。数据集：MuseBench 数据集。论文中声明将公开发布此基准测试集，但未提供具体的下载链接或托管平台地址（如HuggingFace/ModelScope链接）。 Demo：https://musebench.github.io （项目主页）。复现材料：论文中未提及。本文为评估基准论文，未提供训练配置、检查点等复现其评估流程所需的材料。论文中引用的开源项目： Whisper-Large-v3：用于视频转录。链接：https://github.com/openai/whisper GPT-5.4-mini（OpenAI模型）：用于视频相关性过滤和数据生成。论文中未提供具体链接，此为根据模型名称推断的官方地址。 Keye-VL-1.5：用于视频片段描述生成。论文中未提供具体链接。其他在评估中使用的开源模型（论文未提供这些模型的链接，仅在基准测试结果表格中提及）：包括Qwen3.5-397B-A17B、Qwen2.5-Omni-7B、InternVL3-8B/78B、LLaVA-OneVision-7B、MiniCPM-o、Gemma-4-E4B、VideoLLaMA2、VideoLLaMA3、Video-R1、LongVU、VideoRFT、VideoChat-R1、VideoChat2、Video-XL-2、AKS、Q-Frame、LongVT、Video-CCAM、TimeChat。 🏗️ 方法概述和架构 MuseBench的构建是一个系统性的、面向专家知识的工程过程，其架构可分解为四个核心部分：数据源与预处理、四阶段构建流水线、质量审核循环、评估协议。 ...

Preserving Speech-to-Text LLM Capabilities in Speech-to-Speech Generation

📄 Preserving Speech-to-Text LLM Capabilities in Speech-to-Speech Generation #语音识别 #语音翻译 7/10 | 创新 1.3/2 | 严谨 1.1/1.5 | 实验 1.3/1.5 | 清晰 1/1 | 影响 1/1.5 | 开源 0/1.5 | 复现 0.5/0.5 | 工程 0.8/1.5 ✅ 7/10 | 前50% | #语音识别 | #语音翻译 | arxiv 👥 作者与机构 Yuxuan Hu, Heng Lu, Ruchao Fan, Yao Qian, Xiaofei Wang, Jian Xue, Heming Wang, Shuohang Wang, Young Jin Kim, Yelong Shen, Jinyu Li。具体机构未在提供文本中明确说明。 💡 毒舌点评这篇论文试图解决一个实际且重要的问题：如何把已经很强的语音理解大模型（S2T LLM）无缝升级成能听能说的全能选手（S2S），而不毁掉它原本的本事。思路很直接：别动那个昂贵又聪明的“大脑”（冻结的主干），只给它接一个训练好的“嘴巴”（音频后解码器）。方法上，用中间层隐藏状态做同步、搞多令牌预测提速、训练时打包数据模拟多轮对话，都算得上工程上的小聪明。实验做得很全，从翻译到问答到对话，还自己搞了个多轮测试集，诚意可嘉。但问题在于，那个“嘴巴”跟“大脑”的连接方式（隐藏状态同步）到底有多优雅？消融实验里有些结论（比如MTP主要提效不影响质量）在某些指标上略有起伏，得仔细看数据。最大的槽点是，作为一个强调“可复现”和“开源精神”的领域，论文除了引了几个开源工具，核心代码、模型、数据链接一概不给，这让复现成了空中楼阁。总分7.2，算是中规中矩的技术应用论文，有贡献但离开创性还有距离。 ...

Probing-Guided Layer Selection from Self-Supervised Speech Models for Generalizable Audio Deepfake Detection

📄 Probing-Guided Layer Selection from Self-Supervised Speech Models for Generalizable Audio Deepfake Detection #集成学习 #自监督学习 7.5/10 | 创新 1.6/2 | 严谨 1.3/1.5 | 实验 1.3/1.5 | 清晰 0.9/1 | 影响 0.6/1.5 | 开源 0.5/1.5 | 复现 0.5/0.5 | 工程 0.8/1.5 ✅ 7.5/10 | 前25% | #集成学习 | #集成学习 | #自监督学习 | arxiv 👥 作者与机构 Marjan Beheshti, Majid Rostami, Bo Chen，密歇根理工大学（Michigan Technological University）计算机科学系 💡 毒舌点评这篇论文的工作相当扎实，动机清晰，解决的是一个实际且重要的问题。两阶段方法的设计思路是好的，用轻量探针给沉重的SSL模型“做体检”来选层，比训练完再回头看要高效。实验做得很足，不仅在一个骨干上试，还扩展到WavLM和XLSR-53，消融实验也设计得挺全面，特别是那个“最差情况”配置，把早期和晚期层组合起来性能崩盘，直接证明了“深度区域”理论的正确性。不过，最大的槽点在于“探针评估”和“最终评估”用了部分相同的测试集（比如In-The-Wild）。作者在第6节的讨论中试图辩解，说探针和神经网络分类器没有共享参数，但选择过程本身已经利用了这些数据上的性能反馈，这存在微妙的数据泄露风险，审稿人在这里会揪住不放。另外，选择K=4层看起来更像是一种基于观察的“手艺”而非自动化流程，论文对“如何自动确定K”的讨论不足。最后，面对ASVspoof5 Eval的对抗样本，性能掉得比较厉害（11% EER），这暴露了基于固定特征选择的框架在动态对抗环境下的脆弱性，论文对此的讨论略显不足。总的来说，方法有效且有洞察力，但在实验的严谨性和结论的普适性上还有提升空间。 📌 核心摘要本文针对音频深度伪造检测中跨域泛化能力差的问题，提出了一种模型无关的两阶段框架。第一阶段为探针引导的层选择：在冻结的SSL模型各层上，使用轻量级XGBoost探针，基于在多个跨域数据集上的平均平衡精度对层进行排名，从而在任务分类器训练之前识别出具有高跨域判别力的深度区域（如中间层和后层）。第二阶段为紧凑分类器构建：仅将第一阶段选定层的隐藏状态输入分类器，每个选定层的特征经过独立的层归一化、多头注意力池化，然后通过一个共享的瓶颈投影层映射到512维，最后将所有选定层的投影特征拼接后送入MLP分类头。实验表明，在XLS-R-300M骨干上，仅使用4个探针选定层（{6,7,17,19}）和1.34M可训练参数，即可在In-The-Wild数据集上达到4.94% EER，跨域平均EER为4.81%，相比使用全部25层的基线实现了28%的相对提升。消融研究证实，性能的关键在于选择正确的深度区域，而非精确的单一最优层；区域内层替换性能波动小，而跨越区域的错误组合会导致性能显著下降。该方法在WavLM Large和XLSR-53两个不同的骨干上同样有效，但选择了不同的层子集，证明了探针评估能自适应骨干的表示结构。 ...

Reference-Based Prosody and Rhythm Evaluation for Spoken Dialogue Systems

📄 Reference-Based Prosody and Rhythm Evaluation for Spoken Dialogue Systems #语音对话系统 4.7/10 | 创新 1.5/2 | 严谨 1.2/1.5 | 实验 0.8/1.5 | 清晰 0.4/1 | 影响 0.3/1.5 | 开源 0/1.5 | 复现 0.2/0.5 | 工程 0.3/1.5 📝 4.7/10 | 后50% | #语音对话系统 | #语音对话系统 | arxiv 👥 作者与机构 Ashish Hallur, Thomas Thebaud, Georgi Tinchev, Venkatesh Ravichandran, Laureano Moro-Velazquez。机构信息在提供的论文原文节选中未明确说明。 💡 毒舌点评这篇论文像一本极其严谨的“语音体检手册”。它不直接教AI说话，而是教我们如何用一套标准化的生理指标（比如F0的“血压”和语速的“心率”）去给AI的语音输出做“体检”，判断其行为是否像一个“健康”的人类。优点是思路清晰、数据扎实、论证有力，把一个被忽视的评估维度（对话韵律与节奏的合理性）拎出来做了系统性分析。但局限性也很明显：这本手册只适用于英语环境，且依赖模型预测的“病历”（说话者特征）来查表，如果病历本身不准，体检结论就可能偏差。最大的“槽点”是，论文告诉我们如何发现“行为异常”，却没告诉我们这些异常在多大程度上真正影响了用户的“体感”（自然度、交互质量），有点像医生只开检查单不解释病情。 📌 核心摘要本文针对语音到语音对话智能体评估中缺乏可解释的、语音原生指标的问题，提出了一种基于匹配参考的评估协议。核心思想是，由于对话中的韵律和节奏（如F0、语速）会随说话者特征（如性别、年龄）和交互状态（如唤醒度、主导性）发生系统性变化，使用全局的“池化”参考分布来评估特定输出会导致校准偏差。为此，论文利用超过4000小时的英语对话数据，构建了按上述条件分层的“匹配参考范围”。评估时，从S2S系统输出中提取相同指标，与最匹配的参考层进行比较，报告百分位偏差或超出范围的异常标记。在留出数据上的验证表明，匹配参考能将异常标记率校准到接近理论值（10%），显著优于池化参考。该协议旨在提供一种轻量级的“行为合理性检查”，作为对主观评价和任务性能评估的补充。 🔗 开源详情代码：论文中未提及提供任何代码仓库或脚本。模型权重：论文中未提及提供Vox-Profile模型或其他模型的下载链接。数据集：论文使用的是 Seamless Interaction 数据集，但未在文中提供该数据集的获取链接、许可证或申请方式。 Demo：论文中未提及提供任何在线演示。复现材料：论文在第IV节详细描述了评估协议的具体步骤，并提供了表I（池化参考范围）等信息，可作为复现指南的一部分。但缺乏完整的处理脚本、配置文件或预训练模型。论文中引用的开源项目： Praat：语音分析软件。链接：http://www.praat.org/ parselmouth：用于访问Praat功能的Python库。链接：https://github.com/YannickJadoul/Parselmouth Vox-Profile：用于推断说话者特征的基准和工具链。论文未提供其具体开源链接。 Silero VAD：语音活动检测模型。链接：https://github.com/snakers4/silero-vad WavLM：基础语音模型。链接：https://github.com/microsoft/unilm/tree/master/wavlm 项目仓库地址作者未提供本研究相关的代码仓库地址。许可证论文中未提及代码或数据的许可证信息。第三方引用详见“开源详情”中的“论文中引用的开源项目”部分。 🏗️ 方法概述和架构本文提出了一套完整的基于参考的评估协议，其架构可分为三个核心阶段：数据预处理与特征提取、参考分布构建、以及评估验证流程。 ...