语音/音乐/音频论文速递 2026-06-10

语音/音乐/音频论文速递 2026-06-10 共分析 45 篇论文 ⚡ 今日概览 📥 抓取 45 篇 → 🔬 深度分析完成 🏷️ 热门方向 方向 数量 分布 #语音识别 13篇 █████████████ #数据增强 3篇 ███ #自监督学习 2篇 ██ #语音合成 2篇 ██ #多模态模型 1篇 █ #语音对话系统 1篇 █ #语音生成 1篇 █ #参数高效微调 1篇 █ 📊 论文评分排行榜(45 篇,按分数降序) 排名 论文 总分 分档 主任务 🥇 ViP-VL: Vietnamese Self-supervised Speech Pretraining M 9.7分 前25% #语音识别 🥈 Spatial-Omni: Spatial Audio Understanding Integration i 9.4分 前25% #多模态模型 🥉 Multi-Faceted Interactivity Alignment in Full-Duplex Sp 9.3分 前25% #语音对话系统 4. OmniCap-IF: Benchmarking and Improving Instruction Foll 9.1分 前25% #语音生成 5. RAT: Reference-Augmented Training for ASV Anti-Spoofing 8.8分 前25% #数据增强 6. Recovering the Zipfian Distribution in Unsupervised Ter 8.7分 前50% #自监督学习 7. LLM can Read Spectrogram: Encoder-free Speech-Language 8.6分 前25% #语音识别 8. ParaBridge: Bridging Paralinguistic Perception and Dial 8.6分 前25% #参数高效微调 9. Time-frequency localization of bird calls in dense soun 8.5分 前25% #信号处理基础 10. Ethical and Technical Limits of Deepfake Speech Dataset 8.4分 前25% - 11. Speech Meets ELF: Audio Conditional Continuous-Target D 8.3分 前25% #语音识别 12. DeRA-MOS: Optimizing Text-to-Music Evaluation via Decou 8.2分 前25% #音乐评估 13. Anchoring the Unknown: Open-Set Model Attribution via P 8.0分 前25% #多语言 14. ANCHOR: Autoregressive Non-intrusive Chunk-Ordered Refi 8.0分 前25% #语音质量评估 15. ContextCodec: Content-Focused Context Guidance for Ultr 7.9分 前25% #语音编码 16. GlobeAudio: A Multilingual Multicultural Benchmark for 7.9分 前25% #语音识别 17. Dual-Branch Gated Fusion for Open-Set Audio Deepfake So 7.8分 前25% #音频深度伪造检测 18. Data Journalist Agent: Transforming Data into Verifiabl 7.7分 前25% - 19. GC-LoRA: Gated Convolutional LoRA for Parameter-Efficie 7.6分 前25% #语音识别 20. What Do Deepfake Speech Detectors Actually Hear? 7.6分 前25% - 21. KFC-KWS: Keyframe Fusion with CTC for User-Defined Keyw 7.6分 前25% #关键词检测 22. Entropy-Aware Domain-Routed Mixture-of-Experts Speech-L 7.5分 前25% #语音识别 23. Linguistically Augmented Audio Speech Data (LinguAS) 7.5分 后50% #语音伪造检测 24. AudioProcessBench: Benchmark for Identifying Process Er 7.5分 前50% - 25. Cross-Modal Knowledge Distillation without Paired Data: 7.5分 前50% #语音识别 26. AuRA: Internalizing Audio Understanding into LLMs as Lo 7.5分 前25% #语音问答 27. TRADE: Transducer-Augmented Decoder for Speech LLM 7.4分 前25% #语音识别 28. Inside the Latent Flow: Causal Deciphering of Attention 7.3分 前50% #语音分离 29. Optimality of FSQ Tokens for Continuous Diffusion for C 7.3分 前50% #语音合成 30. Speech Encoder Fusion for LLM-based Automatic Speech Re 7.2分 后50% #语音识别 31. Enhancing Multilingual LLM-based ASR with Mixture of Ex 7.0分 前50% - 32. Phoneme-First Prediction for LLM-Based Speech Recogniti 6.9分 前50% #语音识别 33. Profy: Interpretable Visualization of Expertise-Depende 6.9分 前50% #音乐信息检索 34. Optimizing 2D Input Representations and Sub-phase Fusio 6.8分 前50% #数据增强 35. SSL-GMMVC: Interpretable Voice Conversion via Locally L 6.8分 前50% #语音转换 36. Deploying Speech-Driven 3D Facial Animation in Unreal E 6.6分 前50% #语音合成 37. RespiraMFM: A Multimodal Foundation Model with Contrast 6.5分 前50% #对比学习 38. From Senses to Decisions: The Information Flow of Audit 6.5分 前50% #语音识别 39. Speaker Group Encoding in Self-supervised Speech Recogn 6.5分 前50% #语音识别 40. Towards Robust Arabic Speech Emotion Recognition with D 6.4分 前50% #语音情感识别 41. Multilingual Word-Level Forced Alignment with Self-Supe 6.3分 前50% #自监督学习 42. Overview of ESDD2: Environment-Aware Speech and Sound D 6.3分 前50% #数据增强 43. Towards Deep Contextual Reasoning from Broad Descriptio 6.2分 前50% #语音识别 44. A Lightweight Dual-Factor Acoustic Authentication Syste 6.0分 前50% #说话人验证 45. Automated Pronunciation Evaluation for Korean Toddler S 6.0分 前50% #说话人日志 📋 论文列表 🥇 ViP-VL: Vietnamese Self-supervised Speech Pretraining Model with Vector-Quantization Learning 9.7/10 | 创新 1.5/2 | 严谨 1.3/1.5 | 实验 1.3/1.5 | 清晰 1/1 | 影响 1.1/1.5 | 开源 1.5/1.5 | 复现 0.5/0.5 | 工程 1.5/1.5 ...

2026-06-10 · 更新于 2026-06-12 · 26 min · 5465 words

AVI-Bench: Toward Human-like Audio-Visual Intelligence of Omni-MLLMs

📄 AVI-Bench: Toward Human-like Audio-Visual Intelligence of Omni-MLLMs #语音识别 #多模态模型 #基准测试 8.8/10 | 创新 1.7/2 | 严谨 1.2/1.5 | 实验 1.4/1.5 | 清晰 1/1 | 影响 1.3/1.5 | 开源 0.5/1.5 | 复现 0.5/0.5 | 工程 1.2/1.5 🔥 8.8/10 | 前25% | #语音识别 | #多模态模型 | #基准测试 | arxiv 👥 作者与机构 作者:Yaoting Wang, Ziyi Zhang, Wenming Tu, Shaoxuan Xu, Wenjie Du, Cheng Liang, Weijun Wang, Yuanchao Li, Guangyao Li, Hao Fei, Yuanchun Li, Henghui Ding†, Yunxin Liu 机构:未在文中明确列出所有作者所属机构,但项目网站为 fudancvl.github.io,可能关联复旦大学视觉与学习实验室。 ...

2026-06-09 · 更新于 2026-06-12 · 2 min · 325 words

Bridging Traditional Explainability Methods and Multimodal Multilingual Models: An XAI-Based Analysis

📄 Bridging Traditional Explainability Methods and Multimodal Multilingual Models: An XAI-Based Analysis #多模态模型 #语音识别 5.4/10 | 创新 1/2 | 严谨 1/1.5 | 实验 0.5/1.5 | 清晰 1/1 | 影响 0.3/1.5 | 开源 0.5/1.5 | 复现 0.4/0.5 | 工程 0.7/1.5 📝 5.4/10 | 后50% | #语音识别 | #多模态模型 | arxiv 👥 作者与机构 论文未在摘要或引言部分明确列出作者与机构信息。根据提供的标题页信息,可能来自波兰的学术机构(标题页包含波兰语摘要),但具体作者和单位未在给定原文中呈现。 💡 毒舌点评 这篇论文想做的是把经典Shapley值“暴力”推广到多模态LLM上,想法不坏,但执行和验证都差了点意思。最大的问题是实验太“软”了——通篇都是“我们观察到”、“似乎表明”,缺乏硬核的定量评估和消融实验来支撑方法的有效性。提出的SGPA听起来很妙,但到底比简单的分段好多少?不同抽样策略在精度和效率上如何权衡?一概不谈。那个Python工具包是亮点,但只提一嘴“有”而不给链接,对社区贡献大打折扣。结论部分“输入模态驱动归因波动”听起来像句正确的废话,缺乏深层次的机理剖析。总之,框架搭了个架子,但里面填的肉不够实在,离顶会标准还有差距。 📌 核心摘要 本文针对多模态大语言模型(MLLM)的可解释性挑战,提出了一种将Shapley值(SV)扩展至文本-音频多模态场景的框架。该框架将文本token和音频段定义为合作特征,并针对计算成本问题,集成了精确计算、蒙特卡洛置换近似和基于奈曼分配的分层抽样等估计方法。为解决文本与音频间的粒度差异,设计了光谱图引导的语音对齐(SGPA)预处理方法,将连续音频流对齐至离散的词级片段。作为应用贡献,作者提供了一个模型无关的Python工具包及其GUI,用于多模态Shapley值的计算与可视化,并策划了基于VoiceBench和Infinity Instruct数据集的多语言、多模态配置资源。在策划资源上的验证性实验表明,输入模态是影响归因结果波动的重要因素,而简单的句法重要性代理指标难以预测模型在跨语言情况下的注意力分配。 🔗 开源详情 代码: 论文明确声称提供了Python包,但未提供具体的代码仓库链接(如GitHub)。 模型权重: 论文未提及。 数据集: 论文提及使用了VoiceBench和 Infinity Instruct数据集,并策划了相关资源,但未提供具体数据链接或开源协议信息。 Demo: 论文提及提供了伴随GUI,但未提供在线演示链接。 复现材料: 论文未提及完整的复现材料包。 论文中引用的开源项目: 论文提及VoiceBench和 Infinity Instruct数据集,但未提供具体引用链接。 ...

2026-06-09 · 更新于 2026-06-12 · 2 min · 329 words

Conan-embedding-v3: Fusing Modality-Specific Models for Omni-Modal Embedding

📄 Conan-embedding-v3: Fusing Modality-Specific Models for Omni-Modal Embedding #多模态模型 #模型融合 7.6/10 | 创新 1.6/2 | 严谨 1.3/1.5 | 实验 1.4/1.5 | 清晰 1/1 | 影响 0.4/1.5 | 开源 0.2/1.5 | 复现 0.5/0.5 | 工程 1.2/1.5 ✅ 7.6/10 | 前25% | #音频检索 | #模型融合 | #多模态模型 | arxiv 👥 作者与机构 作者:Shiyu Li, Zhiyuan Hu, Yifan Wang, Peiming Li, Zheng Wei, Yang Tang 机构:腾讯,清华大学 💡 毒舌点评 这篇工作像给一台精心调教的V8发动机(视觉专家)外挂了一套涡轮增压系统(音频专家),然后发现接口不匹配(投影器漂移),最后通过一套“打补丁”(投影器恢复)加“重新磨合”(平衡排练)的维修手册解决了问题。方法论框架清晰,问题定义(Projector Drift)有洞察力,实验验证了流程的必要性。然而,整个框架更像是一个工程上的“拼装修补”方案,而非从根本上理解或解决模态融合的理论困境。计算成本高昂(A100训练两周),且严重依赖特定基础模型(Qwen3-VL-8B)和经验参数(融合系数α),通用性存疑。开源不彻底(无代码、无权重),复现门槛极高。论文在音频领域(MAEB SOTA)有直接贡献,但作为“全模态”工作,其视觉部分并未超越同期专用模型,影响力受限。 📌 核心摘要 论文提出Conan-embedding-v3,一个用于全模态检索的“解耦-融合-恢复”框架。核心流程是:1)从同一个视觉-语言基础模型出发,独立训练图像、视频、文档和音频四个领域专家;2)通过任务向量融合(Task Arithmetic)将四个专家合并到一个密集骨干网络中;3)针对融合后出现的“投影器漂移”问题(即为音频专家训练的投影器与融合后骨干网络不匹配),采用“投影器恢复”(仅微调投影器)和“平衡排练”(轻量级多模态数据混合训练)来修复并平衡最终模型。最终模型在MMEB(图像/视频/文档)上达到74.96分,在MAEB(音频)上达到55.61分。 ...

2026-06-09 · 更新于 2026-06-12 · 3 min · 449 words

Cross-Modal Masking for Robust Silent Speech Synthesis Using sEMG and Lipreading

📄 Cross-Modal Masking for Robust Silent Speech Synthesis Using sEMG and Lipreading #语音合成 #多模态模型 #语音识别 #数据增强 #正则化微调 7.5/10 | 创新 2.5/2 | 严谨 2.8/1.5 | 实验 2.5/1.5 | 清晰 2.3/1 | 影响 1.5/1.5 | 开源 0.5/1.5 | 复现 2.0/0.5 | 工程 2.5/1.5 ✅ 7.5/10 | 前50% | #语音合成 | #数据增强 | #多模态模型 #语音识别 | arxiv 👥 作者与机构 Eder del Blanco (†, 博士生), David Gimeno-Gómez (†, 博士), Eva Navas, Carlos-D. Martínez-Hinarejos, Inma Hernáez。 机构: ...

2026-06-09 · 更新于 2026-06-12 · 3 min · 482 words

Discovering Functionally Selective Brain Regions with a Deep Topographic Multimodal Model

📄 Discovering Functionally Selective Brain Regions with a Deep Topographic Multimodal Model #多模态模型 #正则化微调 #数据增强 8.2/10 | 创新 1.5/2 | 严谨 1.2/1.5 | 实验 1.5/1.5 | 清晰 1/1 | 影响 0.7/1.5 | 开源 1.3/1.5 | 复现 0.5/0.5 | 工程 0.5/1.5 🔥 8.2/10 | 前25% | #多模态模型 | #数据增强 | #正则化微调 | arxiv 👥 作者与机构 作者:Badr AlKhamissi, Johannes Mehrer, Lara Marinov, Ahmed Abdelaal, Abdulkadir Gokce, Martin Schrimpf 机构:NeuroAI Lab, EPFL(洛桑联邦理工学院) *共同一作 💡 毒舌点评 这篇工作试图在多模态模型上复现并发现人脑的功能组织,雄心勃勃,但其核心贡献的“新颖性”需要更严格的审视。将空间平滑性约束应用于单一连续皮层平面的概念,在单模态拓扑模型中已有先例,本文的“多模态”和“跨阶段”整合是其主要扩展点。然而,这种扩展更多是工程上的组合,而非概念上的飞跃。方法的严谨性依赖于一系列精心设计的实验和对照,但部分关键对照(如更强大的非拓扑基线)的缺失削弱了结论的强度。论文的写作和可视化非常出色,逻辑清晰,实验结果引人注目,尤其是发现新网络并进行人体验证的闭环。最大的软肋在于对“新发现”网络的验证力度不足,仅依赖于单一数据集和初步的fMRI激活,缺乏因果干预,这在顶会审稿中会被视为一个显著的局限。对于语音/音频领域的研究者而言,本文提供的是一种新颖的神经AI建模范式,其直接技术迁移价值有限,但其“模型引导假设生成与验证”的研究思路具有启发意义。 ...

2026-06-09 · 更新于 2026-06-12 · 2 min · 281 words

HoliDubber: Holistic Video Dubbing for Complex Acoustic Scenes via Text-Guided Audio Synthesis

📄 HoliDubber: Holistic Video Dubbing for Complex Acoustic Scenes via Text-Guided Audio Synthesis #语音合成 #音频生成 #多模态模型 #扩散模型 #自监督学习 9/10 | 创新 1.6/2 | 严谨 1.4/1.5 | 实验 1.5/1.5 | 清晰 1/1 | 影响 1.5/1.5 | 开源 0/1.5 | 复现 0.5/0.5 | 工程 1.5/1.5 🔥 9/10 | 前10% | #语音合成 | #自监督学习 | #音频生成 #多模态模型 | arxiv 👥 作者与机构 Wenhao Guan (厦门大学, 上海创新研究院), Yifan Duan (上海交通大学), Junxi Liu (上海交通大学), Yu Gu (未来工场), Feng Dang (未来工场), Kaidi Wang (厦门大学), Qingyang Hong (厦门大学), Lin Li (厦门大学), Xie Chen (上海交通大学, 上海创新研究院) ...

2026-06-09 · 更新于 2026-06-12 · 3 min · 576 words

Liberating LLM Capabilities in Full-Duplex Speech Models

📄 Liberating LLM Capabilities in Full-Duplex Speech Models #多模态模型 #数据增强 8.7/10 | 创新 1.6/2 | 严谨 1.2/1.5 | 实验 1.5/1.5 | 清晰 1/1 | 影响 1/1.5 | 开源 0.8/1.5 | 复现 0.5/0.5 | 工程 1.1/1.5 🔥 8.7/10 | 前25% | #多模态模型 | #数据增强 | arxiv 👥 作者与机构 通讯作者:Luoyuan Zhang (zly.idleness@gmail.com)。论文未明确列出作者所属机构,仅提供了个人邮箱和项目主页。 💡 毒舌点评 这论文的切入点不错——让全双工语音模型也能“写”出好东西,而不是只能“说”。但方法部分有点“取巧”,核心创新在于一个Token Schema,这更像是一个巧妙的工程实现,而非深刻的架构或算法突破。数据合成流水线虽实用,但高度依赖强大的教师模型(Qwen3-235B),其“蒸馏”出来的质量上限可能受制于教师本身,而论文并未分析其误差传播。实验结果看着漂亮,但在关键的URO-Bench上,LWS的优势主要体现在特定的“中文Pro”子集,且与Step-Audio 2等顶级基线的差距并不稳定(英文Pro甚至落后)。最大的问题在于,论文声称解决了文本能力受限的问题,但实验主要评估了理解、回复质量和交互,对于真正展现“代码生成、结构化分析”等被压制能力的任务(例如,在对话中实时生成并展示可执行的Python代码片段),缺乏直接、有力的验证。全双工交互性能优异,但这是在1秒Unit的固定延迟下取得的,更细粒度的交互性能未探讨。 📌 核心摘要 论文标题: Liberating LLM Capabilities in Full-Duplex Speech Models 核心问题: 如何在保持基于语音的大语言模型(Speech LLM)全双工实时交互能力的同时,不丧失其原生的文本生成能力(如代码、结构化分析、多步推理),并允许用户实时看到这些结构化的中间或最终输出。 核心方法: 提出Listen-Write-Speak (LWS) 范式。这是一种“文本优先”的三通道(听、写、说)交互模式。在标准自回归Transformer中,通过定义特殊的Token Schema来划分时间单元(Unit,1秒)和通道边界,使得模型能在共享的因果注意力上下文中同时处理用户音频、生成可见的自由形式文本(作为主要输出)和生成语音响应。该架构无需修改模型结构。 关键技术细节: ...

2026-06-09 · 更新于 2026-06-12 · 3 min · 495 words

Multi-View Speech Representation Learning for Parkinson's Disease Detection Using Context-guided Cross-modal Attention

📄 Multi-View Speech Representation Learning for Parkinson's Disease Detection Using Context-guided Cross-modal Attention #自监督学习 #多模态模型 7.9/10 | 创新 1.5/2 | 严谨 1.3/1.5 | 实验 1.2/1.5 | 清晰 1/1 | 影响 1.3/1.5 | 开源 0/1.5 | 复现 0.5/0.5 | 工程 1.1/1.5 ✅ 7.9/10 | 前50% | #自监督学习 | #自监督学习 | #多模态模型 | arxiv 👥 作者与机构 George Theodosiou†, Loukas Ilias†, Dimitris Askounis (†共同第一作者) 决策支持系统实验室,电气与计算机工程学院,雅典国立技术大学,雅典,希腊 💡 毒舌点评 这篇文章试图用“多视图”和“注意力”这些热门词汇包装一个相当直白的任务:在单个数据集上分类帕金森语音。作者将三种特征(频谱图、MFCC、HuBERT)拼接后用注意力加权,声称这是“新颖”的融合。其核心创新——上下文引导的跨模态注意力——本质上是一种特征级的交叉注意力,其“上下文”来自另外两个分支的全局向量,设计上并不复杂。实验仅限于PC-GITA这一个公开数据集,虽然报告了较高的分数,但在未进行任何外部验证的情况下,其宣称的“临床可靠性”显得有些空中楼阁。消融实验是亮点,但基线选择相对陈旧(如[19], [21]),且与最新的基础模型方法对比时,提升幅度有限(约6%)。最大的硬伤是完全未开源代码和模型,这使得所有复现承诺成为空谈,也严重削弱了其在社区中的实际价值。总体而言,这是一篇工程整合度较高、但理论创新有限、且未能提供足够验证的临床应用论文。 📌 核心摘要 本文针对帕金森病(PD)的语音检测任务,提出了一种多分支深度学习框架。该框架摒弃了依赖单一语音表征的惯例,同时从同一段语音中提取三种互补的表征:1) 由ResNet-18编码器处理的Log-Mel频谱图,2) 由双向LSTM网络建模的MFCC序列,3) 由预训练HuBERT基础模型提取的原始波形嵌入。为有效融合这些异构表征,论文引入了上下文引导的跨模态注意力机制,该机制利用来自频谱图和MFCC分支的全局声学上下文,动态加权时序HuBERT嵌入中的相关部分。在西班牙语PC-GITA数据集上的严格说话人独立五折交叉验证实验表明,该框架取得了优异性能(准确率91.51%, F1分数91.24%, AUROC 95.97%),并通过一系列消融研究验证了所提注意力机制和多表征集成的有效性。 ...

2026-06-09 · 更新于 2026-06-12 · 3 min · 500 words

Paediatric-HGNN: A Hybrid Heterogeneous Graph Neural Network for Detecting Disfluency in Children's Speech via Multiscale Acoustic Fusion

📄 Paediatric-HGNN: A Hybrid Heterogeneous Graph Neural Network for Detecting Disfluency in Children's Speech via Multiscale Acoustic Fusion #语音合成 #语音增强 #图神经网络 #多模态模型 #数据增强 6.5/10 | 创新 1/2 | 严谨 1.2/1.5 | 实验 1/1.5 | 清晰 1/1 | 影响 0.8/1.5 | 开源 0.2/1.5 | 复现 0.5/0.5 | 工程 0.8/1.5 ✅ 6.5/10 | 后50% | #语音合成 | #图神经网络 | #语音增强 #多模态模型 | arxiv 👥 作者与机构 Rashini Liyanarachchi, Rachael Mackay, Alison Short, Aditya Joshi, Erik Meijering 1 University of New South Wales (UNSW), Sydney, Australia 2 Western Sydney University, Sydney, Australia 3 Resourced Music Therapy, Sydney, Australia ...

2026-06-09 · 更新于 2026-06-12 · 3 min · 447 words