多模态模型

RespiraMFM: A Multimodal Foundation Model with Contrastive Audio-Language Alignment for Respiratory Disease Identification

📄 RespiraMFM: A Multimodal Foundation Model with Contrastive Audio-Language Alignment for Respiratory Disease Identification #对比学习 #多模态模型 #参数高效微调 6.5/10 | 创新 1.5/2 | 严谨 1.2/1.5 | 实验 1.0/1.5 | 清晰 1.0/1 | 影响 0.6/1.5 | 开源 0.7/1.5 | 复现 0.5/0.5 | 工程 0.5/1.5 ✅ 6.5/10 | 前50% | #对比学习 | #对比学习 | #多模态模型 #参数高效微调 | arxiv 👥 作者与机构 Shakhrul Iman Siam¹, Tiantian Feng², Jiankun Zhang³, Shrikanth Narayanan², Mi Zhang¹ ¹The Ohio State University, ²University of Southern California, ³University of Chicago 通讯作者：{siam.5, mizhang.1}@osu.edu ...

Spatial-Omni: Spatial Audio Understanding Integration in Multimodal LLMs via FOA Encoding

📄 Spatial-Omni: Spatial Audio Understanding Integration in Multimodal LLMs via FOA Encoding #多模态模型 #大语言模型 9.4/10 | 创新 1.7/2 | 严谨 1.3/1.5 | 实验 1.5/1.5 | 清晰 1/1 | 影响 1.4/1.5 | 开源 0.5/1.5 | 复现 0.5/0.5 | 工程 1.5/1.5 🔥 9.4/10 | 前25% | #多模态模型 | #大语言模型 | arxiv 👥 作者与机构作者：Zhiyuan Zhu, Yixuan Chen, Yiwen Shao, Wenxiang Guo, Changhao Pan, Yu Zhang, Yuxiang Wang, Wei Liu, Houhua Zhang, Chengkuan Zeng, Wenbo Cheng, Yunxi Liu, Rui Yang, Steve Yves, Liefeng Bo, Zhou Zhao 机构：浙江大学，腾讯混元 ...

Speech Encoder Fusion for LLM-based Automatic Speech Recognition

📄 Speech Encoder Fusion for LLM-based Automatic Speech Recognition #语音识别 #多模态模型 #低资源 #参数高效微调 7.2/10 | 创新 1.2/2 | 严谨 1.3/1.5 | 实验 1.2/1.5 | 清晰 1/1 | 影响 1.2/1.5 | 开源 0.3/1.5 | 复现 0.5/0.5 | 工程 0.5/1.5 ✅ 7.2/10 | 后50% | #语音识别 | #参数高效微调 | #多模态模型 #低资源 | arxiv 👥 作者与机构 Jakob Poncelet, Hugo Van hamme KU Leuven, Department Electrical Engineering ESAT-PSI, Leuven, Belgium 💡 毒舌点评本文的核心想法——融合多个语音编码器以提升LLM-ASR性能——直觉上合理，但技术执行和实验论证深度不足。所谓“创新”的融合架构（如Sigmoid门控）本质上是简单的加权平均或注意力机制的标准应用，缺乏针对语音-LLM交互的专门设计。实验结论在多语言和说话人分离任务上显得有些仓促，部分关键结论（如“Temporal Transformer捕捉互补信息最佳”）仅凭有限的表格数据支撑，缺乏更细致的分析。论文自述的“计算开销有限”优势在文中未提供任何实际运行时对比数据，显得空洞。整体而言，这是一项增量式的工作，将现有融合技术打包应用到语音LLM中，其技术贡献和系统性分析未达到顶会论文的典型水准。 📌 核心摘要本文探讨了在基于大语言模型（LLM）的自动语音识别（ASR）系统中，融合多个预训练语音编码器的可能性。作者旨在利用不同编码器（如多语言的Whisper与单语言的专用模型NeLF、Wav2Vec2）的互补性来提升性能。研究提出了五种融合策略：特征拼接、Sigmoid门控、多头门控、位置Transformer和时间Transformer。实验在荷兰语、英语的单语和多语ASR任务，以及结合说话人编码器（ECAPA2）的说话人分离ASR任务中进行。结果表明，在大多数设置下，精心设计的融合方法（特别是Transformer类）优于简单的特征拼接，且计算开销增加有限。此外，将预训练ASR解码器的初步预测作为LLM的额外输入，可进一步显著提升性能，甚至在某些情况下使语音LLM接近或超越专用ASR模型。 ...

语音/音乐/音频论文速递 2026-06-10

语音/音乐/音频论文速递 2026-06-10 共分析 45 篇论文 ⚡ 今日概览 📥 抓取 45 篇 → 🔬 深度分析完成 🏷️ 热门方向方向数量分布 #语音识别 13篇 █████████████ #数据增强 3篇 ███ #自监督学习 2篇 ██ #语音合成 2篇 ██ #多模态模型 1篇 █ #语音对话系统 1篇 █ #语音生成 1篇 █ #参数高效微调 1篇 █ 📊 论文评分排行榜（45 篇，按分数降序）排名论文总分分档主任务 🥇 ViP-VL: Vietnamese Self-supervised Speech Pretraining M 9.7分前25% #语音识别 🥈 Spatial-Omni: Spatial Audio Understanding Integration i 9.4分前25% #多模态模型 🥉 Multi-Faceted Interactivity Alignment in Full-Duplex Sp 9.3分前25% #语音对话系统 4. OmniCap-IF: Benchmarking and Improving Instruction Foll 9.1分前25% #语音生成 5. RAT: Reference-Augmented Training for ASV Anti-Spoofing 8.8分前25% #数据增强 6. Recovering the Zipfian Distribution in Unsupervised Ter 8.7分前50% #自监督学习 7. LLM can Read Spectrogram: Encoder-free Speech-Language 8.6分前25% #语音识别 8. ParaBridge: Bridging Paralinguistic Perception and Dial 8.6分前25% #参数高效微调 9. Time-frequency localization of bird calls in dense soun 8.5分前25% #信号处理基础 10. Ethical and Technical Limits of Deepfake Speech Dataset 8.4分前25% - 11. Speech Meets ELF: Audio Conditional Continuous-Target D 8.3分前25% #语音识别 12. DeRA-MOS: Optimizing Text-to-Music Evaluation via Decou 8.2分前25% #音乐评估 13. Anchoring the Unknown: Open-Set Model Attribution via P 8.0分前25% #多语言 14. ANCHOR: Autoregressive Non-intrusive Chunk-Ordered Refi 8.0分前25% #语音质量评估 15. ContextCodec: Content-Focused Context Guidance for Ultr 7.9分前25% #语音编码 16. GlobeAudio: A Multilingual Multicultural Benchmark for 7.9分前25% #语音识别 17. Dual-Branch Gated Fusion for Open-Set Audio Deepfake So 7.8分前25% #音频深度伪造检测 18. Data Journalist Agent: Transforming Data into Verifiabl 7.7分前25% - 19. GC-LoRA: Gated Convolutional LoRA for Parameter-Efficie 7.6分前25% #语音识别 20. What Do Deepfake Speech Detectors Actually Hear? 7.6分前25% - 21. KFC-KWS: Keyframe Fusion with CTC for User-Defined Keyw 7.6分前25% #关键词检测 22. Entropy-Aware Domain-Routed Mixture-of-Experts Speech-L 7.5分前25% #语音识别 23. Linguistically Augmented Audio Speech Data (LinguAS) 7.5分后50% #语音伪造检测 24. AudioProcessBench: Benchmark for Identifying Process Er 7.5分前50% - 25. Cross-Modal Knowledge Distillation without Paired Data: 7.5分前50% #语音识别 26. AuRA: Internalizing Audio Understanding into LLMs as Lo 7.5分前25% #语音问答 27. TRADE: Transducer-Augmented Decoder for Speech LLM 7.4分前25% #语音识别 28. Inside the Latent Flow: Causal Deciphering of Attention 7.3分前50% #语音分离 29. Optimality of FSQ Tokens for Continuous Diffusion for C 7.3分前50% #语音合成 30. Speech Encoder Fusion for LLM-based Automatic Speech Re 7.2分后50% #语音识别 31. Enhancing Multilingual LLM-based ASR with Mixture of Ex 7.0分前50% - 32. Phoneme-First Prediction for LLM-Based Speech Recogniti 6.9分前50% #语音识别 33. Profy: Interpretable Visualization of Expertise-Depende 6.9分前50% #音乐信息检索 34. Optimizing 2D Input Representations and Sub-phase Fusio 6.8分前50% #数据增强 35. SSL-GMMVC: Interpretable Voice Conversion via Locally L 6.8分前50% #语音转换 36. Deploying Speech-Driven 3D Facial Animation in Unreal E 6.6分前50% #语音合成 37. RespiraMFM: A Multimodal Foundation Model with Contrast 6.5分前50% #对比学习 38. From Senses to Decisions: The Information Flow of Audit 6.5分前50% #语音识别 39. Speaker Group Encoding in Self-supervised Speech Recogn 6.5分前50% #语音识别 40. Towards Robust Arabic Speech Emotion Recognition with D 6.4分前50% #语音情感识别 41. Multilingual Word-Level Forced Alignment with Self-Supe 6.3分前50% #自监督学习 42. Overview of ESDD2: Environment-Aware Speech and Sound D 6.3分前50% #数据增强 43. Towards Deep Contextual Reasoning from Broad Descriptio 6.2分前50% #语音识别 44. A Lightweight Dual-Factor Acoustic Authentication Syste 6.0分前50% #说话人验证 45. Automated Pronunciation Evaluation for Korean Toddler S 6.0分前50% #说话人日志 📋 论文列表 🥇 ViP-VL: Vietnamese Self-supervised Speech Pretraining Model with Vector-Quantization Learning 9.7/10 | 创新 1.5/2 | 严谨 1.3/1.5 | 实验 1.3/1.5 | 清晰 1/1 | 影响 1.1/1.5 | 开源 1.5/1.5 | 复现 0.5/0.5 | 工程 1.5/1.5 ...

AVI-Bench: Toward Human-like Audio-Visual Intelligence of Omni-MLLMs

📄 AVI-Bench: Toward Human-like Audio-Visual Intelligence of Omni-MLLMs #语音识别 #多模态模型 #基准测试 8.8/10 | 创新 1.7/2 | 严谨 1.2/1.5 | 实验 1.4/1.5 | 清晰 1/1 | 影响 1.3/1.5 | 开源 0.5/1.5 | 复现 0.5/0.5 | 工程 1.2/1.5 🔥 8.8/10 | 前25% | #语音识别 | #多模态模型 | #基准测试 | arxiv 👥 作者与机构作者：Yaoting Wang, Ziyi Zhang, Wenming Tu, Shaoxuan Xu, Wenjie Du, Cheng Liang, Weijun Wang, Yuanchao Li, Guangyao Li, Hao Fei, Yuanchun Li, Henghui Ding†, Yunxin Liu 机构：未在文中明确列出所有作者所属机构，但项目网站为 fudancvl.github.io，可能关联复旦大学视觉与学习实验室。 ...

Bridging Traditional Explainability Methods and Multimodal Multilingual Models: An XAI-Based Analysis

📄 Bridging Traditional Explainability Methods and Multimodal Multilingual Models: An XAI-Based Analysis #多模态模型 #语音识别 5.4/10 | 创新 1/2 | 严谨 1/1.5 | 实验 0.5/1.5 | 清晰 1/1 | 影响 0.3/1.5 | 开源 0.5/1.5 | 复现 0.4/0.5 | 工程 0.7/1.5 📝 5.4/10 | 后50% | #语音识别 | #多模态模型 | arxiv 👥 作者与机构论文未在摘要或引言部分明确列出作者与机构信息。根据提供的标题页信息，可能来自波兰的学术机构（标题页包含波兰语摘要），但具体作者和单位未在给定原文中呈现。 💡 毒舌点评这篇论文想做的是把经典Shapley值“暴力”推广到多模态LLM上，想法不坏，但执行和验证都差了点意思。最大的问题是实验太“软”了——通篇都是“我们观察到”、“似乎表明”，缺乏硬核的定量评估和消融实验来支撑方法的有效性。提出的SGPA听起来很妙，但到底比简单的分段好多少？不同抽样策略在精度和效率上如何权衡？一概不谈。那个Python工具包是亮点，但只提一嘴“有”而不给链接，对社区贡献大打折扣。结论部分“输入模态驱动归因波动”听起来像句正确的废话，缺乏深层次的机理剖析。总之，框架搭了个架子，但里面填的肉不够实在，离顶会标准还有差距。 📌 核心摘要本文针对多模态大语言模型（MLLM）的可解释性挑战，提出了一种将Shapley值（SV）扩展至文本-音频多模态场景的框架。该框架将文本token和音频段定义为合作特征，并针对计算成本问题，集成了精确计算、蒙特卡洛置换近似和基于奈曼分配的分层抽样等估计方法。为解决文本与音频间的粒度差异，设计了光谱图引导的语音对齐（SGPA）预处理方法，将连续音频流对齐至离散的词级片段。作为应用贡献，作者提供了一个模型无关的Python工具包及其GUI，用于多模态Shapley值的计算与可视化，并策划了基于VoiceBench和Infinity Instruct数据集的多语言、多模态配置资源。在策划资源上的验证性实验表明，输入模态是影响归因结果波动的重要因素，而简单的句法重要性代理指标难以预测模型在跨语言情况下的注意力分配。 🔗 开源详情代码: 论文明确声称提供了Python包，但未提供具体的代码仓库链接（如GitHub）。模型权重: 论文未提及。数据集: 论文提及使用了VoiceBench和 Infinity Instruct数据集，并策划了相关资源，但未提供具体数据链接或开源协议信息。 Demo: 论文提及提供了伴随GUI，但未提供在线演示链接。复现材料: 论文未提及完整的复现材料包。论文中引用的开源项目: 论文提及VoiceBench和 Infinity Instruct数据集，但未提供具体引用链接。 ...

Conan-embedding-v3: Fusing Modality-Specific Models for Omni-Modal Embedding

📄 Conan-embedding-v3: Fusing Modality-Specific Models for Omni-Modal Embedding #多模态模型 #模型融合 7.6/10 | 创新 1.6/2 | 严谨 1.3/1.5 | 实验 1.4/1.5 | 清晰 1/1 | 影响 0.4/1.5 | 开源 0.2/1.5 | 复现 0.5/0.5 | 工程 1.2/1.5 ✅ 7.6/10 | 前25% | #音频检索 | #模型融合 | #多模态模型 | arxiv 👥 作者与机构作者：Shiyu Li, Zhiyuan Hu, Yifan Wang, Peiming Li, Zheng Wei, Yang Tang 机构：腾讯，清华大学 💡 毒舌点评这篇工作像给一台精心调教的V8发动机（视觉专家）外挂了一套涡轮增压系统（音频专家），然后发现接口不匹配（投影器漂移），最后通过一套“打补丁”（投影器恢复）加“重新磨合”（平衡排练）的维修手册解决了问题。方法论框架清晰，问题定义（Projector Drift）有洞察力，实验验证了流程的必要性。然而，整个框架更像是一个工程上的“拼装修补”方案，而非从根本上理解或解决模态融合的理论困境。计算成本高昂（A100训练两周），且严重依赖特定基础模型（Qwen3-VL-8B）和经验参数（融合系数α），通用性存疑。开源不彻底（无代码、无权重），复现门槛极高。论文在音频领域（MAEB SOTA）有直接贡献，但作为“全模态”工作，其视觉部分并未超越同期专用模型，影响力受限。 📌 核心摘要论文提出Conan-embedding-v3，一个用于全模态检索的“解耦-融合-恢复”框架。核心流程是：1）从同一个视觉-语言基础模型出发，独立训练图像、视频、文档和音频四个领域专家；2）通过任务向量融合（Task Arithmetic）将四个专家合并到一个密集骨干网络中；3）针对融合后出现的“投影器漂移”问题（即为音频专家训练的投影器与融合后骨干网络不匹配），采用“投影器恢复”（仅微调投影器）和“平衡排练”（轻量级多模态数据混合训练）来修复并平衡最终模型。最终模型在MMEB（图像/视频/文档）上达到74.96分，在MAEB（音频）上达到55.61分。 ...

Cross-Modal Masking for Robust Silent Speech Synthesis Using sEMG and Lipreading

📄 Cross-Modal Masking for Robust Silent Speech Synthesis Using sEMG and Lipreading #语音合成 #多模态模型 #语音识别 #数据增强 #正则化微调 7.5/10 | 创新 2.5/2 | 严谨 2.8/1.5 | 实验 2.5/1.5 | 清晰 2.3/1 | 影响 1.5/1.5 | 开源 0.5/1.5 | 复现 2.0/0.5 | 工程 2.5/1.5 ✅ 7.5/10 | 前50% | #语音合成 | #数据增强 | #多模态模型 #语音识别 | arxiv 👥 作者与机构 Eder del Blanco (†, 博士生), David Gimeno-Gómez (†, 博士), Eva Navas, Carlos-D. Martínez-Hinarejos, Inma Hernáez。机构： ...

Discovering Functionally Selective Brain Regions with a Deep Topographic Multimodal Model

📄 Discovering Functionally Selective Brain Regions with a Deep Topographic Multimodal Model #多模态模型 #正则化微调 #数据增强 8.2/10 | 创新 1.5/2 | 严谨 1.2/1.5 | 实验 1.5/1.5 | 清晰 1/1 | 影响 0.7/1.5 | 开源 1.3/1.5 | 复现 0.5/0.5 | 工程 0.5/1.5 🔥 8.2/10 | 前25% | #多模态模型 | #数据增强 | #正则化微调 | arxiv 👥 作者与机构作者：Badr AlKhamissi, Johannes Mehrer, Lara Marinov, Ahmed Abdelaal, Abdulkadir Gokce, Martin Schrimpf 机构：NeuroAI Lab, EPFL（洛桑联邦理工学院） *共同一作 💡 毒舌点评这篇工作试图在多模态模型上复现并发现人脑的功能组织，雄心勃勃，但其核心贡献的“新颖性”需要更严格的审视。将空间平滑性约束应用于单一连续皮层平面的概念，在单模态拓扑模型中已有先例，本文的“多模态”和“跨阶段”整合是其主要扩展点。然而，这种扩展更多是工程上的组合，而非概念上的飞跃。方法的严谨性依赖于一系列精心设计的实验和对照，但部分关键对照（如更强大的非拓扑基线）的缺失削弱了结论的强度。论文的写作和可视化非常出色，逻辑清晰，实验结果引人注目，尤其是发现新网络并进行人体验证的闭环。最大的软肋在于对“新发现”网络的验证力度不足，仅依赖于单一数据集和初步的fMRI激活，缺乏因果干预，这在顶会审稿中会被视为一个显著的局限。对于语音/音频领域的研究者而言，本文提供的是一种新颖的神经AI建模范式，其直接技术迁移价值有限，但其“模型引导假设生成与验证”的研究思路具有启发意义。 ...

HoliDubber: Holistic Video Dubbing for Complex Acoustic Scenes via Text-Guided Audio Synthesis

📄 HoliDubber: Holistic Video Dubbing for Complex Acoustic Scenes via Text-Guided Audio Synthesis #语音合成 #音频生成 #多模态模型 #扩散模型 #自监督学习 9/10 | 创新 1.6/2 | 严谨 1.4/1.5 | 实验 1.5/1.5 | 清晰 1/1 | 影响 1.5/1.5 | 开源 0/1.5 | 复现 0.5/0.5 | 工程 1.5/1.5 🔥 9/10 | 前10% | #语音合成 | #自监督学习 | #音频生成 #多模态模型 | arxiv 👥 作者与机构 Wenhao Guan (厦门大学, 上海创新研究院), Yifan Duan (上海交通大学), Junxi Liu (上海交通大学), Yu Gu (未来工场), Feng Dang (未来工场), Kaidi Wang (厦门大学), Qingyang Hong (厦门大学), Lin Li (厦门大学), Xie Chen (上海交通大学, 上海创新研究院) ...