多模态模型

Who Wins the Conflict? Mechanistic Interpretability of Text Bias in Audio LLMs

📄 Who Wins the Conflict? Mechanistic Interpretability of Text Bias in Audio LLMs #多模态模型 #鲁棒性 8.8/10 | 创新 1.6/2 | 严谨 1.3/1.5 | 实验 1.2/1.5 | 清晰 1/1 | 影响 1.2/1.5 | 开源 1/1.5 | 复现 0.5/0.5 | 工程 1/1.5 🔥 8.8/10 | 前25% | #多模态模型 | #鲁棒性 | arxiv 👥 作者与机构 Hyebin Cho, Suho Yoo, Jaehyuk Jang, Changick Kim, Joon Son Chung School of Electrical Engineering, KAIST 💡 毒舌点评论文选题精准，击中了多模态大模型“指鹿为马”的痛点。研究方法的“外科手术”式解剖（电路发现与因果消融）很有范儿，得出的“主动抑制”结论比“信息丢失”更有趣。但手术只做了分类手术，没敢在开放式生成的“大活人”身上试刀，说服力打折扣。反向补丁方法简单粗暴但有效，不过像是个急救措施而非根治方案，层选择全靠试，缺乏优雅的理论指导。代码开源“挤牙膏”，只给了个没链接的库名，复现门槛不低。整体看，是一篇扎实的阶段性研究，但离“完全搞清楚”还有距离。 ...

语音/音乐/音频论文速递 2026-06-18

语音/音乐/音频论文速递 2026-06-18 共分析 36 篇论文 ⚡ 今日概览 📥 抓取 36 篇 → 🔬 深度分析完成 🏷️ 热门方向方向数量分布 #语音识别 7篇 ███████ #多模态模型 5篇 █████ #语音合成 5篇 █████ #空间音频 1篇 █ #音乐生成 1篇 █ #模型评估 1篇 █ #声源定位 1篇 █ #音频生成 1篇 █ 📊 论文评分排行榜（36 篇，按分数降序）排名论文总分分档主任务 🥇 IndicContextEval: A Benchmark for Evaluating Context Ut 9.5分前25% #语音识别 🥈 Native Active Perception as Reasoning for Omni-Modal Un 9.1分前10% #语音识别 🥉 Who Wins the Conflict? Mechanistic Interpretability of 8.8分前25% #多模态模型 4. Generalised Transcoding Framework for Arbitrary Spatial 8.7分前50% #空间音频 5. Closing the Loop: PID Feedback Control for Interpretabl 8.7分前50% #音乐生成 6. GRIDEX: Grid-Grounded Forensic Explanations for Deepfak 8.6分前50% #语音合成 7. Continuous-Speech Parkinson's Disease Detection Usi 8.3分前25% - 8. Mitigating Scoring Errors and Compensating for Nonverba 8.0分前25% #多模态模型 9. A Survey of Methods for the Discretization of Phonograp 8.0分前50% - 10. Adaptive Speech-to-Spike Encoding for Spiking Neural Ne 8.0分前25% - 11. MagpieTTS-LF: Inference-Time Long-Form Speech Generatio 7.9分前25% #语音合成 12. Beyond AHI: An Interpretable Causal-Discovery-Guided Fr 7.9分前25% - 13. Evaluating Dynamic Range Compressor Models Using Contro 7.8分前50% #模型评估 14. NeuralMUSIC: A Hybrid Neural-Subspace Framework for Rob 7.8分前50% #声源定位 15. Fair Cognitive Impairment Detection Through Unlearning 7.7分前25% #多模态模型 16. Audio-to-Audio via Diffusion Warm Initialization 7.6分前25% #音频生成 17. FineCombo-TTS: Collaborative and Precise Controllable S 7.6分前25% #语音合成 18. Constraining to Generalize: Subspace Tuning for Few-sho 7.5分前25% #音频分类 19. Learning Robust Pair Confidence for Multimodal Emotion- 7.5分前50% #多模态模型 20. Montreal Forced Aligner and the state of speech-to-text 7.5分前25% #语音识别 21. Scoring Backends Matter More Than Pooling: A Systematic 7.4分前50% - 22. Reliable Neural-Codec Text-to-Speech by ASR Self-Verifi 7.4分前50% #语音合成 23. Reference-Driven Multi-Speaker Audio Scene Generation f 7.3分前50% #语音合成 24. QC-GAN: A Parameter-Efficient Quaternion Conformer GAN 7.1分前50% #语音增强 25. Augmenting Dysarthric Speech Severity Assessment with M 7.0分前50% #语音质量评估 26. Continuous Audio Thinking for Large Audio Language Mode 6.9分前50% - 27. Human-AI Coevolution Dynamics: A Formal Theory of Socia 6.7分前50% - 28. DASH: Dual-View Self-Distillation with Multi-Layer Hidd 6.6分前50% #语音识别 29. Reference-Based Recursive Least-Squares Mitigation of R 6.6分前50% - 30. Responsible ASR: Overcoming Challenges of Foundational 6.5分前50% #语音识别 31. Risk Stratification for ICU Delirium using Pervasive Am 6.5分前50% #多模态模型 32. ThinkDeception: A Progressive Reinforcement Learning Fr 6.3分前50% #强化学习 33. EMORSION: Examining the Impact of Audio Parameters on E 6.0分前50% - 34. Speech-Driven End-to-End Language Discrimination toward 5.8分前50% #语音识别 35. Low-resource Language Discrimination Towards Chinese Di 5.5分前50% #语音识别 36. SingFox: A Multi-Lingual Singfake Detection Corpus 5.4分后50% #语音伪造检测 📋 论文列表 🥇 IndicContextEval: A Benchmark for Evaluating Context Utilisation in Audio Large Language Models Across 8 Indic Languages 9.5/10 | 创新 1.5/2 | 严谨 1.3/1.5 | 实验 1.5/1.5 | 清晰 1/1 | 影响 1.0/1.5 | 开源 1.4/1.5 | 复现 0.5/0.5 | 工程 1.3/1.5 ...

A Closer Look at Failure Modes in Temporal Understanding of Large Audio-Language Models

📄 A Closer Look at Failure Modes in Temporal Understanding of Large Audio-Language Models #多模态模型 6.6/10 | 创新 1.4/2 | 严谨 1.2/1.5 | 实验 0.9/1.5 | 清晰 1/1 | 影响 0.7/1.5 | 开源 0.3/1.5 | 复现 0.5/0.5 | 工程 0.6/1.5 ✅ 6.6/10 | 前50% | #多模态模型 | #多模态模型 | arxiv 👥 作者与机构 Apoorva Kulkarni, Kaousheik Jayakumar, Sreyan Ghosh, Sarah Wiegreffe, Dinesh Manocha, Ramani Duraiswami。 University of Maryland, College Park, USA。 💡 毒舌点评这篇论文像一个细致的“医生”，成功诊断出大音频语言模型在时序推理上“听而不闻”的毛病，并指出“调大音量”（增加总注意力）不如“调准频道”（重新分配注意力）有效。诊断过程严谨，处方（干预方法）也有初步疗效。但问题是，它只给两个“病人”（模型）看过病，且“疗效”（3.2%的准确率提升）虽无副作用（无需训练）但有些温和。结论说这能“改善病情”或许为时过早，更应定位为一个有启发性的“病理学报告”，指出了一个值得未来“新药研发”（训练时干预）去探索的方向。整体是一份扎实的诊断性工作，但离临床应用（解决实际问题）还有距离。 ...

Grounding Spoken LLMs in Multi-Speaker Audio via Diarization Conditioning

📄 Grounding Spoken LLMs in Multi-Speaker Audio via Diarization Conditioning #语音识别 #语音问答 #语音摘要 #多模态模型 #参数高效微调 8.5/10 | 创新 1.5/2 | 严谨 1.3/1.5 | 实验 1.4/1.5 | 清晰 0.8/1 | 影响 1.2/1.5 | 开源 1.3/1.5 | 复现 0.5/0.5 | 工程 0.5/1.5 🔥 8.5/10 | 前25% | #语音识别 | #参数高效微调 | #语音问答 #语音摘要 | arxiv 👥 作者与机构作者：Alexander Polok, Samuele Udupa, Sathvik Udupa, Jan Černocký, Shinji Watanabe, Lukáš Burget 机构：Speech@FIT, Brno University of Technology, Czechia；Language Technologies Institute, Carnegie Mellon University, USA ...

JoyAI-VL-Interaction: Real-Time Vision-Language Interaction Intelligence

📄 JoyAI-VL-Interaction: Real-Time Vision-Language Interaction Intelligence #多模态模型 #语音合成 #强化学习 #低资源 7.7/10 | 创新 1.4/2 | 严谨 1.1/1.5 | 实验 0.6/1.5 | 清晰 1/1 | 影响 0.6/1.5 | 开源 1.2/1.5 | 复现 0.5/0.5 | 工程 1.3/1.5 ✅ 7.7/10 | 前50% | #语音合成 | #强化学习 | #多模态模型 #低资源 | arxiv 👥 作者与机构作者：Dingyu Yao, Junhao Zhou, Chenxu Yang, Chuanyu Qin, Haowen Hou, Zheming Liang, Congcong Wang, Yuhang Cao, Shenglong Ye, Shuai Xie, Shuhuan Gu, Haoyang Huang, Qingyi Si, Nan Duan, Jiaqi Wang 机构：JD.com ...

OlfactProfile: Profile-Conditioned Odor Prediction from Audiovisual Content

📄 OlfactProfile: Profile-Conditioned Odor Prediction from Audiovisual Content #多模态模型 #数据集 5.6/10 | 创新 1.4/2 | 严谨 1/1.5 | 实验 0.9/1.5 | 清晰 1/1 | 影响 0.5/1.5 | 开源 0.1/1.5 | 复现 0.3/0.5 | 工程 0.4/1.5 📝 5.6/10 | 前50% | #多模态模型 | #数据集 | arxiv 👥 作者与机构 Zhengyu Lou (东华大学)，Bosheng Qin (浙江大学)，Yanan Wang (东华大学)，Duanduan Yin (东华大学)，Wentao Ye (浙江大学)，Xin Yu (东华大学) 💡 毒舌点评这篇嗅觉预测的论文想法有趣，但作为一篇NeurIPS/ICML/ICLR级别的投稿，其“硬伤”不少。最大的槽点在于数据集：号称“首个”配对档案的视听嗅觉数据集，但仅1,350个视频片段，每个片段仅一个标注者，这数据规模在深度学习时代显得“寒酸”。这直接导致所有实验结果的统计显著性和泛化能力存疑，堪称“在沙子上盖高楼”。其次，核心方法OAR模块设计复杂，公式一到十堆砌了大量MLP和调制，但缺乏对模块复杂度必要性的深入讨论和可视化分析，让人怀疑是不是“过度设计”。与MLLM的比较（表4）也显得“取巧”，未说明基线模型的具体推理设置，且“无档案”设置下，DeepSeek-V3.2和GPT-5.1的排名比GPT-4.1还高，这与直觉相悖，可能提示提示策略或评估的偶然性。最后，下游应用场景（VR影院、广告）的用户研究样本量小（12人），且未提供详细的统计检验，说服力有限。总体而言，论文提出了一个有价值的问题，但受限于数据规模和实验深度，其宣称的“结构性增益”更像是一个在小数据集上的有趣现象，而非普适性结论。 📌 核心摘要本文提出了“档案条件化气味预测”这一新问题，旨在解决现有气味预测方法忽视个体嗅觉偏好（如敏感度、耐受性）的局限。为支持该问题，作者构建了首个配备注释者嗅觉档案的视听嗅觉数据集VOD（1,350个视频，99类气味，3个语义轨道：前景、背景、情感气味）。核心方法OlfactProfile包含两个关键组件：OAR（嗅觉感知路由）模块和Scent Skill Library (SSL)。OAR通过轨道感知视听路由和字段级档案调制，使不同档案维度（如敏感度、耐受性）能通过不同路径影响气味推理。SSL提供结构化气味先验知识。实验在受控条件下表明，简单的档案信息拼接或统一调制反而会降低性能，而结构化的字段级条件化能带来一致提升，且增益在依赖环境解读和情感关联的背景/情感气味轨道上最为显著。模型在人类对比中接近专家水平，并在下游嗅觉增强应用中提升了用户感知的适配度。 🔗 开源详情代码：论文中未提及代码开源。模型权重：论文中未提及模型权重开源。数据集：论文声称构建了VOD数据集，但未提供任何公开下载链接或开源协议。 Demo：论文中未提及。复现材料：论文提及补充材料提供实现细节，但未提供具体的配置文件、数据预处理脚本或可直接运行的资源。论文中引用的开源项目： HuBERT：引用了公开代码库。 OlfacKit：提及使用了开源气味释放硬件，但未提供具体链接。 🏗️ 方法概述和架构 OlfactProfile是一个结构化的多模态框架，旨在根据视听内容和用户的嗅觉偏好档案预测三个语义气味轨道（前景、背景、情感气味）。其核心思想是：1) 不同气味轨道对视听证据的依赖方式不同；2) 档案信息应作为结构化的条件信号，而非一个扁平的辅助向量。框架主要由OAR（Olfactory-Aware Routing）模块和SSL（Scent Skill Library）库构成。 ...

语音/音乐/音频论文速递 2026-06-17

语音/音乐/音频论文速递 2026-06-17 共分析 35 篇论文 ⚡ 今日概览 📥 抓取 35 篇 → 🔬 深度分析完成 🏷️ 热门方向方向数量分布 #语音识别 9篇 █████████ #语音合成 4篇 ████ #音频分类 3篇 ███ #语音增强 2篇 ██ #多模态模型 2篇 ██ #强化学习 1篇 █ #语音活动检测 1篇 █ #说话人验证 1篇 █ 📊 论文评分排行榜（35 篇，按分数降序）排名论文总分分档主任务 🥇 One-Step Token-to-Waveform Generation with MeanFlow in 9.3分前10% #语音合成 🥈 Synergizing Zero-Shot Cross-Lingual Alzheimer Detection 9.1分前25% - 🥉 When Multiple Scripts Matter: Evaluating ASR in Clinica 9.1分前10% #语音识别 4. Grounding Spoken LLMs in Multi-Speaker Audio via Diariz 8.5分前25% #语音识别 5. ELSA: Acoustic Event-Level Semantic Alignment for Fine- 8.5分前25% - 6. A 399uW 114.3 dB DR Companding Readout ASIC for MEMS Mi 8.2分前25% - 7. Are you speaking my languages? On spoken language adher 8.0分后50% #语音识别 8. From Signals to Patterns: Non-Invasive Tuberculosis Det 7.9分前25% - 9. Next-Turn: Duration-Aware Streaming Endpoint Detection 7.9分前50% #语音合成 10. Decision-Driven Geosteering Under Uncertainty: A Unifie 7.8分前50% #强化学习 11. Perceptual compensation for tonal context in self-super 7.7分前50% #语音识别 12. JoyAI-VL-Interaction: Real-Time Vision-Language Interac 7.7分前50% #语音合成 13. PhASE-Flow: Phonetic-Conditioned Acoustic Flow Matching 7.6分前25% #语音增强 14. Non-Autoregressive Minimum Bayes' Risk Decoding for 7.6分前25% - 15. SpeechDx: A Multi-Task Benchmark for Clinical Speech AI 7.6分前25% #语音识别 16. Vibrato Expression Control for Singing Voice Conversion 7.5分前25% - 17. Improving low-resource ASR using bilingual fine-tuning 7.5分前50% #语音识别 18. Turning music identification into a neural forward pass 7.4分前50% #音频分类 19. Direction of arrival estimation from distant microphone 7.3分前50% #语音活动检测 20. DeSRPA: Decoupled Speech Role-Playing Agent via Inferen 7.3分前50% #语音合成 21. L-Proto: Language-Aware Episodic Prototypical Training 7.1分前50% #说话人验证 22. Single frequency filtering based multi-speaker directio 7.0分前50% #语音增强 23. MLLP-VRAIN UPV system for the IWSLT 2026 Simultaneous S 6.9分前50% #语音识别 24. Reading between the Lines: Leveraging Large Language Mo 6.8分前50% #语音情感识别 25. A Closer Look at Failure Modes in Temporal Understandin 6.6分前50% #多模态模型 26. MVEB: Massive Video Embedding Benchmark 6.5分前50% #基准测试 27. Transductive Zero-Shot Audio Classification with Audio- 6.4分前50% #音频分类 28. A Neuromorphic Trigger for Efficient Audio Event Detect 6.2分前50% #音频事件检测 29. Learning task-specific subspaces via interventional pos 6.2分前50% #自监督学习 30. Embedded Machine Learning for Microcontroller-Class Edg 6.0分前50% - 31. Descriptor: Certus Caliber Classification Gunshot Datas 5.9分前50% #音频分类 32. AI-based Cognitive-linguistic Features for Dementia Ass 5.8分前50% #语音识别 33. An Analysis of the Effectiveness of Synthetic Speech Da 5.7分前50% #语音识别 34. OlfactProfile: Profile-Conditioned Odor Prediction from 5.6分前50% #多模态模型 35. Intelligibility of Speech in Noise: Investigating Contr 5.5分前50% - 📋 论文列表 🥇 One-Step Token-to-Waveform Generation with MeanFlow in Latent Space 9.3/10 | 创新 1.4/2 | 严谨 1.2/1.5 | 实验 1.1/1.5 | 清晰 1/1 | 影响 1.2/1.5 | 开源 1.5/1.5 | 复现 0.5/0.5 | 工程 1.4/1.5 ...

Acoustic Prompting via Stage-wise Modulation for Few-Shot Learning in Audio Language Models

📄 Acoustic Prompting via Stage-wise Modulation for Few-Shot Learning in Audio Language Models #音频分类 #提示学习 #多模态模型 8.3/10 | 创新 1.5/2 | 严谨 1.2/1.5 | 实验 1.3/1.5 | 清晰 0.9/1 | 影响 0.8/1.5 | 开源 0.8/1.5 | 复现 0.5/0.5 | 工程 1.3/1.5 🔥 8.3/10 | 前50% | #音频分类 | #参数高效微调 | #提示学习 #多模态模型 | arxiv 👥 作者与机构 Hyebin Cho, Jaehyuk Jang, Changick Kim, Joon Son Chung Korea Advanced Institute of Science and Technology, South Korea ...

Bridging the SEA Gap: An Initial Benchmark for Neural Audio Codec-Synthesized Speech Deepfakes in South-East Asian Languages

📄 Bridging the SEA Gap: An Initial Benchmark for Neural Audio Codec-Synthesized Speech Deepfakes in South-East Asian Languages #语音合成 #语音识别 #多模态模型 #低资源 8.2/10 | 创新 1.3/2 | 严谨 1/1.5 | 实验 0.9/1.5 | 清晰 1/1 | 影响 1.1/1.5 | 开源 1.3/1.5 | 复现 0.5/0.5 | 工程 1.1/1.5 🔥 8.2/10 | 前25% | #语音合成 | #语音识别 | #多模态模型 #低资源 | arxiv 👥 作者与机构论文作者为 Orchid Chetia Phukan (IIIT-Delhi, 通讯作者), Girish (IIIT-Delhi, UPES), Mohd Mujtaba Akhtar (IIIT-Delhi, VBSPU), Arun Balaji Buduru (IIIT-Delhi)。所属机构为印度信息技术学院德里分校（IIIT-Delhi）、UPES 和 VBSPU。 ...

EChO-Agent: Evidence Chain Orchestration Agent for Audio Reasoning

📄 EChO-Agent: Evidence Chain Orchestration Agent for Audio Reasoning #音频问答 #语音识别 #音频事件检测 #音乐信息检索 #多模态模型 #大语言模型 6.1/10 | 创新 1.2/2 | 严谨 1/1.5 | 实验 0.9/1.5 | 清晰 1/1 | 影响 0.5/1.5 | 开源 0/1.5 | 复现 0.3/0.5 | 工程 1.2/1.5 ✅ 6.1/10 | 前50% | #音频问答 | #语音识别 | #音频事件检测 #音乐信息检索 | arxiv 👥 作者与机构作者：Siyuan Zhang, Jian Zong, Junyu Wang, Peiyuan Jiang, Jiahao Yan, Jingyu Zhang, Tianrui Wang, Xiaobao Wang, Longbiao Wang, Jianwu Dang 机构：School of Artificial Intelligence, Tianjin University, Tianjin, China 💡 毒舌点评这篇文章提出了一个听起来很厉害的“证据链编排”框架来解决音频推理问题，思路清晰，系统设计也算完整。但作为一名顶会审稿人，我必须指出几个硬伤：首先，创新性有限，所谓的“证据整合”本质上是用另一个LLM（DeepSeek-V3）来摘要和过滤工具输出，这更像是工程上的Pipeline优化，而非原理上的突破。其次，整个框架严重依赖两个闭源的大型商业模型（DeepSeek-V3 和 Qwen-3-Omni-Instruct），这使得结果的独立性和可复现性大打折扣，更像是在为这些模型做能力演示。实验方面，只在一个基准（MMAR）上测试，且报告的提升幅度（+2.3%准确率，+4.3评分）在绝对值上并不算惊人，尤其是在没有与其他顶尖智能体方法（如文中提到的AudioRAG）进行直接对比的情况下。消融实验虽然做了，但“w/o Observation”和“w/o Evidence Integration”的巨大差距说明，脱离了特定的工具和外部LLM，这个框架本身可能非常脆弱。最后，代码完全未开源，这极大地限制了其在研究社区中的影响力和可复现性。总的来说，这是一个扎实的系统工程工作，但离顶会论文所要求的理论深度和实验说服力还有距离。 ...