论文速递 | 语音/音乐/音频论文速递

Who Wins the Conflict? Mechanistic Interpretability of Text Bias in Audio LLMs

📄 Who Wins the Conflict? Mechanistic Interpretability of Text Bias in Audio LLMs #多模态模型 #鲁棒性 8.8/10 | 创新 1.6/2 | 严谨 1.3/1.5 | 实验 1.2/1.5 | 清晰 1/1 | 影响 1.2/1.5 | 开源 1/1.5 | 复现 0.5/0.5 | 工程 1/1.5 🔥 8.8/10 | 前25% | #多模态模型 | #鲁棒性 | arxiv 👥 作者与机构 Hyebin Cho, Suho Yoo, Jaehyuk Jang, Changick Kim, Joon Son Chung School of Electrical Engineering, KAIST 💡 毒舌点评论文选题精准，击中了多模态大模型“指鹿为马”的痛点。研究方法的“外科手术”式解剖（电路发现与因果消融）很有范儿，得出的“主动抑制”结论比“信息丢失”更有趣。但手术只做了分类手术，没敢在开放式生成的“大活人”身上试刀，说服力打折扣。反向补丁方法简单粗暴但有效，不过像是个急救措施而非根治方案，层选择全靠试，缺乏优雅的理论指导。代码开源“挤牙膏”，只给了个没链接的库名，复现门槛不低。整体看，是一篇扎实的阶段性研究，但离“完全搞清楚”还有距离。 ...

语音/音乐/音频论文速递 2026-06-18

语音/音乐/音频论文速递 2026-06-18 共分析 36 篇论文 ⚡ 今日概览 📥 抓取 36 篇 → 🔬 深度分析完成 🏷️ 热门方向方向数量分布 #语音识别 7篇 ███████ #多模态模型 5篇 █████ #语音合成 5篇 █████ #空间音频 1篇 █ #音乐生成 1篇 █ #模型评估 1篇 █ #声源定位 1篇 █ #音频生成 1篇 █ 📊 论文评分排行榜（36 篇，按分数降序）排名论文总分分档主任务 🥇 IndicContextEval: A Benchmark for Evaluating Context Ut 9.5分前25% #语音识别 🥈 Native Active Perception as Reasoning for Omni-Modal Un 9.1分前10% #语音识别 🥉 Who Wins the Conflict? Mechanistic Interpretability of 8.8分前25% #多模态模型 4. Generalised Transcoding Framework for Arbitrary Spatial 8.7分前50% #空间音频 5. Closing the Loop: PID Feedback Control for Interpretabl 8.7分前50% #音乐生成 6. GRIDEX: Grid-Grounded Forensic Explanations for Deepfak 8.6分前50% #语音合成 7. Continuous-Speech Parkinson's Disease Detection Usi 8.3分前25% - 8. Mitigating Scoring Errors and Compensating for Nonverba 8.0分前25% #多模态模型 9. A Survey of Methods for the Discretization of Phonograp 8.0分前50% - 10. Adaptive Speech-to-Spike Encoding for Spiking Neural Ne 8.0分前25% - 11. MagpieTTS-LF: Inference-Time Long-Form Speech Generatio 7.9分前25% #语音合成 12. Beyond AHI: An Interpretable Causal-Discovery-Guided Fr 7.9分前25% - 13. Evaluating Dynamic Range Compressor Models Using Contro 7.8分前50% #模型评估 14. NeuralMUSIC: A Hybrid Neural-Subspace Framework for Rob 7.8分前50% #声源定位 15. Fair Cognitive Impairment Detection Through Unlearning 7.7分前25% #多模态模型 16. Audio-to-Audio via Diffusion Warm Initialization 7.6分前25% #音频生成 17. FineCombo-TTS: Collaborative and Precise Controllable S 7.6分前25% #语音合成 18. Constraining to Generalize: Subspace Tuning for Few-sho 7.5分前25% #音频分类 19. Learning Robust Pair Confidence for Multimodal Emotion- 7.5分前50% #多模态模型 20. Montreal Forced Aligner and the state of speech-to-text 7.5分前25% #语音识别 21. Scoring Backends Matter More Than Pooling: A Systematic 7.4分前50% - 22. Reliable Neural-Codec Text-to-Speech by ASR Self-Verifi 7.4分前50% #语音合成 23. Reference-Driven Multi-Speaker Audio Scene Generation f 7.3分前50% #语音合成 24. QC-GAN: A Parameter-Efficient Quaternion Conformer GAN 7.1分前50% #语音增强 25. Augmenting Dysarthric Speech Severity Assessment with M 7.0分前50% #语音质量评估 26. Continuous Audio Thinking for Large Audio Language Mode 6.9分前50% - 27. Human-AI Coevolution Dynamics: A Formal Theory of Socia 6.7分前50% - 28. DASH: Dual-View Self-Distillation with Multi-Layer Hidd 6.6分前50% #语音识别 29. Reference-Based Recursive Least-Squares Mitigation of R 6.6分前50% - 30. Responsible ASR: Overcoming Challenges of Foundational 6.5分前50% #语音识别 31. Risk Stratification for ICU Delirium using Pervasive Am 6.5分前50% #多模态模型 32. ThinkDeception: A Progressive Reinforcement Learning Fr 6.3分前50% #强化学习 33. EMORSION: Examining the Impact of Audio Parameters on E 6.0分前50% - 34. Speech-Driven End-to-End Language Discrimination toward 5.8分前50% #语音识别 35. Low-resource Language Discrimination Towards Chinese Di 5.5分前50% #语音识别 36. SingFox: A Multi-Lingual Singfake Detection Corpus 5.4分后50% #语音伪造检测 📋 论文列表 🥇 IndicContextEval: A Benchmark for Evaluating Context Utilisation in Audio Large Language Models Across 8 Indic Languages 9.5/10 | 创新 1.5/2 | 严谨 1.3/1.5 | 实验 1.5/1.5 | 清晰 1/1 | 影响 1.0/1.5 | 开源 1.4/1.5 | 复现 0.5/0.5 | 工程 1.3/1.5 ...

A 399uW 114.3 dB DR Companding Readout ASIC for MEMS Microphones Employing a Multirate Time-Domain ADC

📄 A 399uW 114.3 dB DR Companding Readout ASIC for MEMS Microphones Employing a Multirate Time-Domain ADC 8.2/10 | 创新 1.5/2 | 严谨 1.2/1.5 | 实验 1.3/1.5 | 清晰 1/1 | 影响 1.3/1.5 | 开源 0/1.5 | 复现 0.5/0.5 | 工程 1.4/1.5 🔥 8.2/10 | 前25% | arxiv 👥 作者与机构第一作者: Javier Granizo, 西班牙卡洛斯三世大学。合作者: Ruben Garvi, Ricardo Carrero, Jorge de la Torre, Javier Fernandez (均来自卡洛斯三世大学)。工业合作者: Dietmar Straeussnigg, Andreas Wiesbauer (来自英飞凌科技奥地利股份有限公司)。通讯作者: 未明确指定。 ...

A Closer Look at Failure Modes in Temporal Understanding of Large Audio-Language Models

📄 A Closer Look at Failure Modes in Temporal Understanding of Large Audio-Language Models #多模态模型 6.6/10 | 创新 1.4/2 | 严谨 1.2/1.5 | 实验 0.9/1.5 | 清晰 1/1 | 影响 0.7/1.5 | 开源 0.3/1.5 | 复现 0.5/0.5 | 工程 0.6/1.5 ✅ 6.6/10 | 前50% | #多模态模型 | #多模态模型 | arxiv 👥 作者与机构 Apoorva Kulkarni, Kaousheik Jayakumar, Sreyan Ghosh, Sarah Wiegreffe, Dinesh Manocha, Ramani Duraiswami。 University of Maryland, College Park, USA。 💡 毒舌点评这篇论文像一个细致的“医生”，成功诊断出大音频语言模型在时序推理上“听而不闻”的毛病，并指出“调大音量”（增加总注意力）不如“调准频道”（重新分配注意力）有效。诊断过程严谨，处方（干预方法）也有初步疗效。但问题是，它只给两个“病人”（模型）看过病，且“疗效”（3.2%的准确率提升）虽无副作用（无需训练）但有些温和。结论说这能“改善病情”或许为时过早，更应定位为一个有启发性的“病理学报告”，指出了一个值得未来“新药研发”（训练时干预）去探索的方向。整体是一份扎实的诊断性工作，但离临床应用（解决实际问题）还有距离。 ...

A Neuromorphic Trigger for Efficient Audio Event Detection

📄 A Neuromorphic Trigger for Efficient Audio Event Detection #音频事件检测 6.2/10 | 创新 1.3/2 | 严谨 1/1.5 | 实验 1/1.5 | 清晰 1/1 | 影响 0.6/1.5 | 开源 0/1.5 | 复现 0.5/0.5 | 工程 0.8/1.5 ✅ 6.2/10 | 前50% | #音频事件检测 | #音频事件检测 | arxiv 👥 作者与机构 Benjamin Hatton, Oliver Rhodes, Luca Peres ICNS, University of Manchester 💡 毒舌点评这篇论文提出了一个想法不错的“看门人”——用轻量级的SNN触发器来筛选音频流，理论上能省下大量计算。听起来很美，对吧？但问题是，你用来证明自己“高效”的标尺，是来自2017年的“古董”。跟五年前甚至更早的方法比省电，这就像拿着算盘跟算盘比计算速度，却绝口不提现在大家都用计算器了。论文声称能将FLOPs降低42.6倍，AEER从0.41降到0.25，但这辉煌的“理论值”是建立在触发器完美无缺的前提下。而现实中，触发器自己就有0.416的错误率。这就好比你说给引擎加了个超省油的预热器，结果这预热器自己时不时还熄个火。论文对此的讨论轻描淡写，实在难以让人信服这个“42.6倍”在真实场景中能兑现。SNN用得有点“暴殄天物”，仅仅把它当作一个二元输出的开关，其内在的时序计算潜力未被充分挖掘。 📌 核心摘要本文针对连续音频流处理的高计算成本问题，提出了一种基于脉冲神经网络（SNN）的轻量级近传感器触发器。该触发器作为一个前置门控，负责检测音频片段中是否存在感兴趣的声学事件。其核心是一个简单的4层全连接LIF神经网络，输出脉冲序列后经过形态学滤波处理，生成时间掩模来控制后续大型分类器的运行，从而仅对显著片段进行精细处理。在URBAN-SED（类异常检测）数据集上，触发器实现了0.97的1秒段F1分数。在TUT Rare Sounds 2017（声学事件检测）数据集上，单独触发器达到了0.416的事件错误率（AEER）。理论分析表明，将此触发器与一个基准分类器（Dang模型）结合，可将整个流水线的浮点运算量（FLOPs）降低42.6倍，并将分类器的理论下限AEER从0.41优化至0.25。能耗估算显示触发器在神经形态硬件和传统45nm CMOS上的功耗极低。然而，与近期SOTA的直接对比缺失，且理论效率增益与实际触发器误差之间存在显著差距，限制了其结论的普遍性。 🔗 开源详情代码：论文中未提及代码链接模型权重：论文中未提及数据集： URBAN-SED：论文明确提及该数据集为合成数据集，由Scaper工具生成。论文引用了原始数据集论文：Salamon et al., 2014, 2017。可通过原始论文或相关开源仓库获取。论文中未直接给出获取链接，但提到了数据生成工具“Scaper”。 TUT Rare Sounds 2017 (DCASE 2017 Challenge Task 2)：论文明确使用此数据集进行评估。该数据集是DCASE 2017挑战赛的一部分，通常可以从DCASE挑战赛官网（dcase.community）获取。论文中未直接给出获取链接。 Demo：论文中未提及复现材料：论文未提供官方代码仓库或检查点，但论文本身包含了详细的复现信息，包括：触发器网络结构（表1：4层全连接LIF神经元，各层维度及参数）。训练细节（优化器：Adam，学习率0.001，带平台学习率衰减；损失函数：Van Rossum距离；后处理：开闭运算及其参数）。数据预处理（Mel频谱图参数）。评估指标和方法（分段F1分数、事件AEER等）。后触发分类器Dang模型的详细架构描述和训练配置（表6）。理论计算成本的计算方法（第4.1.3节）。这些信息足以在具备相关框架（如snntorch）的环境下复现论文中的实验。论文中引用的开源项目： snntorch：论文在第2.1节明确引用并指出使用了其实现的LIF神经元。链接：https://snntorch.readthedocs.io/ calflops：论文在图2的图注中明确提到使用此工具计算FLOPs。链接：https://github.com/MrYxJ/calflops （论文原文为“calflops (xiaoju ye, 2023)”，对应此GitHub仓库）。 Scaper：论文在第3.1节提到使用此工具生成URBAN-SED数据集。链接：https://github.com/justinsalamon/scaper （论文引用了Salamon et al., 2014, 2017，Scaper为该数据集的生成工具）。 SENeCA：论文在第4.1.3节提到使用此神经形态硬件平台进行能耗估算。链接：https://sene-chip.com/ （论文引用Tang et al., 2023，指向该硬件项目）。标签 #音频事件检测 #边缘计算 #低功耗 #形态学滤波主任务标签：#音频事件检测主方法标签：#脉冲神经网络补充标签：#边缘计算 #低功耗 #形态学滤波 ...

AI-based Cognitive-linguistic Features for Dementia Assessment in Picture Description

📄 AI-based Cognitive-linguistic Features for Dementia Assessment in Picture Description #大语言模型 5.8/10 | 创新 1.2/2 | 严谨 1/1.5 | 实验 0.8/1.5 | 清晰 1/1 | 影响 0.5/1.5 | 开源 0.2/1.5 | 复现 0.3/0.5 | 工程 0.8/1.5 📝 5.8/10 | 前50% | #语音识别 | #大语言模型 | arxiv 👥 作者与机构第一作者：Lingfeng Xu 其他作者：Prad Kadambi, Samuel Goldinger, Visar Berisha, Kimberly D. Mueller, Julie M. Liss 机构：1. College of Health Solutions, Arizona State University, USA; 2. School of Electrical, Computer and Energy Engineering, Arizona State University, USA; 3. Department of Communication Sciences and Disorders, University of Wisconsin-Madison, USA ...

An Analysis of the Effectiveness of Synthetic Speech Data for ASR Fine-tuning in Selected Indic Languages

📄 An Analysis of the Effectiveness of Synthetic Speech Data for ASR Fine-tuning in Selected Indic Languages #语音合成 #语音识别 #数据增强 #低资源 5.7/10 | 创新 1/2 | 严谨 1/1.5 | 实验 0.8/1.5 | 清晰 1/1 | 影响 0.3/1.5 | 开源 0.5/1.5 | 复现 0.5/0.5 | 工程 0.6/1.5 📝 5.7/10 | 前50% | #语音识别 | #数据增强 | #语音合成 #低资源 | arxiv 👥 作者与机构作者：Pulikodan, Basu, Kumar, Bhat, Sanka, Desai, Kumar Ghosh, Sujith Agneedh, Pavan, Pranav, Visruth, Nihar, Prasanta 机构：1 AI & Robotics Technology Park (ARTPARK), I-Hub @ IISc, Bangalore, India; 2 Department of Electrical Engineering, Indian Institute of Science, Bangalore, India ...

Are you speaking my languages? On spoken language adherence in multimodal LLMs

📄 Are you speaking my languages? On spoken language adherence in multimodal LLMs #多语言 #语音识别 #大语言模型 8/10 | 创新 1/2 | 严谨 1/1.5 | 实验 1.5/1.5 | 清晰 1/1 | 影响 1/1.5 | 开源 0.5/1.5 | 复现 0.5/0.5 | 工程 1.5/1.5 🔥 8/10 | 后50% | #语音识别 | #多语言 | #大语言模型 | arxiv 👥 作者与机构作者：Hyungwon Kim, Kandarp Joshi, Lillian Zhou, Pavel Golik, Petar Aleksic 机构：未明确说明，从作者背景推测与Google/DeepMind相关。 💡 毒舌点评这篇论文像是在为大厂现有系统的一次“用户体验优化”写报告，而非一项基础研究突破。核心工作是将三种已知的“补丁”（提示、微调、思维链）打包比较，用以解决一个工程上常见但学术上不够性感的问题——模型“说错话”。虽然结论“给个正确提示就行”听起来实用，但这更像是产品经理的发现，而非计算机科学家的贡献。依赖无法公开复现的专有模型和数据集，使得整个验证过程像个黑箱演示，严重削弱了学术说服力。LAVR度量标准的提出有一定价值，但其字符级的粗糙性与论文讨论的复杂语言现象（如代码混合）之间存在张力，限制了分析的深度。 📌 核心摘要本文聚焦于多模态大语言模型（LLM）在自动语音识别（ASR）中存在的“语言遵循性”问题，即模型常生成与输入音频语言不符的转录文本。作者将此问题形式化定义为“语言遵循违规”，并提出了字符级的“语言遵循违规率”（LAVR）作为量化度量。为缓解该问题，论文系统性地比较了三种策略：零样本提示工程、监督微调（SFT）和链式思维（CoT）推理。实验在专有的单语和语码切换数据集上进行，覆盖多种语言。主要发现包括：提供正确的语言提示能显著降低LAVR和词错率（WER）；三种方法在同等提示条件下性能相近，凸显了提示本身的决定性作用；SFT和CoT在无提示条件下因训练数据比例问题性能下降。论文最终建议集成上游语言识别模块以提供可靠的语言提示。 ...

Decision-Driven Geosteering Under Uncertainty: A Unified Framework for Sequential Decision Optimization

📄 Decision-Driven Geosteering Under Uncertainty: A Unified Framework for Sequential Decision Optimization #强化学习 7.8/10 | 创新 1.2/2 | 严谨 1.1/1.5 | 实验 1.3/1.5 | 清晰 1/1 | 影响 0.3/1.5 | 开源 1/1.5 | 复现 0.5/0.5 | 工程 1.4/1.5 ✅ 7.8/10 | 前50% | #强化学习 | #强化学习 | arxiv 👥 作者与机构 Hibat Errahmen Djecta, Sergey Alyaev, Kristian Fossum, Reidar B. Bratvold, Ressi Bonti Muhammad, Apoorv Srivastava。主要机构：NORCE Research Centre（挪威）、University of Stavanger（挪威）、Stanford University（美国）。 💡 毒舌点评这篇论文就像一个精心设计的“钻井自动驾驶仪”演示。它整合了粒子滤波和强化学习这两大经典工具，构建了一个框架，然后在这个框架里比较了三种“驾驶风格”（ADP、DRL、Dueling DRL）。工作的主要价值在于“系统性对比”和“稳定性度量”的提出，而不是算法本身的突破。实验设计得还算扎实，用了工业模拟器，跑了很多种子，结论也清晰：Dueling DRL在平滑性上确实更优。但是，整个工作被牢牢限制在了一个高度理想化的模拟环境里，缺乏真实世界的“毒打”考验。论文对“统一框架”的宣称有些名不副实，更像是把几个现有模块拼在一起进行对比实验。对于追求新算法的读者来说，可能觉得创新性不足；对于工业界来说，又可能觉得离实际部署还很远。总体而言，是一篇工整、扎实，但略显平淡的领域应用论文。 ...

Descriptor: Certus Caliber Classification Gunshot Dataset (C3GD)

📄 Descriptor: Certus Caliber Classification Gunshot Dataset (C3GD) #音频分类 #数据增强 5.9/10 | 创新 1.3/2 | 严谨 1.2/1.5 | 实验 0/1.5 | 清晰 1/1 | 影响 0.7/1.5 | 开源 0/1.5 | 复现 0.5/0.5 | 工程 1.2/1.5 📝 5.9/10 | 前50% | #音频分类 | #数据增强 | arxiv 👥 作者与机构作者：Sinclair Gurny, Ryan Quinn 机构：Certus Innovations 💡 毒舌点评这篇论文本质上是一个“我们做了个数据集”的宣言。它像一份详尽的仓库盘点清单，但仓库里没放任何新工具或新配方。作者正确地指出了现有枪声音频数据的乱象（网上扒的、标签乱标的），并自豪地推出了一套自家“田间地头”录制的、标签相对干净的录音。优点是数据量和元数据确实比前人好，缺点是这些录音棚外的“田野录音”离真实城市枪战噪音环境还差十万八千里，论文自己也承认了，然后就没然后了，连个最简单的baseline都没跑一下来证明这数据集训练出的模型哪怕比随机猜好一点。审稿人最想看到的是“我用这个数据集训练了一个模型，在XX任务上达到了SOTA”，而不是“我整理了一个数据集，你们用用看”。对于一篇本该是工具性的论文，开源细节（具体链接、协议）的缺失是硬伤，让“公开可访问”的承诺打了折扣。创新性主要体现在数据收集的严谨性和元数据的详细程度，而非技术方法。 📌 核心摘要本文介绍了Certus Caliber Classification Gunshot Dataset (C3GD)，一个用于分析枪口爆震声的公开音频数据集。数据集在可控的户外环境中（俄亥俄州农场、纽约采石场、新泽西州农场）实地采集，包含来自28种枪械、16种口径的超过8000个音频剪辑。作者旨在解决现有网络爬取数据集质量低、标签噪声大、元数据缺失的问题。C3GD提供了详细的元数据，包括枪械型号、口径、弹药类型、麦克风型号及位置等，并经过了多阶段质控。论文详细阐述了数据收集协议、处理流程（同步、剪切、特征提取建议）以及数据集结构。尽管承认数据集在声学环境多样性上的局限性，并推荐使用数据增强来弥合差距，但论文并未提供任何使用该数据集进行模型训练或评估的实验结果。其核心贡献是提供了一个高质量、结构化的音频数据资源，以支持口径分类及其他相关音频任务的研究。 🔗 开源详情代码：论文提及内部数据处理工具托管在Certus Innovations的GitHub上，但未提供具体仓库URL。提供了两个示例Python脚本（clip.py 用于剪切，features.py 用于特征提取）的描述，但未提供脚本的具体下载链接。模型权重：论文中未提及任何模型权重。数据集：论文介绍了C3GD数据集，并描述了其结构（data, metadata, scripts文件夹），但未提供具体的下载URL、DOI或开源协议信息。数据集的公开可访问性在论文中未得到实质性支撑。 Demo：未提及在线演示链接。复现材料：论文中提及在scripts文件夹中提供了示例脚本，并使用了Audacity 3.7.7版本。但如上所述，脚本的具体获取方式未说明。论文中引用的开源项目：推荐使用 audiomentations 工具库进行数据增强，并给出了其GitHub仓库链接：https://github.com/asteroid-team/audiomentations。 🏗️ 方法概述和架构本文的核心是数据集构建流程，而非机器学习模型。其方法架构可分为数据收集、数据处理、质量控制与数据集发布四个核心阶段，整体流程如图1-3所示（虽然论文未提供流程图，但文本描述了清晰的流水线）。 ...