论文速递 | 语音/音乐/音频论文速递

OmniVideo-100K: A Dataset for Audio-Visual Reasoning through Structured Scripts and Evidence Chains

📄 OmniVideo-100K: A Dataset for Audio-Visual Reasoning through Structured Scripts and Evidence Chains #数据增强 #自监督学习 #预训练 #指令微调 #多模态模型 8.2/10 | 创新 1.5/2 | 严谨 1.2/1.5 | 实验 1.3/1.5 | 清晰 1/1 | 影响 0.8/1.5 | 开源 1.4/1.5 | 复现 0.5/0.5 | 工程 0.5/1.5 🔥 8.2/10 | 前50% | #数据增强 | #数据增强 | #自监督学习 #预训练 | arxiv 👥 作者与机构 Xinyue Cai, Chaoyou Fu, Yi-Fan Zhang, Ran He, Caifeng Shan。南京大学，中国科学院自动化研究所。 💡 毒舌点评这篇论文的出发点很好，瞄准了当前音频-视觉QA数据合成中的“叙事断裂”和“浅层推理”痛点。提出的两阶段管道（实体锚定脚本+线索引导QA）在技术路线上是合理的。论文的实验部分做得相当扎实，在多个基准上展示了微调后的显著增益，且消融实验提供了有力的证据链。然而，其核心贡献更偏向于一个“数据工程”的工作包，而非具有强大理论新颖性或技术突破的方法。创新性在于精心的系统设计和组件的巧妙组合，但单个组件（如实体列表、线索挖掘）并非全新概念。最大的短板在于，其数据合成完全依赖于商用黑盒模型，这使得方法的可复现性和对数据质量的控制存在根本性隐患。论文在影响力上有所妥协，因为其核心贡献（数据集）直接服务的“音频-视觉推理”领域相对狭窄，对广大语音/音乐领域的读者直接助益有限。 ...

Orchestra-o1: Omnimodal Agent Orchestration

📄 Orchestra-o1: Omnimodal Agent Orchestration #强化学习 8.1/10 | 创新 1.2/2 | 严谨 1.1/1.5 | 实验 1/1.5 | 清晰 1/1 | 影响 0.8/1.5 | 开源 1.2/1.5 | 复现 0.5/0.5 | 工程 1.3/1.5 🔥 8.1/10 | 前50% | #强化学习 | #强化学习 | arxiv 👥 作者与机构作者: Fan Zhang, Vireo Zhang, Shengju Qian, Haoxuan Li, Hao Wu, Jinyang Wu, Donghao Zhou, Zhihong Zhu, Zheng Lian, Xin Wang, Pheng-Ann Heng 机构: 香港中文大学 (CUHK), LIGHTSPEED, 北京大学 (PKU), 清华大学 (THU), 同济大学 (Tongji University) ...

Spatio-Temporal Audio Language Modeling for Dynamic Sound Sources

📄 Spatio-Temporal Audio Language Modeling for Dynamic Sound Sources #空间音频 #音频问答 #数据集 6.9/10 | 创新 1.6/2 | 严谨 1.3/1.5 | 实验 0.6/1.5 | 清晰 1/1 | 影响 1.4/1.5 | 开源 0.1/1.5 | 复现 0.4/0.5 | 工程 0.5/1.5 ✅ 6.9/10 | 前25% | #音频问答 | #空间音频 | #数据集 | arxiv 👥 作者与机构作者：Oh Hyun-Bin (POSTECH), Kazuki Shimada (Sony AI), Yuhta Takida (Sony AI), Kim Sung-Bin (POSTECH), Toshimitsu Uesaka (Sony AI), Takashi Shibuya (Sony AI), Kyeongyoon Lee (Sungkyunkwan University), Tae-Hyun Oh (KAIST), Yuki Mitsufuji (Sony AI, Sony Group Corporation) 机构：POSTECH， Sony AI， Sony Group Corporation， Sungkyunkwan University， KAIST ...

The Holistic Storage of Verb+Up Phrases in Text-based and Audio-based Language Models

📄 The Holistic Storage of Verb+Up Phrases in Text-based and Audio-based Language Models #语音识别 8.2/10 | 创新 1.6/2 | 严谨 1.2/1.5 | 实验 1.5/1.5 | 清晰 1/1 | 影响 1/1.5 | 开源 0.8/1.5 | 复现 0.5/0.5 | 工程 0.6/1.5 🔥 8.2/10 | 前50% | #语音识别 | #语音识别 | arxiv 👥 作者与机构作者: Zachary N. Houghton, Yu Zhou, Dan Pluth, Vijay K. Gurbani 机构: University of Oregon, Vail Systems, Inc. 💡 毒舌点评这篇论文像个严谨的侦探，试图在AI的“大脑”里寻找人类语言处理的痕迹。它最大的优点是问题问得漂亮——模型是“死记硬背”整个短语，还是像拼积木一样临时组合？实验设计也算全面，从迷你模型测到大模型，从文本测到语音，证据链是完整的。但问题也很明显：你用一个“探针”去测量表征差异，就敢断定这是“整体存储”？万一只是一种更通用的“上下文敏感性”呢？论文在区分这两者上没下够功夫。另外，对Whisper encoder里发现效应的解释有点绕，缺乏更直接的验证。最让人皱眉的是局限性部分，写得像匆匆结尾的附录，把自家方法的软肋（比如探针偏差、定义操作化问题）都藏了起来。总的来说，一篇扎实但结论需要加点问号的工作。 ...

The Perceived Fragility of Explanations in Audio Models: Manipulation of Attribution with Unchanged Predictions

📄 The Perceived Fragility of Explanations in Audio Models: Manipulation of Attribution with Unchanged Predictions 7.5/10 | 创新 1.7/2 | 严谨 1.3/1.5 | 实验 1.2/1.5 | 清晰 1/1 | 影响 1/1.5 | 开源 0/1.5 | 复现 0.5/0.5 | 工程 0.8/1.5 ✅ 7.5/10 | 前25% | arxiv 👥 作者与机构 Piotr Kitłowski, Dominik Wiącek, Mateusz Modrzejewski。所属机构论文未明确提及。 💡 毒舌点评这篇论文就像给“AI法官”的判决书找到了一个隐蔽的涂改液——它能让你在完全不改变判决结果（预测）的情况下，偷偷把证据链（归因图）改得面目全非，而且人类（音频感知）还察觉不到。作者提出的“心理声学攻击”框架确实巧妙，利用人类听觉掩蔽效应藏起了扰动。但说实话，实验有点“偏科”：只攻击了两种XAI方法（Grad-CAM, LRP），样本量也只有100个，结论的普适性值得商榷。更关键的是，这篇论文本质上是在揭示一个问题，而解决问题（即构建真正鲁棒的解释）的工作留给了未来。在NeurIPS这个级别，这种“发现问题”型的工作需要极其扎实的分析和无懈可击的实验，而本文在模型多样性、XAI方法覆盖面和更广泛的消融研究上还有差距。它提出了一个重要的安全警示，但距离给出一个圆满的答案还差得远。 📌 核心摘要本文研究了音频深度伪造检测模型中事后解释方法的脆弱性。作者指出，现有的解释攻击主要在图像领域使用\(L_p\)范数进行衡量，但这与人类听觉感知无关。为此，他们提出了一个新颖的、基于心理声学的优化框架。该框架的核心是在损失函数中引入动态心理声学掩蔽阈值，目标是在严格保持模型预测类别不变且扰动对人耳不可闻的前提下，最大限度地扭曲模型的归因图（如Grad-CAM和LRP）。通过在三种不同架构（VGGish、AST、SpecTTTra）和两种XAI方法上的实验，以及使用多种感知质量指标评估，该研究证明了攻击的有效性。研究发现，基于自注意力的模型（如AST）比卷积模型更脆弱，而密集、宽带的音频信号因其更大的掩蔽预算而更容易被攻击。这揭示了现有音频可解释AI方法在安全信任方面存在的重大缺陷。 🔗 开源详情代码：https://github.com/cncPomper/Audio-XAI 模型权重：论文中未提及提供预训练模型权重。数据集：论文使用了SONICS数据集 (Rahman et al., 2025)，但未提供具体获取链接或开源协议信息。 Demo：论文中未提及提供在线演示。复现材料：论文在Impact Statement中明确声明代码仓库提供了完整的代码、配置、攻击超参数、预处理脚本和评估脚本以支持可复现性。论文中引用的开源项目：未提及具体的第三方开源项目链接。论文中提到了Grad-CAM和LRP等方法，但仅引用了相关学术论文，未提供其具体代码实现仓库的链接。 🏗️ 方法概述和架构本文提出的方法是一个针对音频模型解释的对抗性攻击优化框架，其核心目标是在满足严格的感知约束和预测保持约束下，最大化对模型归因图的扰动。 ...

Unsupervised Approaches for Global Prosodic Embedding Extraction

📄 Unsupervised Approaches for Global Prosodic Embedding Extraction #语音合成 #语音识别 #自监督学习 #对比学习 7.8/10 | 创新 1.5/2 | 严谨 1.2/1.5 | 实验 1/1.5 | 清晰 1/1 | 影响 1/1.5 | 开源 1/1.5 | 复现 0.5/0.5 | 工程 0.6/1.5 ✅ 7.8/10 | 前25% | #语音合成 | #自监督学习 | #语音识别 #对比学习 | arxiv 👥 作者与机构作者：Martin Meza, Luciana Ferrer, Pablo Riera 机构：1 Departamento de Computación, FCEyN, Universidad de Buenos Aires (UBA), Argentina; 2 Instituto de Investigación en Ciencias de la Computación (ICC), CONICET-UBA, Argentina ...

Who Spoke When in Multi-Conversation: Target Speaker Tagging Task and Benchmark

📄 Who Spoke When in Multi-Conversation: Target Speaker Tagging Task and Benchmark #说话人识别 #基准测试 8.6/10 | 创新 1.5/2 | 严谨 1.2/1.5 | 实验 1.5/1.5 | 清晰 1/1 | 影响 1.3/1.5 | 开源 0.8/1.5 | 复现 0.5/0.5 | 工程 0.8/1.5 🔥 8.6/10 | 前50% | #说话人识别 | #基准测试 | arxiv 👥 作者与机构作者：Minjae Lee, Hee-Soo Heo, Youngki Kwon, Han-Gyu Kim, You Jin Kim, Bong-Jin Lee 机构：NAVER Cloud Corporation, NAVER Corporation 💡 毒舌点评这篇论文像一个设计精良的“应用题”：它精准地指出了实际场景中说话人识别技术落地的痛点（需要同时解决“谁在何时说话”和“说话的是谁”），并为此量身定做了一套考试（TST任务）和考卷（TST-Bench）。优点在于问题定义清晰、考卷设计周全（规模大、可控、有全局标签），并通过实验证明了“做题技巧”（专用系统设计）比“直接套公式”（模块堆叠）更有效。然而，其“答题方法”（系统本身）更多是现有技术的合理组装与调优，原创性略显不足。合成数据虽然解决了隐私和可控性问题，但其与真实会话的鸿沟（朗读vs对话、缺乏自然打断和重叠等）是一个需要反复强调的“房间里的大象”，论文对此讨论尚可但解决方案有限。总体而言，它是一项扎实的工程贡献，为社区提供了一个急需的标准化评测平台，但其方法论的深度和广度距离“顶会突破”尚有一步之遥。 ...

语音/音乐/音频论文速递 2026-06-15

语音/音乐/音频论文速递 2026-06-15 共分析 26 篇论文 ⚡ 今日概览 📥 抓取 26 篇 → 🔬 深度分析完成 🏷️ 热门方向方向数量分布 #语音识别 4篇 ████ #语音合成 4篇 ████ #说话人识别 3篇 ███ #数据增强 2篇 ██ #音频问答 2篇 ██ #语音增强 1篇 █ #音乐信息检索 1篇 █ #强化学习 1篇 █ 📊 论文评分排行榜（26 篇，按分数降序）排名论文总分分档主任务 🥇 Listening with Attention: Entropy-Guided Explainability 9.6分前25% #语音识别 🥈 MaskedFOP: Polyglot Speaker Identification under Missin 9.2分前25% #说话人识别 🥉 HIDVAS: A Hearing Instrument Dataset in Various Acousti 9.0分前25% #语音增强 4. BayLing-Duplex: Native Full-Duplex Speech Dialogue with 9.0分前10% #语音合成 5. Moonlight in Latent Space: Chirality and Structural Cor 8.7分前50% #音乐信息检索 6. Who Spoke When in Multi-Conversation: Target Speaker Ta 8.6分前50% #说话人识别 7. Learning to Hear Hesitation: Continual Learning for Dis 8.3分前25% #语音识别 8. The Holistic Storage of Verb+Up Phrases in Text-based a 8.2分前50% #语音识别 9. OmniVideo-100K: A Dataset for Audio-Visual Reasoning th 8.2分前50% #数据增强 10. Orchestra-o1: Omnimodal Agent Orchestration 8.1分前50% #强化学习 11. Unsupervised Approaches for Global Prosodic Embedding E 7.8分前25% #语音合成 12. Instantaneous Pitch Estimation via Wave-U-Net-Based Fun 7.7分前25% #数据增强 13. A Deep Zero-Inflated Model of North Atlantic Right Whal 7.6分前50% #概率图模型 14. FAConformer: Frequency-Aware Convolutional Transformer 7.5分前25% #Transformer 15. From Self-Supervised Speech Models to Mixture-of-Expert 7.5分前50% #自监督学习 16. The Perceived Fragility of Explanations in Audio Models 7.5分前25% - 17. A Multi-Domain Feature Fusion Framework for Generalizab 7.4分前50% #多模态模型 18. AudioDER: A Deduplication-Enhanced Reasoning Dataset fo 7.3分前50% #音频问答 19. Beyond task performance: Decoding bioacoustic embedding 7.1分前50% - 20. Explainable and Trustworthy Speech Emotion Recognition 7.0分前50% #语音情感识别 21. FoleyGenEx: Unified Video-to-Audio Generation with Mult 7.0分前50% #语音合成 22. Spatio-Temporal Audio Language Modeling for Dynamic Sou 6.9分前25% #音频问答 23. Mask, Sample, Revise: A Revisable CTMC Inference Stack 6.8分前25% #语音合成 24. MoDiCoL: A Modular Diagnostic Continual Learning Datase 6.5分前50% #语音识别 25. Multimodal Speaker Identification in Classroom Environm 6.0分前50% #说话人识别 26. Efficiency-Performance Trade-offs in Neural Speaker Dia 5.1分后50% #说话人日志 📋 论文列表 🥇 Listening with Attention: Entropy-Guided Explainability for Transformer-Based Audio Models 9.6/10 | 创新 1.5/2 | 严谨 1.4/1.5 | 实验 1.5/1.5 | 清晰 1/1 | 影响 1.5/1.5 | 开源 1.0/1.5 | 复现 0.5/0.5 | 工程 1.2/1.5 ...

A Dual-Mode Faust-to-CLAP Compilation System

📄 A Dual-Mode Faust-to-CLAP Compilation System 8.1/10 | 创新 1/2 | 严谨 1/1.5 | 实验 0.8/1.5 | 清晰 1/1 | 影响 0.8/1.5 | 开源 1.5/1.5 | 复现 0.5/0.5 | 工程 1.5/1.5 🔥 8.1/10 | 前50% | arxiv 👥 作者与机构作者：Facundo Franchino, Stéphane Letz, Jatin Chowdhury 机构：GRAME（论文摘要部分明确提及Faust团队所属机构） 💡 毒舌点评这是一篇典型的“系统搭建”论文，解决了一个真实存在的工程痛点（Faust到CLAP的桥接与开发时热重载）。优点在于它真的造出来了，代码也开源了，对于Faust社区来说是实实在在的生产力工具。然而，从顶级会议的角度看，它的学术贡献略显单薄。核心算法（地址匹配、固定槽位）是直接的工程解决方案，缺乏理论上的新颖性或深度分析。评估部分像一份产品测试报告：在自家电脑上、用一款宿主软件、测几个简单例子，然后告诉我们“能用”。对于固定12个槽位的限制、跨平台兼容性、复杂DSP的表现、与同类工具（Camomile, Amati）的硬碰硬对比，都惜墨如金。结论中的“未来工作”画得挺大（LLVM后端、双缓冲无缝切换），但当前工作更像是一个完成了核心功能的Alpha版本。论文本身写得清晰明了，但这种清晰更凸显了其技术深度的有限。它更适合发表在音频技术社区或作为工具论文，冲击顶会需要更扎实的理论对比和更残酷的评估。 📌 核心摘要本文提出了faust2clap，一个将Faust DSP语言编译到CLAP插件标准的官方框架，并创新性地提供了静态编译和动态解释两种工作模式。静态模式通过标准的编译流程（Faust编译器 + 自定义CLAP架构文件）生成原生二进制，保证生产环境的高性能。动态模式通过监控源文件变化，利用libfaust解释器在运行时重新编译DSP，并通过一个基于地址的参数身份匹配算法和固定槽位映射方案，在结构变化时尽可能保持参数值和宿主自动化数据。该系统已集成到Faust主发行版，并提供了Python工具链和C++架构代码。评估部分在macOS+REAPER环境下验证了基本DSP的参数保持功能、重载延迟和解释器性能，但评估的广度和深度有限。 🔗 开源详情代码：https://github.com/cucuwritescode/faust2clap 模型权重：论文中未提及数据集：论文中未提及 Demo：论文中未提及复现材料：论文中提供了构建说明和依赖（CMake, libfaust, efsw），复现核心功能所需信息基本完备。论文中引用的开源项目： Faust (编程语言)：项目主页为 https://faust.grame.fr/ Clap (插件标准)：项目主页为 https://clap-plugins.org/ Heavy Compiler Collection：论文中未提供具体链接 Camomile：论文中未提供具体链接 Amati：论文中未提供具体链接 efsw：论文中未提供具体链接，但为开源文件监听库 (https://github.com/SpartanJ/efsw) Surge XT Effects：论文中未提供具体链接，但为开源项目 (https://github.com/surge-synthesizer/surge) 🏗️ 方法概述和架构本文的核心是一个统一的框架，包含两条并行的编译路径（静态路径与动态路径）以及一套贯穿两者的参数管理基础设施。其架构设计紧密围绕解决音频插件开发中效率与迭代速度的矛盾。 ...

Adaptive Turn-Taking for Real-time Multi-Party Voice Agents

📄 Adaptive Turn-Taking for Real-time Multi-Party Voice Agents #数据增强 #流式处理 6.7/10 | 创新 1.4/2 | 严谨 1.1/1.5 | 实验 1.2/1.5 | 清晰 1/1 | 影响 0.7/1.5 | 开源 0/1.5 | 复现 0.3/0.5 | 工程 1/1.5 ✅ 6.7/10 | 后50% | #数据增强 | #数据增强 | #流式处理 | arxiv 👥 作者与机构 Soumyajit Mitra, Prabhat Pandey, Abhinav Jain, Shanmukha Sahith, K V Vijay Girish。机构：Amazon AGI, IIT Kharagpur, India。 💡 毒舌点评这篇论文试图用“角色扮演”来解决一个语音对话中的棘手问题——“谁该说话”，想法是不错的。但它就像一个训练有素的演员，在剧本（合成数据）和特定舞台（RolePlayConv评估集）上表现完美，可一旦到了真实、混乱、没有剧本的会议（NOTSOFAR-1）或者去掉提词器（文本转录），演技就大打折扣。最致命的是，它精心设计的整套“表演”系统——从数据、评估到角色分配——大部分都是自产自销、自我验证的闭环，代码和数据集都锁在仓库里，这严重削弱了它声称的“突破性”价值。说白了，这是一篇工程上细致、实验上自洽，但在开放性和真实世界通用性上自我设限的系统论文。 📌 核心摘要本文针对多方语音对话中轮次转换（即决定何时发言）的难题，提出了ModeratorLM。这是一个基于语音大语言模型（LLM）的角色扮演代理，其是否介入对话的行为取决于一个明确指定的角色（如“主持人”）。系统采用分块流式处理方式。作者还引入了ModeratorLM-Think变体，它在做出决策前，会结合对话上下文和指定角色进行链式思维推理。为了训练模型，他们构建了大规模合成数据集RolePlayConv。实验表明，与没有角色条件的基线模型相比，ModeratorLM-Think在轮次转换的精确率、召回率上均有大幅提升（精确率提升超40%，召回率提升超70%），并显著减少了误打断。消融实验分析了分块策略和文本转录的影响。 ...