基准测试 | 语音/音乐/音频论文速递

LALM-as-a-Judge: Benchmarking Large Audio-Language Models for Safety Evaluation in Multi-Turn Spoken Dialogues

📄 LALM-as-a-Judge: Benchmarking Large Audio-Language Models for Safety Evaluation in Multi-Turn Spoken Dialogues #语音交互 #语音大模型 #基准测试 #内容审核 #多模态模型 8.1/10 | 创新 1.2/2 | 严谨 1.1/1.5 | 实验 1/1.5 | 清晰 0.9/1 | 影响 0.8/1.5 | 开源 1.5/1.5 | 复现 0.4/0.5 | 工程 1.2/1.5 🔥 8.1/10 | 前25% | #语音交互 | #语音大模型 | #基准测试 #内容审核 | arxiv 👥 作者与机构第一作者：Amir Ivry（Technion–Israel Institute of Technology, Electrical and Computer Engineering）通讯作者：Amir Ivry（Technion–Israel Institute of Technology, Electrical and Computer Engineering）作者列表：Amir Ivry（Technion–Israel Institute of Technology, Electrical and Computer Engineering）、Shinji Watanabe（Carnegie Mellon University, Language Technologies Institute） 💡 毒舌点评这篇论文为语音安全评估贡献了一个设计精良的受控基准，最可贵之处在于清晰揭示了“增加音频不一定更安全”这一反直觉结论，并系统解构了模态、转录源和提示策略间的复杂交互。然而，所有对话均基于合成语音，真实的嘈杂环境、口音、自然副语言信息和多轮累积危害的缺失，使得当前结论能否直接迁移到实际部署中仍存较大疑问，而作者在这方面过于乐观的决策流程图可能会误导急于落地的从业者。 ...

MedMosaic: A Challenging Large Scale Benchmark of Diverse Medical Audio

📄 MedMosaic: A Challenging Large Scale Benchmark of Diverse Medical Audio #音频理解 #医疗音频 #基准测试 #数据集 #多模态模型 6.4/10 | 创新 0.8/2 | 严谨 0.8/1.5 | 实验 1.2/1.5 | 清晰 0.7/1 | 影响 1/1.5 | 开源 0.8/1.5 | 复现 0.3/0.5 | 工程 0.8/1.5 ✅ 6.4/10 | 前50% | #音频理解 | #多模态模型 | #医疗音频 #基准测试 | arxiv 👥 作者与机构第一作者：Harshit Rajgarhia（Centific Global Solutions Inc.）通讯作者：Harshit Rajgarhia（Centific Global Solutions Inc.）作者列表：Harshit Rajgarhia（Centific Global Solutions Inc.）、Shuubham Ojha（Centific Global Solutions Inc., University of Maryland, College Park）、Asif Shaik（Centific Global Solutions Inc.）、Akhil Pothanapalli（Centific Global Solutions Inc.）、Rachuri Lokesh（Centific Global Solutions Inc.）、Abhishek Mukherji（Centific Global Solutions Inc.）、Prasanna Desikan（Centific Global Solutions Inc.） 💡 毒舌点评这篇论文构建了一个规模可观（46k QA对）且设计精巧的医学音频推理基准，通过对13个前沿模型的系统评测，清晰暴露了当前多模态大模型在医学音频上的显著短板，尤其是言语理解与生理声理解的严重偏科。然而，数据完全依赖合成生成和API调用，使整个基准的价值高度绑定于特定商业模型（Gemini和ElevenLabs）的生成能力，缺乏对“真实”临床音频分布差距的严格验证；且没有开源代码、模型或完整的生成流水线，连自身宣称的“scalable”理念都无法让社区复制，工程诚意严重不足。 ...

PhoStream: Benchmarking Real-World Streaming for Omnimodal Assistants in Mobile Scenarios

📄 PhoStream: Benchmarking Real-World Streaming for Omnimodal Assistants in Mobile Scenarios #音视频问答 #基准测试 #多模态模型 #流式处理 #数据集 7.3/10 | 创新 1.2/2 | 严谨 1.2/1.5 | 实验 1.2/1.5 | 清晰 0.8/1 | 影响 0.8/1.5 | 开源 0.5/1.5 | 复现 0.3/0.5 | 工程 1.3/1.5 ✅ 7.3/10 | 前50% | #音视频问答 | #多模态模型 | #基准测试 #流式处理 | arxiv 👥 作者与机构第一作者：Xudong Lu（香港中文大学 MMLab）通讯作者：Rui Liu（华为研究，liu.rui2@huawei.com）、Hongsheng Li（香港中文大学 MMLab，hsli@ee.cuhk.edu.hk）作者列表：Xudong Lu（香港中文大学 MMLab）、Huankang Guan（华为研究）、Yang Bo（华为研究）、Jinpeng Chen（华为研究）、Xintong Guo（华为研究）、Shuhan Li（华为研究）、Fang Liu（香港城市大学）、Peiwen Sun（香港中文大学 MMLab）、Xueying Li（上海交通大学）、Wei Zhang（上海交通大学）、Xue Yang（上海交通大学）、Rui Liu（华为研究）、Hongsheng Li（香港中文大学 MMLab） 💡 毒舌点评这篇论文发现了一个真实且普遍的“模型太猴急”问题，用精心设计的流式基准把主流 MLLM 都打回了原形，Forward 任务的惨淡分数极具说服力。但作为 benchmark 论文，它过度依赖 Gemini 3 Pro 做数据生成和 Qwen3-235B 做评估，一旦这两个闭源/强模型更新，基准的稳定性和公平性就很微妙；而且在多模态流式领域，作者把“音频”当成了加分项来宣传，结果消融实验却显示开音频反而让 Forward 性能更差，这个自曝其短的结论让人既敬佩又哭笑不得。 ...

SAM Audio: Segment Anything in Audio

📄 SAM Audio: Segment Anything in Audio #音频分离 #流匹配 #多模态模型 #基准测试 #音视频 9.2/10 | 创新 1.5/2 | 严谨 1.2/1.5 | 实验 1.4/1.5 | 清晰 0.8/1 | 影响 1.4/1.5 | 开源 1/1.5 | 复现 0.5/0.5 | 工程 1.4/1.5 🔥 9.2/10 | 前10% | #音频分离 | #流匹配 | #多模态模型 #基准测试 | arxiv 👥 作者与机构第一作者：Bowen Shi（Meta SuperIntelligence Labs）通讯作者：Bowen Shi（Meta SuperIntelligence Labs）、Andros Tjandra（Meta SuperIntelligence Labs）作者列表：Bowen Shi、Andros Tjandra、John Hoffman、Helin Wang、Yi-Chiao Wu、Luya Gao、Julius Richter、Matthew Le、Apoorv Vyas、Sanyuan Chen、Christoph Feichtenhofer、Piotr Dollár、Wei-Ning Hsu、Ann Lee（均来自 Meta SuperIntelligence Labs） 💡 毒舌点评 SAM AUDIO以统一架构首次整合文本、视觉和时间跨度提示，在通用音频分离任务上取得了令人瞩目的SOTA，其精心设计的伪标签数据流水线和大规模评测体系颇具工程借鉴价值。然而，视觉提示的实际表现远逊于文本提示，且整个系统严重依赖大规模预训练和高性能硬件，在实时性或低资源场景下的适用性仍存疑。 ...

Speech-Audio Compositional Attacks on Multimodal LLMs and Their Defense with SALMONN-Guard

📄 Speech-Audio Compositional Attacks on Multimodal LLMs and Their Defense with SALMONN-Guard #音频理解 #SFT #基准测试 #内容审核 #数据集 8.3/10 | 创新 1.5/2 | 严谨 1/1.5 | 实验 1.1/1.5 | 清晰 1/1 | 影响 1/1.5 | 开源 1.5/1.5 | 复现 0.5/0.5 | 工程 0.7/1.5 🔥 8.3/10 | 前25% | #音频理解 | #SFT | #基准测试 #内容审核 | arxiv 👥 作者与机构第一作者：Yudong Yang（清华大学）通讯作者：Guangzhi Sun（剑桥大学）、Chao Zhang（清华大学）作者列表：Yudong Yang（清华大学）、Xuezhen Zhang（清华大学）、Zhifeng Han（清华大学）、Siyin Wang（清华大学）、Jimin Zhuang（清华大学）、Zengrui Jin（清华大学）、Jing Shao（上海人工智能实验室）、Guangzhi Sun（剑桥大学）、Chao Zhang（清华大学） 💡 毒舌点评本文亮点在于首次系统性地将语音-非语音音频的语义和语境组合引入多模态LLM安全红队评测，攻击方式真实且具有现实威胁性，提出的SALMONN-Guard联合模态守卫设计也展现了防御此类攻击的可行性。然而，攻击构造仍依赖人工预设的声学参数与对话脚本，缺乏自适应的攻击策略优化，使得benchmark的攻击上限不明确；防御仅使用SFT，未与对抗训练等更强基线对比，说服力不足；MSD评估将“理解错误”也计入攻击成功，该设定存在争议，可能高估了实际威胁。 ...

T2AV-Compass: Towards Unified Evaluation for Text-to-Audio-Video Generation

📄 T2AV-Compass: Towards Unified Evaluation for Text-to-Audio-Video Generation #基准测试 #多模态模型 #音视频生成 7.9/10 | 创新 1.2/2 | 严谨 1.1/1.5 | 实验 1.2/1.5 | 清晰 0.9/1 | 影响 1.2/1.5 | 开源 0.7/1.5 | 复现 0.3/0.5 | 工程 1.3/1.5 ✅ 7.9/10 | 前25% | #音视频生成 | #多模态模型 | #基准测试 | arxiv 👥 作者与机构第一作者：Zhe Cao, Tao Wang, Jiaming Wang, Yanghai Wang（并列一作，均标注为南京大学）通讯作者：Jiaheng Liu（南京大学）其他作者：Yuanxing Zhang（快手科技 Kling Team）、Jiahao Wang（南京大学）、Jialu Chen（快手科技 Kling Team）、Miao Deng（南京大学）、Chenxi Liao（南京大学）、Yize Zhang（南京大学）、Yubin Guo（南京大学）、Zhaoxiang Zhang（中国科学院自动化研究所） 💡 毒舌点评这篇论文在 T2AV 评估领域迈出了扎实的一步：500条高复杂度prompt配合同一框架下的双层级评估，确实暴露了SOTA模型在“音频真实感”和“长时叙述”上的系统性瓶颈，诊断价值明确。但MLLM-as-a-Judge的可靠性验证仅覆盖50个样本且音频Realism一致性较弱（L1高达1.420），若不能规模化解决judge bias，这套框架的权威性就只能停留在“参考级”而非“标准级”。 ...

TimeChat-Captioner: Scripting Multi-Scene Videos with Time-Aware and Structural Audio-Visual Captions

📄 TimeChat-Captioner: Scripting Multi-Scene Videos with Time-Aware and Structural Audio-Visual Captions #音视频理解 #音频字幕生成 #多模态模型 #数据集 #基准测试 #强化学习 9.4/10 | 创新 1.7/2 | 严谨 1.3/1.5 | 实验 1.4/1.5 | 清晰 0.8/1 | 影响 0.9/1.5 | 开源 1.5/1.5 | 复现 0.4/0.5 | 工程 1.4/1.5 🔥 9.4/10 | 前10% | #音视频理解 | #多模态模型 | #音频字幕生成 #数据集 | arxiv 👥 作者与机构第一作者：Linli Yao（北京大学计算机学院，快手科技Kling团队）通讯作者：Xu Sun（北京大学计算机学院）作者列表：Linli Yao（北京大学，快手科技Kling团队）、Yuancheng Wei（华南理工大学）、Yaojie Zhang（电子科技大学）、Lei Li（香港大学）、Xinlong Chen（中国科学院自动化研究所，快手科技Kling团队）、Feifan Song（北京大学）、Ziyue Wang（北京大学）、Kun Ouyang（北京大学）、Yuanxin Liu（北京大学）、Lingpeng Kong（香港大学）、Qi Liu（香港大学）、Pengfei Wan（快手科技Kling团队）、Kun Gai（快手科技Kling团队）、Yuanxing Zhang（快手科技Kling团队）、Xu Sun（北京大学） 💡 毒舌点评该工作在音视频密集字幕生成领域投下了一枚“定义即创新”的炸弹。其提出的OmniDenseCaptioning任务和SodaM评估指标，直击当前音视频理解缺乏时间粒度和结构化描述的痛点，堪称一次教科书式的任务重塑。7B开源模型在精细定义的子任务上干翻Gemini-2.5-Pro，工程整合能力令人叹服，为社区贡献了完整的开原语料。然而，剥开任务定义与指标的糖衣，模型本身是Qwen2.5-Omni与GRPO的精心调配，缺乏算法层面的范式突破。更令人警惕的是，其引以为傲的SodaM指标和训练数据完全由Gemini系列模型闭环驱动，这种“以子之矛攻子之盾”的策略虽精彩，但也埋下了系统性偏见的隐患，评估的可信度也因此被蒙上一层阴影。 ...

video-SALMONN S: Memory-Enhanced Streaming Audio-Visual LLM

📄 video-SALMONN S: Memory-Enhanced Streaming Audio-Visual LLM #音视频问答 #测试时自适应 #流式处理 #基准测试 #多模态模型 7.3/10 | 创新 1.5/2 | 严谨 1/1.5 | 实验 1/1.5 | 清晰 0.8/1 | 影响 1/1.5 | 开源 0.5/1.5 | 复现 0.3/0.5 | 工程 1.2/1.5 ✅ 7.3/10 | 前50% | #音视频问答 | #测试时自适应 | #流式处理 #基准测试 | arxiv 👥 作者与机构第一作者：Guangzhi Sun（清华大学、剑桥大学）通讯作者：Chao Zhang（清华大学，cz277@tsinghau.edu）作者列表：Guangzhi Sun（清华大学、剑桥大学）、Yixuan Li（剑桥大学）、Xiaodong Wu（剑桥大学）、Yudong Yang（剑桥大学）、Wei Li（字节跳动）、Zejun Ma（字节跳动）、Chao Zhang（清华大学） 💡 毒舌点评这篇工作将Test-Time Training首次引入流式视频理解做长期记忆增强，确实聪明且有效，TTT_MEM在极低内存预算下碾压了传统token合并方法。但作为ICML投稿，实验规模偏小、训练和推理细节多处模糊，作者对ELViM基准的创建过程讳莫如深（人工审核标准、过滤比例等一概不提），这让整个benchmark的可信度打了折扣。 📌 核心摘要该论文旨在解决流式长视频理解中，由于固定内存预算导致的累积信息丢失问题，特别是模型在长时间跨度上难以保持对早期内容的记忆。核心方法是首次在流式视频LLM中引入Test-Time Training作为长期记忆机制，提出TTT_MEM层，通过快速权重更新将短期多模态表征持续转化为内嵌于模型参数的长期记忆。与现有token合并或丢弃的流式方法不同，TTT_MEM新增了长跨度预测目标以强化长距依赖建模，辅以两阶段训练策略和模态感知的记忆读取机制，在不增加显存的同时保留了更完整的历史信息。主要实验结果显示，在16k内存token设定下，video-SALMONN S在Video-MME长视频集上达71.3%（超过非流式基线的69.6%），在LVBench上达55.4%，在VideoEvalPro上达55.8%；在自建ELViM基准上，以46.7%的绝对准确率相比非流式基线提升14.2%，相比PEMF流式基线提升8.5%。消融实验中TTT_MEM在2k内存token时即达到与普通merging在16k token时相当的精度水平。实际意义在于为需要长期连续运行的视频AI代理（如智能监控、教学辅助、远程协作）提供了更有效的记忆机制，同时不突破显存限制，为端侧部署长期视频理解提供了一种新范式。主要局限性包括：ELViM基准仅包含约1000个目标视频，规模偏小且类别集中在生活技能类，泛化性存疑；训练和推理配置细节缺失较多，复现门槛较高；TTT_MEM目前仅处理视觉token，音频信息完全绕开，尚未充分利用多模态互补性。 🔗 开源详情代码：https://github.com/bytedance/SALMONN/tree/video-salmonn-S-MEM ...

VocSim A Training-free Benchmark for Zero-shot Content Identity in Single-source Audio

📄 VocSim A Training-free Benchmark for Zero-shot Content Identity in Single-source Audio #音频检索 #基准测试 #零样本 #多语言 #低资源 #自监督学习 8.2/10 | 创新 1.2/2 | 严谨 1.2/1.5 | 实验 1/1.5 | 清晰 0.8/1 | 影响 0.8/1.5 | 开源 1.5/1.5 | 复现 0.5/0.5 | 工程 1.2/1.5 🔥 8.2/10 | 前25% | #音频检索 | #自监督学习 | #基准测试 #零样本 | arxiv 👥 作者与机构第一作者：Maris Basha（苏黎世大学神经信息学研究所与 ETH Zurich）通讯作者：Richard Hahnloser（苏黎世大学神经信息学研究所与 ETH Zurich）作者列表：Maris Basha（苏黎世大学神经信息学研究所与 ETH Zurich）、Anja Zai（苏黎世大学神经信息学研究所与 ETH Zurich）、Sabine Stoll（苏黎世大学语言进化跨学科研究所）、Richard Hahnloser（苏黎世大学神经信息学研究所与 ETH Zurich） 💡 毒舌点评这篇工作用一套训练无关的几何视角给冻结音频嵌入做了一次透彻的“体检”，GSR 的边界惩罚设计和跨语料聚合的工程勇气值得肯定，暴露出的低资源语言局部检索崩塌为社区敲响了警钟。但盲测仅限于语音域，让“OOD 泛化”的标题显得过于宏大；公共子集普遍存在的预训练重叠也使得零样本的纯净度打了折扣，而 GSR 与 Silhouette 高达 0.82 的相关性让人不禁要问：新指标的边际贡献究竟在哪里？ ...

Reasoning LLM Improves Speaker Recognition in Long-form TV Dramas

📄 Reasoning LLM Improves Speaker Recognition in Long-form TV Dramas #强化学习 #多模态模型 #基准测试 #数据集 #音视频理解 7.2/10 | 创新 1.6/2 | 严谨 1/1.5 | 实验 1/1.5 | 清晰 0.7/1 | 影响 1/1.5 | 开源 0.5/1.5 | 复现 0.3/0.5 | 工程 1.1/1.5 ✅ 7.2/10 | 前50% | #音视频理解 | #强化学习 | #多模态模型 #基准测试 | arxiv 👥 作者与机构第一作者：Yuxuan Li（未说明所属机构）通讯作者：未明确标注其他作者：Lingxi Xie， Xinyue Huo， Jihao Qiu， Jiacheng Shao， Pengfei Chen， Jiannan Ge， Kaiwen Duan， Qi Tian（均未提供完整机构信息） 💡 毒舌点评这篇论文做了一个很扎实的马鞍，但配了一匹昂贵的瘸马。DramaSR-532K 数据集构建用心，填补了长剧集复杂场景下说话人识别的空白，工程上值得肯定。但 DramaSR-LRM 方法本质上是用一个推理 LLM 做多模态证据的“阅读理解”和纠错，依赖昂贵的 Gemini-3-Pro 蒸馏和 RL 微调，还绑定了一堆大模型做周边工具。更关键的是，开源承诺目前还是张空头支票，复现门槛高得离谱。2.3% 的绝对提升聊胜于无，但为了这点收益投入的计算成本，工业界看了大概要摇头。 ...