Posts

AVI-Bench: Toward Human-like Audio-Visual Intelligence of Omni-MLLMs

📄 AVI-Bench: Toward Human-like Audio-Visual Intelligence of Omni-MLLMs #音视频理解 #多模态模型 #基准测试 7.6/10 | 创新 1.2/2 | 严谨 1/1.5 | 实验 1.3/1.5 | 清晰 0.8/1 | 影响 1/1.5 | 开源 1/1.5 | 复现 0.3/0.5 | 工程 1/1.5 ✅ 7.6/10 | 前25% | #音视频理解 | #多模态模型 | #基准测试 | arxiv 👥 作者与机构第一作者：Yaoting Wang（复旦大学大数据学院）通讯作者：Henghui Ding（复旦大学大数据学院）作者列表：Yaoting Wang（复旦大学大数据学院）、Ziyi Zhang（华中科技大学）、Wenming Tu（上海交通大学）、Shaoxuan Xu（中国人民大学）、Wenjie Du（南洋理工大学）、Cheng Liang（上海交通大学）、Weijun Wang（清华大学智能产业研究院(AIR)）、Yuanchao Li（爱丁堡大学）、Guangyao Li（清华大学）、Hao Fei（牛津大学）、Yuanchun Li（清华大学智能产业研究院(AIR)）、Henghui Ding（复旦大学大数据学院）、Yunxin Liu（清华大学智能产业研究院(AIR)） 💡 毒舌点评这篇论文野心勃勃地构建了一个认知启发的音视频智能评测基准，四层分类法试图用精巧的数学公式来量化“类人”智能。然而，这套公式的惩罚系数（α=0.5）选择得相当随意，其理论或实证根据约等于零，更像是为了给一个朴素的直觉套上学术外衣。论文声称追求“类人”智能，却将与人类表现的巨大差距简单归因于模型能力不足，而对基准任务本身可能存在的、未对齐人类能力评估的深层问题避而不谈，这无疑是一种自我实现的预言。 ...

AVTrack: Audio-Visual Tracking in Human-centric Complex Scenes

📄 AVTrack: Audio-Visual Tracking in Human-centric Complex Scenes #音视频理解 #多模态模型 9.3/10 | 创新 1.5/2 | 严谨 1.3/1.5 | 实验 1.3/1.5 | 清晰 1/1 | 影响 1/1.5 | 开源 1.2/1.5 | 复现 0.5/0.5 | 工程 1.5/1.5 🔥 9.3/10 | 前10% | #音视频理解 | #多模态模型 | arxiv 👥 作者与机构第一作者：Yaoting Wang（复旦大学大数据学院、计算机科学技术学院/人工智能学院）通讯作者：Henghui Ding hhding@fudan.edu.cn（复旦大学大数据学院、计算机科学技术学院/人工智能学院）作者列表：Yaoting Wang（复旦大学大数据学院、计算机科学技术学院/人工智能学院）、Yun Zhou（同上）、Zipei Zhang（同上）、Henghui Ding（同上） 💡 毒舌点评 AVTrack用一个精心策划的、仅含测试集的基准，漂亮地撕下了现有AVIS方法在真实复杂场景下的“遮羞布”。八个挑战维度覆盖全面，让那些在简单场景中“称王称霸”的模型原形毕露——HOTA不足21，堪称惨烈。然而，论文提出的“救世主”基线AVTracker，本质上是一个靠堆砌VLM和SAM“老本”的模块化流水线。其推理开销大到离谱（每帧18,900 GFLOPs），速度仅为0.21 FPS，且整个基准不提供训练集，让“如何在这套场景上通过训练真正变强”成为一个悬而未决的开放问题。这更像是一个昂贵的“鉴定师”，而非一个实用的“解题者”。 📌 核心摘要本论文针对现有人中心音频视觉实例分割（AVIS）基准场景简单、缺乏动态挑战的问题，提出了AVTrack数据集，包含871个视频、3120个精细标注的实例轨迹，覆盖视觉遮挡、相机运动变化、多轮说话等八类复杂条件。该数据集定位为纯测试集，旨在提供一个长期稳定的评估平台。方法上，论文设计了一个基于模块化流水线的基线AVTracker，利用Whisper转写与说话人嵌入进行语块聚合，再配合视觉大模型（VLM）Qwen3-VL和SAM3在局部窗口内建立音视对应，最后通过全局推理模块关联同一说话人的轨迹片段。与以往端到端AVIS方法相比，AVTracker的独特之处在于其训练无关、可插拔的模块化架构，直接用文本语义桥接音频和视觉。在AVTrack上的实验表明，主流VIS方法HOTA<12，最强AVIS方法HOTA<21，而AVTracker达到了29.08 HOTA，领先约8个点。此外，论文还与商业模型Gemini 2.5 Pro进行了零样本对比，其HOTA仅为14.4，进一步证明了AVTrack的挑战性。该基准为评估复杂场景下的人中心音视理解提供了有价值的测试平台；其主要局限是计算代价极高，且纯测试集设计使模型无法利用场景内训练数据进行适配。主要实验结果如下（表2摘要，数值为百分比）：方法类型方法名称 HOTA DetA AssA IDF1 MOTA VIS VITA 9.70 10.54 9.35 12.32 1.91 VIS LBVQ 10.29 11.77 9.36 12.87 1.98 VIS CAVIS 11.46 12.10 10.07 12.95 1.96 AVIS AVISM 20.84 23.22 19.53 26.57 3.95 AVIS ACVIS 20.60 22.59 19.66 26.23 4.23 AVIS AVTrackFormer 21.47 22.51 20.26 26.41 4.11 AVIS AVTracker 29.08 31.18 28.47 34.55 16.20 🔗 开源详情代码：论文仅提供了项目网站，未提及公开代码仓库。模型权重：论文未提及提供模型权重。数据集：论文声明提供数据集下载，但报告中未提及可直接访问的下载链接。根据摘要，项目网站为 https://FudanCVL.github.io/AVTrack/。 Demo：论文中未提及。复现材料：论文附录F提供了基线AVTracker的实现细节和超参数配置，附录G提供了VLM推理所用的提示，但未提供可直接运行的代码和检查点。论文中引用的开源项目： SAM (Kirillov et al., 2023) Grounded-SAM (Ren et al., 2024) Mask2Former (Cheng et al., 2022) VITA (Heo et al., 2022) Qwen3-VL (Bai et al., 2025) Whisper (Radford et al., 2023) SpeechBrain / ECAPA-TDNN (Desplanques et al., 2020) MossFormer2 (Zhao et al., 2024) SAM 3 (Carion et al., 2025) 🏗️ 方法概述和架构 AVTracker是一个三阶段、完全基于预训练模型的模块化流水线，不进行任何任务特定训练。其核心思想是利用文本作为音频和视觉之间的语义桥梁，通过"局部音视匹配+全局身份关联"的策略完成追踪。 ...

BAT: Better Audio Transformer Guided by Convex Gated Probing

📄 BAT: Better Audio Transformer Guided by Convex Gated Probing #音频分类 #音频事件检测 #语音识别 #自监督学习 #Transformer 8.6/10 | 创新 1.5/2 | 严谨 1.3/1.5 | 实验 1.4/1.5 | 清晰 0.8/1 | 影响 1/1.5 | 开源 1/1.5 | 复现 0.4/0.5 | 工程 1.2/1.5 🔥 8.6/10 | 前25% | #音频分类 | #自监督学习 | #音频事件检测 #语音识别 | arxiv 👥 作者与机构第一作者：Houtan Ghaffari（Ghent University）、Lukas Rauch（University of Kassel，现就职于 Earth Species Project）（并列一作）通讯作者：Houtan Ghaffari（Ghent University）、Lukas Rauch（University of Kassel）作者列表：Houtan Ghaffari（Ghent University）、Lukas Rauch（University of Kassel，现就职于 Earth Species Project）、Christoph Scholz（University of Kassel，Fraunhofer IEE）、Paul Devos（Ghent University）发表于 ICML 2026，首尔，韩国 💡 毒舌点评论文以鲜明的"探测优先于微调"的评估哲学切入，提出的 CGP 和 BAT 形成了一套从评估到模型设计的闭环，实验维度相当完整且可复现性意识强。不过，其 AS-2M 的最终微调性能未能超越已报告 SOTA（Reported SSLAM 50.2 vs BAT 48.85），且性能提升的来源存在一定"调参红利"嫌疑，部分结论的泛化性仍待更严格的跨框架验证。 ...

BEAT: Tokenizing and Generating Symbolic Music by Uniform Temporal Steps

📄 BEAT: Tokenizing and Generating Symbolic Music by Uniform Temporal Steps #音乐生成 #自回归模型 #实时处理 #多任务学习 7.6/10 | 创新 1.2/2 | 严谨 0.9/1.5 | 实验 0.9/1.5 | 清晰 0.8/1 | 影响 0.9/1.5 | 开源 1.5/1.5 | 复现 0.4/0.5 | 工程 1/1.5 ✅ 7.6/10 | 前25% | #音乐生成 | #自回归模型 | #实时处理 #多任务学习 | arxiv 👥 作者与机构第一作者：Lekai Qian（华南理工大学）通讯作者：Lekai Qian（华南理工大学）、Ziyu Wang（Mohamed bin Zayed University of Artificial Intelligence / 纽约大学）作者列表：Lekai Qian（华南理工大学）、Haoyu Gu（华南理工大学）、Jingwei Zhao（新加坡国立大学）、Ziyu Wang（Mohamed bin Zayed University of Artificial Intelligence / 纽约大学） 💡 毒舌点评亮点在于将钢琴卷的稀疏性与节拍网格的规律性注入 token 化设计，用节拍内基‑3 编码和相对音高实现了紧凑、时移/移调具有部分不变性的表示，并天然适配实时因果生成，思路干净利落。短板上，严格依赖量化 MIDI，对演奏 MIDI 几乎直接失效；节拍内模式词汇随分辨率 τ 呈指数长尾分布，细粒度韵律建模受限；实时伴奏对比的基线仅 SongDriver，有自卖自夸之嫌。 ...

BFCL Audio: An Audio Function Calling Evaluation for Large Language Models

📄 BFCL Audio: An Audio Function Calling Evaluation for Large Language Models #基准测试 #语音交互 #多模态模型 #模型比较 7.7/10 | 创新 1.2/2 | 严谨 1.2/1.5 | 实验 1/1.5 | 清晰 1/1 | 影响 0.8/1.5 | 开源 1/1.5 | 复现 0.3/0.5 | 工程 1.2/1.5 ✅ 7.7/10 | 前25% | #语音交互 | #多模态模型 | #基准测试 #模型比较 | arxiv 👥 作者与机构第一作者：Huanzhi Mao（University of California, Berkeley）通讯作者：Huanzhi Mao（University of California, Berkeley）作者列表：Huanzhi Mao（University of California, Berkeley）、Aditya Ghai（University of California, Berkeley）、Imra Dawoodani（University of California, Berkeley）、Tony A Ginart（Salesforce AI Research）、Shishir G Patil（University of California, Berkeley）、John Emmons（Salesforce AI Research）、Joseph E. Gonzalez（University of California, Berkeley） 💡 毒舌点评首次系统评估音频function calling，其可控合成管道和无需LLM裁判的自动评分机制，为语音Agent的鲁棒性问题提供了清晰的归因分析。但工作本质上仍是现有BFCL基准向语音模态的延伸，且完全依赖合成数据，在真实场景的生态效度和结论的泛化性上存在硬伤。 ...

Bioacoustic Geolocation: Species Sounds as Geographic Signals

📄 Bioacoustic Geolocation: Species Sounds as Geographic Signals #音频分类 #对比学习 #多任务学习 #数据集 5.8/10 | 创新 0.8/2 | 严谨 0.8/1.5 | 实验 1/1.5 | 清晰 0.9/1 | 影响 0.4/1.5 | 开源 0.5/1.5 | 复现 0.4/0.5 | 工程 1/1.5 📝 5.8/10 | 前50% | #音频理解 | #对比学习 | #音频分类 #多任务学习 | arxiv 👥 作者与机构第一作者：Mustafa Chasmai（University of Massachusetts, Amherst）通讯作者：Mustafa Chasmai（University of Massachusetts, Amherst）作者列表：Mustafa Chasmai、Wuao Liu、Subhransu Maji、Grant Van Horn（均来自 University of Massachusetts, Amherst） 💡 毒舌点评本文瞄准了一个有趣但极为小众的问题：利用生物声学信号进行全球尺度地理定位。核心思想——以物种分布范围作为定位的强先验——具有一定的洞见性。但方法层面上的贡献单薄得令人失望：AG-CLIP 本质上只是 GeoCLIP 的音频适配版，再加一个物种清单预测的辅助损失，两个组件的组合方式在 2025 年看来过于直白，缺乏方法学上的深度。更致命的是，模型在真实的黎明合唱场景（XCDC）下几乎完全失效（区域准确率仅4.3%），而作者对性能瓶颈的剖析仅停留在"分布偏移"和"物种重叠"的层面，缺乏深入的诊断实验，也未能提供任何有效的解决方案。论文的系统性基准测试值得肯定，但作为一个声称要"奠定地基"的工作，缺乏足够的算法贡献来支撑这一雄心。 ...

Bridging the Stability-Expressivity Gap: Synthetic Data Scaling and Preference Alignment for Low-Resource Spoken Language Models

📄 Bridging the Stability-Expressivity Gap: Synthetic Data Scaling and Preference Alignment for Low-Resource Spoken Language Models #语音合成 #后训练 #自监督学习 #低资源 #多语言 8/10 | 创新 1.4/2 | 严谨 1.2/1.5 | 实验 1.3/1.5 | 清晰 0.9/1 | 影响 1.2/1.5 | 开源 0.5/1.5 | 复现 0.4/0.5 | 工程 1.1/1.5 🔥 8/10 | 前25% | #语音合成 | #后训练 | #自监督学习 #低资源 | arxiv 👥 作者与机构第一作者：Yizhong Geng（北京邮电大学）通讯作者：Xiaoyu Shen（Eastern Institute of Technology, Ningbo）作者列表：Yizhong Geng（北京邮电大学）、Yanliang Li（Beijing Logic Intelligence Technology）、Jinghan Yang（北京邮电大学）、Tianhan Jiang（University of California, USA）、Boxun An（Northwestern University, USA）、Ya Li（北京邮电大学）、Xiaoyu Shen（Eastern Institute of Technology, Ningbo） 💡 毒舌点评本文敏锐地抓住低资源SLM中合成数据泛滥引发的“越稳定越单调”的分布塌缩现象，并将Flow-Matching架构的内在解耦设计巧妙地转化为无需人工标注的自对齐信号，思路相当漂亮。然而，TDSC对目标语言ASR模块的硬依赖限制了其在最极端的语言上的用武之地，且整个pipeline的计算开销在资源受限场景下的性价比分析仍然缺席。 ...

Characterizing the Predictive Impact of Modalities with Supervised Latent-Variable Modeling

📄 Characterizing the Predictive Impact of Modalities with Supervised Latent-Variable Modeling 6.4/10 | 创新 1/2 | 严谨 1/1.5 | 实验 1/1.5 | 清晰 0.8/1 | 影响 0.4/1.5 | 开源 1/1.5 | 复现 0.4/0.5 | 工程 0.8/1.5 ✅ 6.4/10 | 前50% | #变分自编码器 | arxiv 👥 作者与机构第一作者：Divyam Madaan（New York University, Courant Institute of Mathematical Sciences）通讯作者：Divyam Madaan（New York University, Courant Institute of Mathematical Sciences）（原文未明确区分通讯作者，但根据惯例和联系方式可推断）作者列表：Divyam Madaan（New York University, Courant Institute of Mathematical Sciences）、Sumit Chopra（New York University, Courant Institute of Mathematical Sciences; Grossman School of Medicine）、Kyunghyun Cho（New York University, Courant Institute of Mathematical Sciences; CIFAR LMB） 💡 毒舌点评本文提出了一个有洞察力的方向：不止于填补缺失模态，而是刻画缺失模态对预测结果的影响。通过潜变量建模与方差度量 V，巧妙地将缺失模态带来的不确定性转化为可解释的信号。然而，实验规模停滞在小数据集与两个模态的组合，且对“模态影响度量本身如何被验证”这一核心挑战几乎未触及，使得量化分析的结果停留在启发式层面，难以严格评估其可靠性。方法在单模态预测任务上的性能甚至未能完全复现简单基线的效果，这引发了对其判别式训练目标有效性的根本性质疑。 ...

CMI-RewardBench: Evaluating Music Reward Models with Compositional Multimodal Instruction

📄 CMI-RewardBench: Evaluating Music Reward Models with Compositional Multimodal Instruction #音乐生成 #基准测试 #数据集 #参数高效微调 6.4/10 | 创新 1.2/2 | 严谨 1/1.5 | 实验 1.2/1.5 | 清晰 0.8/1 | 影响 1/1.5 | 开源 0.3/1.5 | 复现 0.2/0.5 | 工程 0.7/1.5 ✅ 6.4/10 | 前50% | #音乐生成 | #参数高效微调 | #基准测试 #数据集 | arxiv 👥 作者与机构第一作者：Yinghao Ma (Queen Mary University of London) 和 Haiwen Xia (Peking University) 为同等贡献通讯作者：Yinghao Ma (yinghao.ma@qmul.ac.uk), Emmanouil Benetos (emmanouil.benetos@qmul.ac.uk) 作者列表：Yinghao Ma (Queen Mary University of London), Haiwen Xia (Peking University), Hewei Gao (Technical University of Munich; Technical University of Denmark), Weixiong Chen (Queen Mary University of London), Yuxin Ye (Beijing University of Post and Telecommunications), Yuchen Yang (Soochow University), Sungkyun Chang (Queen Mary University of London), Mingshuo Ding (Peking University), Yizhi Li (University of Manchester), Ruibin Yuan (Hong Kong University of Science and Technology), Simon Dixon (Queen Mary University of London), Emmanouil Benetos (Queen Mary University of London) 💡 毒舌点评论文构建了一套相对完整的音乐RM评估体系，数据规模可观，基准设计用心。但方法本质上是双塔+Transformer融合范式的领域迁移，创新性有限；代码、模型和数据集均只给出一纸声明而无具体链接，开源态度令人失望；对单一预训练编码器的强绑定使得RM的上限被锁死，歌词与跨模态理解能力仍是硬伤。 ...

CoCoEmo: Composable and Controllable Human-Like Emotional TTS via Activation Steering

📄 CoCoEmo: Composable and Controllable Human-Like Emotional TTS via Activation Steering 7.1/10 | 创新 1.5/2 | 严谨 1/1.5 | 实验 1/1.5 | 清晰 0.8/1 | 影响 1/1.5 | 开源 1/1.5 | 复现 0.3/0.5 | 工程 0.5/1.5 ✅ 7.1/10 | 前50% | #语音合成 | arxiv 👥 作者与机构第一作者：Siyi Wang（The University of Melbourne, Australia）通讯作者：Ting Dang（The University of Melbourne, Australia）作者列表：Siyi Wang（The University of Melbourne）、Shihong Tan（Wuhan University, China）、Siyi Liu（The Hong Kong University of Science and Technology (Guangzhou), China）、Hong Jia（The University of Auckland, New Zealand）、Gongping Huang（Wuhan University, China）、James Bailey（Monash University, Australia）、Ting Dang（The University of Melbourne） 💡 毒舌点评这篇论文将大语言模型（LLM）中炙手可热的激活转向技术，系统地“移植”到了语音合成的混合情感控制上。其“SLM而非声学模块才是情感表达总导演”的核心洞察，是一项扎实的经验发现，为“在哪里转向”提供了原则性指导，工程价值显著。然而，方法的技术内核（均值差向量、线性探针选层）是领域内标准操作的直接应用，理论深度有限。线性可加性的强假设、对离散标签的依赖，以及实验对比中暴露的某些指标未能超越指令基线的尴尬，都让它更像一次扎实的实证分析报告，而非一锤定音的方法论突破。 ...