基准测试 | 语音/音乐/音频论文速递

Boosting Omni-Modal Language Models: Staged Post-Training with Visually Debiased Evaluation

📄 Boosting Omni-Modal Language Models: Staged Post-Training with Visually Debiased Evaluation #多模态模型 #基准测试 #数据清洗 #后训练 #评测协议 📝 5.5/10 | 前50% | #多模态模型评估 | #后训练 #自蒸馏 | #多模态模型 #基准测试 | arxiv 学术质量 5.0/8 | 影响力 0.7/2 | 可复现性 0.1/1 | 置信度中 👥 作者与机构第一作者：Che Liu (根据作者列表顺序推断) 通讯作者：Fei Tian (tianfei@stepfun.com， StepFun) 作者列表：Che Liu (StepFun, Imperial College London)， Lichao Ma (StepFun, Peking University)， Xiangyu Tony Zhang (StepFun, The University of New South Wales)， Yuxin Zhang (StepFun, Shanghai Jiao Tong University)， Haoyang Zhang (StepFun, Peking University)， Xuerui Yang (StepFun)， Fei Tian (StepFun，通讯作者) 💡 毒舌点评论文直击全模态模型评测的核心痛点——视觉捷径导致的性能虚高，并为此提出了系统化的去偏评测协议(OmniClean)，这为社区提供了急需的、更干净的评估工具，具有明确的实用价值；然而，作为核心方法贡献的OmniBoost方案，本质上是将现有的SFT、RLVR和自蒸馏技术按固定顺序进行组合与调优，缺乏在算法或模型架构层面的根本性创新，且整个实证研究被严格限制在一个特定模型家族(Qwen2.5-Omni-3B)上，极大地削弱了其结论的普适性与指导意义。 ...

MMTB: Evaluating Terminal Agents on Multimedia-File Tasks

📄 MMTB: Evaluating Terminal Agents on Multimedia-File Tasks #基准测试 #音视频 #系统设计 🔥 60/10 | 前25% | #基准测试 | #系统设计 | #音视频 | arxiv 学术质量 6.7/8 | 影响力 0.8/2 | 可复现性 0.8/1 | 置信度高 👥 作者与机构第一作者：Chiyeong Heo（POSTECH GSAI）通讯作者：Jungseul Ok（POSTECH GSAI, POSTECH CSE）作者列表：Chiyeong Heo（POSTECH GSAI）、Jaechang Kim（POSTECH GSAI）、Junhyuk Kwon（POSTECH GSAI）、Hoyoung Kim（National AI Research Lab）、Dongmin Park（Krafton AI）、Jonghyun Lee（Krafton AI）、Jungseul Ok（POSTECH GSAI, POSTECH CSE） 💡 毒舌点评本文定义了一个重要的评估缺口（多媒体文件工作流），并提出了对应的基准（MMTB）和评估框架（Terminus-MM）。核心贡献在于填补空白和提供系统性的消融证据。然而，论文的“现实世界”代表性存在根本性缺陷：1）所有任务均在受控、自包含的沙箱中完成，与真实工作流中充满干扰、网络依赖和复杂交互的环境相去甚远；2）声称的“付费工作流”来源仅体现在任务描述的灵感上，但实际任务经过了高度简化和包装，例如，105个任务中60个（57%）被最佳系统同时解决失败，这强烈暗示任务难度或现实性不足。此外，Terminus-MM的“原生感知”工具（listen_audio, watch_video）被严重黑箱化，其内部调用的模型（例如是Gemini的原生能力还是独立的ASR/VLM模型）未做任何说明，这使得“原生访问”与“命令行工具”的对比在公平性上存疑，因为前者的计算成本和延迟可能已被外部化。 📌 核心摘要要解决什么问题：现有的终端代理基准主要关注文本、代码和结构化文件，缺乏对现实世界中广泛存在的、需要直接操作音频/视频文件的多媒体文件工作流（Multimedia-File Tasks）的评估。方法核心是什么：本文提出了一个多模态终端代理基准MMTB（包含105个来自真实付费工作流的任务）和一个多媒体终端代理框架Terminus-MM。Terminus-MM扩展了Terminus-2和Terminus-KIRA，增加了原生音频感知工具listen_audio和原生视频感知工具watch_video。其关键设计是“工作空间感知的工具路由”或“模态掩码”机制：在任务开始时，框架扫描工作空间的文件扩展名，动态确定存在的媒体模态（音频、视频、图像），并只向代理的LLM后端暴露与之对应的感知工具。与已有方法相比新在哪里：首次在终端代理评估中引入内容感知（Content-aware）和跨文件工作流（Cross-file workflow）的多媒体任务。系统性地证明了原生多模态访问（直接理解音频/视频内容）相较于通过命令行工具（如ffmpeg、ASR）进行间接转换和处理，在效率和成本上的显著优势。主要实验结果如何：在Gemini-3.1-Pro模型上，提供完整原生模态访问（文本+图像+音频+视频）的Terminus-MM取得了最高成功率（二元成功率0.371，部分成功率0.469），显著优于仅文本访问的Terminus-2（0.124， 0.162）。消融实验表明，原生音频和视频访问是性能提升的主要贡献。当原生模态缺失时，依赖命令行工具转换会导致API成本平均增加1.63x至7.72x，最差情况超过30x。移除动态工具路由（模态掩码）会导致性能下降（如Gemini-3.1-Pro上二元成功率从0.371降至0.324）。失败分析显示，Terminus-MM的主要失败原因是模型推理错误（47%），而商用CLI工具Codex CLI则有更高比例的工具操作相关失败（尤其是超时，39%）。实际意义是什么：为开发和评估能够处理现实世界多媒体文件工作流的AI代理提供了标准化基准；揭示了原生多模态感知对于提升代理效率、降低成本和可靠性的关键作用；为未来多媒体代理系统的设计指明了方向。主要局限性是什么：未提供与人类专家基线的直接比较；基准任务规模（105个）和多样性可能不足以完全覆盖所有现实场景；所有评估均在固定10分钟预算内进行，未探索更长预算下的行为；“原生感知”工具的内部实现细节未公开。 🔗 开源详情代码：https://github.com/mm-tbench/multimedia-terminal-bench 模型权重：论文中未提及提供模型权重下载链接。论文中使用的Qwen3.5-122B、GPT-5.2、Gemini-2.5-Flash、Gemini-3.1-Pro、Sonnet-4.6等均为第三方闭源模型或需通过API/订阅服务访问。Terminus-MM作为工具框架，其本身不包含模型权重。数据集：MultiMedia-TerminalBench (MMTB) 数据集。获取链接：https://huggingface.co/datasets/mm-tbench/mmtb-media。数据集包含Per-asset media licenses记录在各任务的media.toml中，以CC-BY, CC0, 和 public-domain为主，并包含一个符合Croissant 1.0标准的元数据文件。 Demo：论文中未提及在线演示链接。项目主页为：https://mm-tbench.github.io/multimedia-terminal-bench/ 复现材料：论文详细描述了评估设置，包括任务格式（Harbor任务）、评估协议、代码仓库和附录中的实现细节。完整的复现需要代码仓库、任务数据集以及访问所使用的模型API。论文中引用的开源项目： Terminal-Bench：论文中的基准测试格式和部分任务设计参考自此项目。链接：https://github.com/terminal-bench/terminal-bench Terminus-2：作为基础的文本终端代理框架。链接：https://github.com/terminal-bench/terminal-bench (Terminal-Bench项目的一部分) Terminus-KIRA：增加了原生图像感知的终端代理框架，采用Apache-2.0许可。链接：https://github.com/terminal-bench/terminus-kira ffmpeg：广泛使用的音视频处理命令行工具。链接：https://ffmpeg.org/ LilyPond：用于乐谱排版的音乐记谱语言和程序。链接：https://lilypond.org/ FluidSynth：软件合成器，用于将MIDI转换为音频。链接：https://www.fluidsynth.org/ Kokoro-82M：论文中提及的一个采用Apache-2.0许可的语音合成模型，用于生成实验中的合成语音。 Godot：开源游戏引擎，用于生成游戏QA任务的视频素材。链接：https://godotengine.org/ Wav2Lip：用于口型同步的视频合成工具。链接：https://github.com/Rudrabha/Wav2Lip reportlab / wkhtmltopdf：用于PDF文档生成的工具。链接：https://www.reportlab.com/ 和 https://wkhtmltopdf.org/ matplotlib：用于生成图表和示意图的Python库。链接：https://matplotlib.org/ music21：用于分析和处理音乐表示的Python工具包。链接：https://web.mit.edu/music21/ 相关基准测试与框架（未直接提供代码链接，但在论文中被引用比较）： WebArena / VisualWebArena OSWorld OmniBench JointAVBench AVTrustBench OmniPlay VideoWebArena Claude Code Codex CLI SWE-bench / MLE-bench / AppWorld 🏗️ 方法概述和架构本文的核心工作是设计并构建一个名为MMTB（MultiMedia-TerminalBench）的评估基准，以及一个用于在该基准上评估的多媒体终端代理框架Terminus-MM。该系统旨在评估终端代理在处理以音视频文件为核心对象的复杂工作流时的能力。 ...

The Deepfakes We Missed: We Built Detectors for a Threat That Didn't Arrive

📄 The Deepfakes We Missed: We Built Detectors for a Threat That Didn’t Arrive #深度伪造检测 #音频深度伪造检测 #基准测试 #评测协议 #内容审核 #立场论文 #文献计量 ✅ 6.5/10 | 前50% | #深度伪造检测 | #基准测试 | #音频深度伪造检测 #评测协议 | arxiv 学术质量 7.0/8 | 影响力 1.5/2 | 可复现性 0.5/1 | 置信度高 👥 作者与机构第一作者：Shaina Raza（Vector Institute for Artificial Intelligence, Toronto, Canada; 多伦多城市大学）通讯作者：论文未明确标注通讯作者。作者列表：Shaina Raza（Vector Institute for Artificial Intelligence, Toronto, Canada；多伦多城市大学） 💡 毒舌点评这篇立场论文以文献计量为刃，精准解剖了深度伪造检测领域近十年的“错位”症候群。其核心价值不在于技术突破，而在于以无可辩驳的实证数据揭示了研究议程与社会危害之间的巨大鸿沟，并尖锐地指出这种错位已成为部署有效防御的主要瓶颈。然而，其“威胁未以预测形式到来”的核心论断在力度上稍显不足，且对“威慑论”的反驳主要依赖间接证据。论文的警示意义远大于其提供的技术解决方案。 📌 核心摘要问题：本文指出，自2017年以来，深度伪造检测研究一直围绕一个继承自2017-2019年、以“公众人物换脸/说话头视频”（T1）为主的威胁模型，但该威胁模型预测的大规模政治灾难并未在2024年全球选举周期中如期出现。与此同时，非自愿亲密图像（NCII）、语音克隆诈骗等实际危害已大规模爆发，研究重心与实际危害分布存在严重错位。方法核心：本文是一篇立场论文，其核心方法是一个四阶段分析框架：(1) 威胁模型考古，追溯当前研究主流威胁模型的起源；(2) 实证错位分析，通过文献计量（438篇论文）和危害数据综合（来自IC3， IWF等），量化研究努力与实际危害的分布差异；(3) 机制诊断，分析基准继承、数据伦理不对称、显著性驱动关注等导致错位持续的原因；(4) 提出三个面向被忽视危害类别的具体技术研究议程。创新点：提出了清晰的五类威胁分类法（T1-T5），并通过大规模实证分析系统性地量化了领域内资源与社会危害之间的错位。超越现象描述，深入诊断了维持这种错位的结构性原因，并勾勒了针对现实危害的研究路线图。主要结果：研究分布：在389篇检测方法论文中，71.0%（276篇）针对T1（公众人物视频），28.5%（111篇）针对T3（音频），而T2（1篇）、T4（0篇）、T5（1篇）几乎为零。危害趋势：IWF评估的AI生成CSAM视频在2024-2025年间增长260倍（从13个到3,443个）；IC3报告的合成媒体相关投诉呈数量级增长。相比之下，2024年全球选举周期中未有记录证明合成政治视频根本性地改变了选举结果，相关事件多由人类而非ML系统识别。错位加剧：在对数刻度下，T1论文数量呈线性增长，而危害指标呈指数增长，差距在持续扩大。实际意义：论文明确呼吁ML社区、会议、资助机构和平台将研究议程重新平衡，投向危害真实增长的领域（如实时语音克隆检测、隐私保护的NCII检测、消息层防御），并提出了具体的行动建议。主要局限性：论文明确承认其文献语料库可能低估了安全、HCI等领域的工作；危害数据依赖公开报告，存在漏报偏差；对论文和基准的分类涉及主观判断；且无法通过反事实分析证明现有研究未对政治deepfake产生威慑。 🔗 开源详情代码：论文提及在补充材料中包含了用于构建438篇论文语料库的收集脚本和关键词列表（见附录A），但未提供具体的代码仓库链接（如GitHub）。这与“has_code: 是”的机器摘要判断一致。模型权重：论文未提出新模型，故无模型权重。数据集：论文引用了多个用于研究和基准测试的公开数据集（如FaceForensics++, Celeb-DF, DFDC等，见附录C Table 2），但并未提供新的数据集。 Demo：未提及。复现材料：论文详细描述了其文献收集、分类的方法论（附录A, B），并表示在补充材料中包含了收集脚本和关键词规则。这为复现其核心文献分析提供了基础。危害数据综合部分属于定性研究，复现性较低。论文中引用的开源项目：论文作为一篇立场论文，主要引用学术研究和数据集作为论据。文中提到的实体如StopNCII.org、IWF、IC3是报告和处理危害的组织或数据库，而非供研究者使用的开源软件项目。 🏗️ 方法概述和架构本文是一篇立场与观点论文（Position Paper），其核心方法并非提出一个新的检测模型，而是通过一套系统性的分析框架来论证其核心主张。该框架旨在诊断研究与危害的错位并提出新的研究方向，具体流程与架构如下： ...

Too Good to Be True: A Study on Modern Automatic Speech Recognition for the Evaluation of Speech Enhancement

📄 Too Good to Be True: A Study on Modern Automatic Speech Recognition for the Evaluation of Speech Enhancement #语音增强 #模型评估 #语音识别 #基准测试 ✅ 6.6/10 | 前50% | #语音增强 | #模型评估 | #语音识别 #基准测试 | arxiv 学术质量 6.2/8 | 影响力 0.7/2 | 可复现性 0.8/1 | 置信度高 👥 作者与机构第一作者：Danilo de Oliveira (University of Hamburg, Signal Processing Group) 通讯作者：未明确说明（论文中未提供明确的通讯作者标识）作者列表：Danilo de Oliveira (University of Hamburg, Signal Processing Group)、Tal Peer (University of Hamburg, Signal Processing Group)、Timo Gerkmann (University of Hamburg, Signal Processing Group) 💡 毒舌点评本文像一面精准的棱镜，折射出使用现代ASR评估语音增强时存在的“评估偏移”现象：强大的ASR模型（特别是基于大规模数据训练的Transducer和Attention模型）因噪声鲁棒性和语言先验，其WER指标已无法敏感地区分不同SE系统在声学伪影上的细微差异，甚至可能误导系统排名。然而，这篇系统性的实证研究更像是一个严谨的“症状报告”，它清晰地诊断了问题（WER作为指标的失效、流水线敏感性），并量化了症状（与人类排名的相关性、排名差异），但并未开出有效的“处方”（如何修正指标或提出新范式）。其贡献在于警示和基础性分析，而非解决方案的革新。 ...

Towards Fine-Grained Multi-Dimensional Speech Understanding: Data Pipeline, Benchmark, and Model

📄 Towards Fine-Grained Multi-Dimensional Speech Understanding: Data Pipeline, Benchmark, and Model #语音理解 #渐进式课程学习 #基准测试 #数据集 #多语言前25% | #语音理解 | #渐进式课程学习 | #基准测试 #数据集 | arxiv 学术质量 6.0/8 | 影响力 1.6/2 | 可复现性 0.7/1 | 置信度高 👥 作者与机构第一作者：Guojian Li（论文未明确标注，按列表顺序推断）通讯作者：未说明（论文仅标注“*Corresponding authors”，但未指明具体作者）作者列表：Guojian Li, Zhixian Zhao, Zhennan Lin, Jingbin Hu, Qirui Zhan, Yuang Cao, Pengyuan Xie, Chuan Xie, Jie Liu, Qiang Zhang, Zhonghua Fu, Lei Xie。所有作者所属机构：未在论文中提供。 💡 毒舌点评这篇工作的核心价值在于其“三位一体”的系统性贡献——试图为“细粒度多维语音理解”这一新兴方向同时定义问题、提供评测工具和提出模型方案��其构建的FMSU-Bench基准，特别是引入“语义陷阱”干扰项，对评估模型是否真正“听声”而非“读文”具有重要启发意义。然而，整套方案的基石——数据生产流水线，严重依赖黑箱商业模型（Gemini 2.5 Pro）进行核心标注，这使得后续所有工作的数据源都建立在一个不可控、可能引入系统性偏差且难以复现的基础上。本质上，这更像是一次利用强大工具进行的数据工程和系统集成，而非提出新的感知原理。此外，模型在部分关键微细声学任务（如音高）上性能的显著下降，暴露了当前方法在触及问题本质上的不足。 ...

Evaluating the Expressive Appropriateness of Speech in Rich Contexts

📄 Evaluating the Expressive Appropriateness of Speech in Rich Contexts #语音质量评估 #语音大模型 #强化学习 #知识蒸馏 #基准测试 ✅ 7.2/10 | 前25% | #语音质量评估 | #强化学习 | #语音大模型 #知识蒸馏 | arxiv 学术质量 7.2/8 | 影响力 1.6/2 | 可复现性 0.8/1 | 置信度高 👥 作者与机构第一作者：Tianrui Wang（天津大学，南洋理工大学联合培养）通讯作者：Longbiao Wang（天津大学）和 Xiaobao Wang（天津大学）作者列表：Tianrui Wang (天津大学, NTU), Ziyang Ma (上海交大, NTU), Yizhou Peng (NTU), Haoyu Wang (天津大学), Zhikang Niu (上海交大), Zikang Huang (天津大学), Yihao Wu (NTU), Yi-Wen Chao (NTU), Yu Jiang (天津大学), Yuheng Lu (天津大学), Guanrou Yang (上海交大), Xuanchen Li (天津大学), Hexin Liu (NTU), Chunyu Qiang (天津大学, 快手), Cheng Gong (TeleAI, 中国电信), Yifan Yang (上海交大), Tianchi Liu (新加坡国立大学), Junyu Wang (天津大学), Nana Hou (NTU), Meng Ge (天津大学), Fuming You (腾讯), Wei Yang (腾讯), Zhongqian Sun (腾讯), Haifeng Hu (腾讯), Xiaobao Wang (天津大学), Eng Siong Chng (NTU), Xie Chen (上海交大), Longbiao Wang (天津大学), Jianwu Dang (天津大学) 💡 毒舌点评本文最扎实的贡献在于明确提出了“语境丰富性下的表达适当性”这一被忽视的评估任务，并构建了首个高质量中文有声书数据集。然而，其方法论的核心创新——规划器-判断器解耦、注意力偏置等——更多是对现有技术的精巧组合与工程优化，而非提出全新的基础模型或训练范式。此外，评估仅限于中文，其普适性有待验证。 ...

FLARE: Full-Modality Long-Video Audiovisual Retrieval Benchmark with User-Simulated Queries

📄 FLARE: Full-Modality Long-Video Audiovisual Retrieval Benchmark with User-Simulated Queries #音频检索 #基准测试 #数据集 #音视频 #跨模态 ✅ 6.0/10 | 前25% | #音频检索 | #数据集 | #基准测试 #音视频 | arxiv 学术质量 6.0/8 | 影响力 1.5/2 | 可复现性 0.8/1 | 置信度高 👥 作者与机构第一作者：Qijie You（北京科技大学 University of Science and Technology Beijing）通讯作者：Wentao Zhang（北京大学 Peking University、中关村学院 Zhongguancun Academy）作者列表：Qijie You（北京科技大学）、Hao Liang（北京大学、中关村学院，同等贡献）、Mingrui Chen（中国科学院自动化研究所 Institute of Automation, Chinese Academy of Sciences）、Bohan Zeng（北京大学）、Meiyi Qiang（北京大学）、Zhenhao Wong（北京大学）、Wentao Zhang（北京大学、中关村学院，项目负责人，通讯作者） 💡 毒舌点评这篇论文的亮点在于它精准地抓住了现有视频检索基准的“阿喀琉斯之踵”——过于依赖信息密集的字幕和短片段，完全无法模拟真实用户模糊、不完整、强依赖多模态线索的搜索意图；其提出的“硬双模态约束”过滤机制是一个非常聪明的设计，确保了跨模态查询不是简单的拼接。然而，其短板也明显：整个基准完全建立在 Qwen 系列等商用/闭源模型的自动生成和筛选之上，这虽保证了规模，却也引入了模型特有的偏见，且自动化流水线的“黑箱”特性使得最终数据集的“用户模拟”真实性存疑，更像是一场大规模的模型行为模拟而非真实人类查询的反映。 ...

Omni-DeepSearch: A Benchmark for Audio-Driven Omni-Modal Deep Search

📄 Omni-DeepSearch: A Benchmark for Audio-Driven Omni-Modal Deep Search #基准测试 #模型评估 #跨模态 #音频问答 #多模态代理 ✅ 6.0/10 | 前25% | #基准测试 | #模型评估 | #跨模态 #音频问答 | arxiv 学术质量 6.0/8 | 影响力 1.8/2 | 可复现性 0.8/1 | 置信度高 👥 作者与机构第一作者：Tao Yu (中国科学院自动化研究所 CASIA，中国科学院大学 UCAS，北京人工智能研究院 BAAI) 通讯作者：Yan Huang (中国科学院自动化研究所 CASIA)，Liang Wang (中国科学院自动化研究所 CASIA) 作者列表：Tao Yu (CASIA, UCAS, BAAI)，Yiming Ding (CASIA)，Shenghua Chai (CASIA)，Minghui Zhang (CASIA)，Zhongtian Luo (CASIA)，Xinming Wang (CASIA, UCAS)，Xinlong Chen (CASIA, UCAS)，Zhaolu Kang (Peking University)，Junhao Gong (Peking University)，Yuxuan Zhou (Tsinghua University)，Haopeng Jin (CASIA)，Zhiqing Cui (CASIA)，Jiabing Yang (CASIA, UCAS)，YiFan Zhang (CASIA, UCAS)，Hongzhu Yi (UCAS)，Zheqi He (BAAI)，Xi Yang (BAAI)，Yan Huang (CASIA, UCAS)，Liang Wang (CASIA, UCAS) 💡 毒舌点评亮点：论文精准地识别了当前全模态评测中“被动接收多模态信息”范式的局限，定义了“音频驱动的主动全模态深度搜索”这一重要且现实的新任务，并系统性地构建了首个基准。这对于推动多模态智能体从“理解”走向“行动”具有明确的指导价值。短板：作为基准，其影响力受限于相对有限的规模（640个样本）和对特定搜索工具、流程及提示策略的强依赖。论文声称解决了“主动搜索”的评测空白，但其核心贡献更接近于一个高度结构化的、依赖工具的评估流水线，而非对模型内在推理能力的无偏测量。实验部分缺乏与现有相关基准（如BrowseComp-VL, VideoBrowserComp）在类似模型上的直接横向对比，削弱了其挑战性定位的独特性。 ...

Omni-Persona: Systematic Benchmarking and Improving Omnimodal Personalization

📄 Omni-Persona: Systematic Benchmarking and Improving Omnimodal Personalization #基准测试 #多模态模型 #强化学习 #模型评估 #强化学习与奖励设计 ✅ 6.5/10 | 前25% | #基准测试 | #强化学习 | #多模态模型 #模型评估 | arxiv 学术质量 6.5/8 | 影响力 0.75/2 | 可复现性 0.7/1 | 置信度高 👥 作者与机构第一作者：Yeongtak Oh（首尔大学电气与计算机工程系）通讯作者：Sungroh Yoon（首尔大学电气与计算机工程系，首尔大学人工智能跨学科项目）作者列表：Yeongtak Oh（首尔大学电气与计算机工程系）、Dongwook Lee（首尔大学人工智能跨学科项目）、Sangkwon Park（首尔大学电气与计算机工程系）、Heeseung Kim（首尔市立大学人工智能系）、Sungroh Yoon（首尔大学电气与计算机工程系，首尔大学人工智能跨学科项目） 💡 毒舌点评论文作为评测工作，其核心贡献在于定义了“全模态个性化”这一更现实的统一任务，并通过引入“缺席人格”场景和校准精度指标，系统性地揭示了现有评估框架的盲点（仅关注Answerable场景）和模型的关键失败模式（幻觉与过度回避）。然而，其本质仍是“定义问题与度量”而非“提出解决方案”。作为评测论文，其价值高度依赖于所提出基准的严谨性与诊断能力。论文在形式化（PMG）和指标设计（Cal）上展现了洞察力，但合成数据与真实评估间的域偏移、对LLM-as-a-judge的依赖、以及RLVR实验中奖励设计导致的模型“过度保守”副作用，均是其作为权威评测基准需要面对且未能完全解决的挑战。 📌 核心摘要问题：当前多模态个性化研究主要局限于视觉-语言领域，缺乏统一覆盖文本、图像和音频的全模态基准。更关键的是，现有评估仅关注检索到正确人格（Answerable）的理想情况，忽略了真实世界中检索上下文可能完全不包含目标人格（Absent-Persona）的常见场景，导致评估存在盲点，无法诊断模型的幻觉和过度回避行为。方法核心：提出“Omni-Persona”，第一个全面的全模态个性化评测基准。其核心是“Personae Modality Graph”形式化框架，将个性化任务定义为在图上进行的跨模态路由问题（感知匹配+信息检索）。基准明确包含约50%的“缺席人格”查询作为核心评估维度，并提出“校准精度”作为主指标，同时衡量模型在Answerable场景下的正确回答（Ans）和在Absent-Persona场景下的正确回避（Unans）。新意：与已有基准（如CoViP）相比，Omni-Persona新增了：(1) 将音频作为与图像、文本同等重要的人格模态；(2) 将“缺席人格”查询作为一等评估对象，而非忽略或弱化；(3) 跨模态任务设计（如T2Any），以衡量模态间的语义对齐与偏见；(4) 统一的校准评估框架（Cal），联合评估正确回答与正确回避。主要实验结果：论文在多个闭源（Gemini系列）和开源模型（Qwen2.5-Omni， Gemma4系列）上进行了系统评测。关键发现包括：(1) 开源模型普遍存在“音频接地”弱于“视觉接地”的模态偏见；(2) 仅凭Answerable召回率或模型参数规模不足以评估个性化能力，校准精度是必要维度；(3) 监督微调（SFT）的性能受限于高质量标注数据的构建规模，扩大数据不一定带来提升；而基于可验证奖励的强化学习（RLVR）训练能更稳定地提升校准精度，但可能导致模型过度保守（False Abstention增加）。例如，Gemma4-E4B模型在经过RLVR训练后，校准精度从52.6%提升至62.0%（+9.4%）。实际意义：为全模态个性化研究提供了首个系统性的诊断框架，揭示了当前模型（尤其是开源模型）在音频感知和校准能力上的具体短板，明确了强化学习训练相较于监督微调在提升校准能力上的优势与权衡（过度保守），为未来模型对齐和奖励设计提供了明确的研究方向。主要局限性：评测使用合成语音和文本，评估依赖真实图像，可能引入训练-评估域偏移；评估高度依赖LLM-as-a-judge，其可靠性虽在附录讨论但主文未充分论证；RLVR训练中使用的二值奖励设计导致了模型过度保守的副作用，更精细的奖励设计留作未来工作；基准不评估预检索过程的质量。 🔗 开源详情代码：论文中未提及代码链接模型权重：论文中未提及模型权重链接数据集：论文中未提及数据集公开链接 Demo：论文中未提及Demo链接复现材料：论文中未提及复现所需的检查点、日志或预训练权重。但论文在附录D中详细描述了SFT和RLVR的实现细节，包括超参数、数据构成、奖励函数设计等，这些信息对于复现研究有指导意义。论文中引用的开源项目： ms-swift: 论文中用于进行监督微调。链接：https://github.com/modelscope/ms-swift TRL (Transformer Reinforcement Learning): 论文中用于进行强化学习微调。链接：https://github.com/huggingface/trl LoRA (Low-Rank Adaptation): 论文中作为参数高效微调方法。链接：https://github.com/microsoft/LoRA Chatterbox: 论文中用于生成高保真合成音频。链接：https://github.com/resemble-ai/chatterbox wav2vec 2.0: 论文中用于自动性别检测以构建音频干扰项。链接：https://github.com/facebookresearch/wav2vec2 🏗️ 方法概述和架构本文提出的方法主要是一个系统性的评测框架与分析流程，而非单一的神经网络模型架构。其核心是Omni-Persona基准构建与诊断性实验分析，旨在严格评估和诊断全模态（文本、图像、音频）个性化能力。 ...

RADAR Challenge 2026: Robust Audio Deepfake Recognition under Media Transformations

📄 RADAR Challenge 2026: Robust Audio Deepfake Recognition under Media Transformations #音频深度伪造检测 #基准测试 #多语言 #鲁棒性 ✅ 6.0/10 | 前50% | #音频深度伪造检测 | #基准测试 | #多语言 #鲁棒性 | arxiv 学术质量 6.0/8 | 影响力 0.7/2 | 可复现性 0.4/1 | 置信度高 👥 作者与机构第一作者：Hieu-Thi Luong（Fortemedia, Singapore）通讯作者：Hieu-Thi Luong（radar-challenge@hieuthi.com）作者列表：Hieu-Thi Luong（Fortemedia, Singapore）、Xuechen Liu（Xi’an Jiaotong-Liverpool University, China）、Ivan Kukanov（KLASS Engineering & Solutions, Singapore）、Zheng Xin Chai（KLASS Engineering & Solutions, Singapore）、Kong Aik Lee（The Hong Kong Polytechnic University, Hong Kong SAR, China） 💡 毒舌点评亮点：论文系统性地定义了一个面向真实媒体传播管道的、多语言音频深度伪造检测评测挑战，并发布了大规模的数据集。这为评估模型在复杂现实条件下的鲁棒性提供了一个有价值的、更贴近实际的基准。短板：作为一篇典型的挑战赛总结报告，其核心贡献在于“搭建评测舞台”而非“提出新方法”，因此在算法创新性、深度理论分析和对获胜方法的深入探讨上存在固有局限。文章更像一份详实的“技术文档”和“结果公告”，而非一篇探索性的研究论文。 ...