模型评估 | 语音/音频论文速递

OmniVideoBench: Towards Audio-Visual Understanding Evaluation for Omni MLLMs

📄 OmniVideoBench: Towards Audio-Visual Understanding Evaluation for Omni MLLMs #基准测试 #多模态模型 #跨模态 #模型评估 🔥 8.5/10 | 前25% | #基准测试 | #多模态模型 | #跨模态 #模型评估学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Caorui Li（东南大学、南京大学）通讯作者：Jiaheng Liu（南京大学）作者列表：Caorui Li（东南大学、南京大学）、Yu Chen（东南大学、南京大学）、Yiyan Ji（南京大学）、Jin Xu（阿里巴巴集团）、Zhenyu Cui（东南大学）、Shihao Li（南京大学）、Yuanxing Zhang（快手科技）、Zhenghao Song（M-A-P）、Dingling Zhang（南京大学）、Ying He（北京科技大学）、Haoxiang Liu（北京科技大学）、Yuxuan Wang（阿里巴巴集团）、Qiufeng Wang（东南大学）、Jiafu Tang（南京大学）、Zhenhe Wu（M-A-P）、Jiehui Luo（中央音乐学院）、Zhiyu Pan（南京大学）、Weihao Xie（华中科技大学）、Chenchen Zhang（M-A-P）、Zhaohui Wang（南京大学）、Jiayi Tian（阿里巴巴集团）、Yanghai Wang（南京大学）、Zhe Cao（南京大学）、Minxin Dai（南京大学）、Ke Wang（M-A-P）、Runzhe Wen（南京大学）、Yinghao Ma（伦敦玛丽女王大学）、Yaning Pan（复旦大学）、Sungkyun Chang（伦敦玛丽女王大学）、Termeh Taheri（伦敦玛丽女王大学）、Haiwen Xia（北京大学）、Christos Plachouras（伦敦玛丽女王大学）、Emmanouil Benetos（伦敦玛丽女王大学）、Yizhi Li（曼彻斯特大学）、Ge Zhang（M-A-P）、Jian Yang（M-A-P）、Tianhao Peng（M-A-P）、Zili Wang（M-A-P）、Minghao Liu（2077AI）、Junran Peng（北京科技大学）、Zhaoxiang Zhang（中国科学院）、Jiaheng Liu（南京大学） 💡 毒舌点评该工作系统性地定义了评估全模态大语言模型音频-视觉协同推理能力的难题，并通过一套严谨的“人-模型”协作流程构建了一个高质量的评测集，其发现揭示了当前模型在“真正理解”音视频内容上的巨大鸿沟。然而，其核心贡献是一个评测基准（Benchmark）而非一个解决该难题的新模型，且目前数据集尚未完全公开，这限制了其即时影响力。 ...

OptMerge: Unifying Multimodal LLM Capabilities and Modalities via Model Merging

📄 OptMerge: Unifying Multimodal LLM Capabilities and Modalities via Model Merging #多模态模型 #模型评估 #模型比较 #迁移学习 #多任务学习 ✅ 7.0/10 | 前25% | #模型比较 | #迁移学习 | #多模态模型 #模型评估学术质量 5.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Yongxian Wei (清华大学) 通讯作者：Chun Yuan (清华大学) 作者列表：Yongxian Wei (清华大学)， Runxi Cheng (清华大学)， Weike Jin (华为诺亚方舟实验室)， Enneng Yang (中山大学)， Li Shen (中山大学)， Lu Hou (华为诺亚方舟实验室)， Sinan Du (清华大学)， Chun Yuan (清华大学)， Xiaochun Cao (中山大学)， Dacheng Tao (南洋理工大学) 💡 毒舌点评亮点在于提出了首个系统性的MLLM能力融合基准和“无数据”的模态融合思路，为社区提供了重要的评估框架和基线。短板是论文标题中的“Omni-language model”在实验中仅限于简单的音视频问答融合，与真正意义上的通用全能模型差距较大，且核心方法OptMerge在理论层面更像是对现有技术的巧妙组合。 ...

SNAP-UQ: Self-supervised Next-Activation Prediction for Single-Pass Uncertainty in TinyML

📄 SNAP-UQ: Self-supervised Next-Activation Prediction for Single-Pass Uncertainty in TinyML #音频分类 #自监督学习 #低资源 #模型评估 ✅ 7.5/10 | 前25% | #音频分类 | #自监督学习 | #低资源 #模型评估学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Ismail Lamaakal（Mohammed First University, Multidisciplinary Faculty of Nador）通讯作者：未说明（论文中未明确标注通讯作者）作者列表： Ismail Lamaakal*（Mohammed First University, Multidisciplinary Faculty of Nador） Chaymae Yahyati*（Mohammed First University, Multidisciplinary Faculty of Nador） Khalid El Makkaoui（Mohammed First University, Multidisciplinary Faculty of Nador） Ibrahim Ouahbi（Mohammed First University, Multidisciplinary Faculty of Nador） Yassine Maleh（Sultan Moulay Slimane University, Laboratory LaSTI）（*表示共同第一作者） 💡 毒舌点评论文的亮点在于将“不确定性”这个通常需要复杂计算的概念，巧妙地转化为对网络内部“可预测性”的衡量，并以此构建了一个极度轻量、无需额外状态、完美适配MCU的单次推理方案，实用性极强。但其短板是“自监督”的标签略有牵强，更像是为不确定性估计任务设计的辅助回归损失；此外，论文对tap位置选择、rank大小等关键设计选择的敏感性分析不够深入，给实际部署时的调优留下了“黑箱”。 ...

SyncTrack: Rhythmic Stability and Synchronization in Multi-Track Music Generation

📄 SyncTrack: Rhythmic Stability and Synchronization in Multi-Track Music Generation #音乐生成 #扩散模型 #模型评估 #多轨音频 ✅ 7.5/10 | 前25% | #音乐生成 | #扩散模型 | #模型评估 #多轨音频学术质量 6.5/7 | 选题价值 1.0/2 | 复现加成 0.0 | 置信度高 👥 作者与机构第一作者：Hongrui Wang（香港科技大学数学系，标注为等贡献）通讯作者：Yang Wang（香港大学）；Fan Zhang（香港科技大学，标注为等贡献）；Can Yang（香港科技大学数学系及神经系统疾病国家重点实验室）作者列表： Hongrui Wang（香港科技大学数学系） Fan Zhang（香港科技大学数学系） Zhiyuan Yu（浙江大学CAD&CG国家重点实验室） Ziya Zhou（香港科技大学交叉学科学院） Xi Chen（香港科技大学交叉学科学院） Can Yang（香港科技大学数学系；香港科技大学神经系统疾病国家重点实验室） Yang Wang（香港大学） 💡 毒舌点评亮点：架构设计直击痛点，用Track-shared和Track-specific模块清晰解耦了多轨音乐中的“共性节奏”与“个性音色”，逻辑自洽且实验验证有效。短板：所提出的节奏评估指标（IRS， CBS， CBD）高度依赖于外部的预训练节拍检测器（madmom），其性能天花板受限于该工具，且指标定义相对简单，可能无法完全捕捉人类对“好律动”的复杂感知。 🔗 开源详情代码：论文提供了项目主页链接（https://synctrack-v1.github.io），推测包含代码。论文中明确写道“Audio samples, alongside with the source code for both the model and evaluation metrics, are available on our demo page.” 模型权重：论文中未明确提及是否公开预训练模型权重。数据集：使用公开的Slakh2100数据集。论文中未提及是否提供处理后的数据。 Demo：提供了项目主页作为demo展示。复现材料：提供了极其详细的训练配置（数据集划分、优化器、学习率、硬件、训练时间等）、模型架构细节（表A3）、评估指标的具体实现（附录A.1），以及超参数敏感性分析。复现信息非常充分。依赖的开源项目：论文中提及并依赖了以下开源工具/模型： madmom：用于节拍检测，以计算节奏相关指标。 MusicLDM：模型初始化权重来源。 HiFi-GAN：作为声码器，将潜在表示解码为波形。 RNNDownBeatProcessor & DBNDownBeatTrackingProcessor：来自madmom库，用于节拍提取。 📌 核心摘要问题：现有的多轨音乐生成模型（如MSDM， MSG-LD）通常将各轨视为独立变量进行联合建模，忽视了音乐中至关重要的节奏稳定性（单轨内拍子稳定）和同步性（多轨间拍子对齐），导致生成音乐听起来杂乱、不协调。方法：提出SyncTrack模型，其核心是采用统一的架构包含Track-shared模块（共享）和Track-specific模块（特定）。共享模块内设计了两种跨轨注意力：全局跨轨注意力用于建立全局一致的节奏框架，时间特定跨轨注意力用于对齐同一时刻的音乐事件。特定模块则通过可学习的乐器先验来建模各轨独特的音色等特征。创新：1) 架构上明确分离处理音乐的共性与个性信息；2) 设计了两种针对性的跨轨注意力机制；3) 创新性地提出了三个用于量化评估多轨音乐节奏一致性（稳定性和同步性）的新指标：IRS（轨内节奏稳定性）、CBS（跨轨拍子同步率）、CBD（跨轨拍子离散度）。实验结果：在Slakh2100数据集上，SyncTrack在整体FAD指标上显著优于基线（从MSDM的6.55降至1.26）。在节奏一致性指标上，SyncTrack也全面优于基线：例如，CBS从MSG-LD的0.3861提升至0.5206，CBD(mean)从0.3714降低至0.2681。消融研究证明了各模块的有效性。主观评估也显示SyncTrack生成的音乐更受青睐。指标 Ground Truth SyncTrack MSG-LD MSDM FAD↓（混合） - 1.26 1.31 6.55 CBS↑ 0.5740 0.5206 0.3861 0.4694 CBD(mean)↓ 0.2412 0.2681 0.3714 0.3127 实际意义：为多轨音乐生成领域提供了更合理的建模思路和更专业的评估工具，推动了该领域向更符合音乐本质特性的方向发展，对未来音乐制作辅助工具有积极影响。局限性：模型生成时长目前限于约10秒，论文也提到未来计划扩展至更长片段。新提出的评估指标依赖于第三方节拍检测工具，其准确性和普适性需要进一步验证。 🏗️ 模型架构 SyncTrack是一个基于潜在扩散模型（LDM）的多轨音乐生成系统。其整体流程如下图所示：音频数据首先通过STFT和Mel滤波器组转换为梅尔谱，然后由一个预训练的变分自编码器（VAE）编码为潜在表示。扩散过程在该潜在空间中进行，模型训练以预测添加的噪声。生成时，从噪声开始迭代去噪，得到多轨潜在表示，最后经由VAE解码器和HiFi-GAN声码器重建为音频波形。 ...

Timing is Everything: Temporal Scaffolding of Semantic Surprise in Humor

📄 Timing is Everything: Temporal Scaffolding of Semantic Surprise in Humor #音频事件检测 #模型评估 #数据集 ✅ 6.5/10 | 前50% | #音频事件检测 | #模型评估 | #数据集 | arxiv 学术质量 5.0/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度高 👥 作者与机构第一作者：Yuxi Ma (共同第一), Yongqian Peng (共同第一) (Peking University) 通讯作者：Chi Zhang (Peking University), Yixin Zhu (Peking University) 作者列表： Yuxi Ma (Peking University, Institute for Artificial Intelligence; School of Psychological and Cognitive Sciences; School of Intelligence Science and Technology; Yuanpei College; State Key Laboratory of General Artificial Intelligence; Beijing Key Laboratory of Behavior and Mental Health) Yongqian Peng (Peking University, Institute for Artificial Intelligence; School of Psychological and Cognitive Sciences; Yuanpei College; State Key Laboratory of General Artificial Intelligence; Beijing Key Laboratory of Behavior and Mental Health) Junchen Lyu (Peking University, Institute for Artificial Intelligence; Yuanpei College) Chi Zhang (Peking University, School of Intelligence Science and Technology; State Key Laboratory of General Artificial Intelligence) Yixin Zhu (Peking University, Institute for Artificial Intelligence; School of Psychological and Cognitive Sciences; School of Intelligence Science and Technology; State Key Laboratory of General Artificial Intelligence; Beijing Key Laboratory of Behavior and Mental Health) 💡 毒舌点评亮点：论文用828个真实脱口秀表演的大数据，硬生生把“抖包袱的节奏”从艺术直觉变成了可量化的认知科学问题，并发现“停得久”比“说得怪”对搞笑更重要，这比很多堆砌BERT变体的幽默计算研究更接地气。短板：作为一项观察性研究，它只能证明“成功的喜剧人停顿更长且更会挑时机”，却无法证明“是停顿让观众更觉得好笑”，这种因果倒置的风险在解读时需要非常小心。 ...

TTSDS2: Resources and Benchmark for Evaluating Human-Quality Text to Speech Systems

📄 TTSDS2: Resources and Benchmark for Evaluating Human-Quality Text to Speech Systems #语音合成 #模型评估 #基准测试 #多语言 ✅ 7.5/10 | 前25% | #语音合成评估 | #基准测试 | #语音合成 #模型评估学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Christoph Minixhofer（爱丁堡大学语音技术研究中心）通讯作者：论文中未明确指定，根据作者邮箱统一格式，可能为同一机构课题组作者列表：Christoph Minixhofer（爱丁堡大学语音技术研究中心）、Ondrej Klejch（爱丁堡大学语音技术研究中心）、Peter Bell（爱丁堡大学语音技术研究中心） 💡 毒舌点评亮点在于构建了首个覆盖14种语言、横跨多个真实世界域（含噪声、野生、儿童语音）的TTS客观评估基准与自动化流水线，实用价值高。但核心创新点（TTSDS2）是对原有TTSDS指标的增量改进，更多是工程优化和鲁棒性验证，而非提出全新评估范式，且其计算开销（CPU-bound）限制了快速迭代。 🔗 开源详情代码：提供代码仓库链接（github.com/ttsds/pipeline），用于自动化数据创建和基准测试。模型权重：论文评估的20个系统多为开源，TTSDS2本身不涉及需训练的模型，但依赖的特征提取模型（如mHuBERT-147）是公开的。数据集：公开发布了包含11,282条评分的人类评估数据集（hf.co/datasets/ttsds/listening_test）。自动化流水线可创建多语言数据集。 Demo：提供在线基准排行榜网站（ttsdsbenchmark.com）。复现材料：论文详细描述了评估设置、问卷内容、流水线算法（Algorithm 1）、特征选择标准，并提供了特征分布可视化示例（图1）。论文中引用的开源项目：大量引用了开源工具和模型，如Whisper, Demucs, Pyannote, XNLI模型, VERSA工具包, 以及所评估的20个开源TTS系统。 📌 核心摘要解决的问题：现代文本转语音（TTS）系统已能生成以假乱真的语音，导致传统主观评估（如MOS）难以跨研究对比，而常用的客观指标缺乏在多领域、多语言下的鲁棒性验证。方法核心：提出TTSDS2，一个改进的分布评估指标。它通过比较合成语音与真实语音在通用性、说话人、韵律、可懂度四个因子上多个特征分布的2-Wasserstein距离，综合评分。得分越高表明合成语音分布越接近真实语音分布而非噪声分布。与已有的方法相比新在哪里：特征集升级：相较于TTSDS，替换了表现不佳的特征（如用Whisper和wav2vec 2.0的ASR激活替代WER），并为多语言场景引入了mHuBERT-147和XLSR-53等模型。跨域鲁棒性验证：在CLEAN（干净朗读）、NOISY（噪声）、WILD（野生/对话）、KIDS（儿童语音）四个不同域上验证了指标与人类评分的相关性。自动化多语言基准：发布了一个可重复运行的流水线，用于自动创建多语言YouTube数据集并生成持续更新的TTS系统排名，覆盖14种语言。主要实验结果：在20个开源TTS系统、16个客观指标的对比中，TTSDS2是唯一一个在所有4个域、3种主观评分（MOS, CMOS, SMOS）上均取得Spearman相关系数ρ > 0.50的指标，平均ρ ≈ 0.67。与次优的说话人相似度指标（RawNet3, X-Vector）平均相关性0.6相比，TTSDS2更具一致性和连续性。消融实验表明，简单的因子平均策略比学习权重策略在未见域上泛化更好。多语言TTSDS2分数与语言学距离（Uriel+）相关性（ρ = -0.51）高于原版TTSDS（ρ = -0.39）。 Metric Clean (MOS) Clean (CMOS) Clean (SMOS) Noisy (MOS) Noisy (CMOS) Noisy (SMOS) Wild (MOS) Wild (CMOS) Wild (SMOS) Kids (MOS) Kids (CMOS) Kids (SMOS) TTSDS2 (Ours) 0.75 0.69 0.73 0.59 0.54 0.71 0.75 0.71 0.75 0.61 0.50 0.70 TTSDS (Original) 0.60 0.62 0.52 0.49 0.61 0.66 0.67 0.57 0.67 0.70 0.52 0.60 RawNet3 0.36 0.26 0.52 0.44 0.37 0.82 0.85 0.80 0.64 0.73 0.61 0.77 X-Vector 0.46 0.42 0.56 0.40 0.29 0.77 0.82 0.82 0.62 0.70 0.57 0.75 SQUIM 0.68 0.46 0.37 0.48 0.48 0.60 0.62 0.75 0.79 0.57 0.55 0.45 表：主要客观指标与主观评分的Spearman相关系数对比（节选）。TTSDS2在所有条件下均保持高于0.50的强相关。 ...

Unmute the Patch Tokens: Rethinking Probing in Multi-Label Audio Classification

📄 Unmute the Patch Tokens: Rethinking Probing in Multi-Label Audio Classification #音频分类 #自监督学习 #探针评估 #模型评估 #基准测试 ✅ 7.5/10 | 前25% | #音频分类 | #探针评估 | #自监督学习 #模型评估学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Lukas Rauch (卡塞尔大学) 通讯作者：未说明作者列表：Lukas Rauch (卡塞尔大学), René Heinrich (卡塞尔大学, 弗劳恩霍夫IEE), Houtan Ghaffari (根特大学), Lukas Miklautz (MPI of Biochemistry), Ilyass Moummad (INRIA Montpellier), Bernhard Sick (卡塞尔大学), Christoph Scholz (卡塞尔大学, 弗劳恩霍夫IEE) 💡 毒舌点评亮点：这篇论文做了一件“对”且“必要”的事——它系统性地指出并验证了音频SSL领域普遍存在的“用线性探针评估却不靠��”的核心症结（池化瓶颈），并给出了一个简洁有效的解决方案，让探针评估重获可信度。实验规模和设计的严谨性也值得称赞。短板：其提出的“二值化原型探针”本质上是现有原型网络的变体和简化，在方法创新深度上稍显不足，更像是一个工程上优化得很好的“修补”方案。研究完全基于冻结的声谱图编码器，其结论在更广泛的音频表示（如波形、离散token）上的普适性有待验证。 ...

VoxPrivacy: A Benchmark for Evaluating Interactional Privacy of Speech Language Models

📄 VoxPrivacy: A Benchmark for Evaluating Interactional Privacy of Speech Language Models #模型评估 #基准测试 #语音大模型 #数据集 #开源工具 🔥 9.5/10 | 前10% | #模型评估 | #基准测试 | #语音大模型 #数据集学术质量 6.5/7 | 选题价值 2.0/2 | 复现加成 0.8 | 置信度高 👥 作者与机构第一作者：Yuxiang Wang（香港中文大学（深圳））通讯作者：未明确说明（根据惯例和贡献推断，Zhizheng Wu可能性较大）作者列表：Yuxiang Wang¹, Hongyu Liu¹, Dekun Chen¹, Xueyao Zhang¹, Zhizheng Wu¹,²,³,⁴ ¹ 香港中文大学（深圳） ² 深圳大数据研究院 ³ 澳门城市大学 ⁴ Amphion Technology Co., Ltd.（星尘智能科技有限公司） 💡 毒舌点评这篇论文精准地刺中了当前语音大模型（SLM）在走向多用户共享场景时一个被严重忽视的“阿喀琉斯之踵”——交互隐私。其最大亮点在于不仅诊断了“病症”（模型无法将语音身份与隐私规则关联），更通过精心设计的三层评估体系“量化了病情”，并指出了“病理”（是上下文推理能力不足，而非基础对话能力问题）。短板在于，目前提出的“药方”（监督微调）虽有效但相对传统，未来如何让模型在更复杂的社交场景中自主、灵活地做出符合伦理的隐私决策，而非仅机械遵循规则，仍是开放挑战。 🔗 开源详情代码：论文中未提及代码仓库链接。但根据论文末尾的声明“we are releasing the VoxPrivacy benchmark, the large-scale training set, and the fine-tuned model”，预计相关资源会通过项目页面（https://myflashbarry.github.io/VoxPrivacy.github.io/）或代码托管平台发布。模型权重：是。论文明确声明将公开其微调后的模型（Ours: Kimi-Audio-sft）。数据集：是。论文明确声明将公开VoxPrivacy基准测试（32小时数据）和4000小时的大规模训练集。 Demo：是。提供了在线演示页面：https://myflashbarry.github.io/VoxPrivacy.github.io/ 复现材料：论文提供了丰富的复现信息，包括：完整的数据构建流程（附录A给出了生成提示词）、评估标准与LLM评委提示词（附录F、G）、训练超参数（8xA800 GPU，lr=1e-5等）、以及详细的实验设置。论文中引用的开源项目：模型：Kimi-Audio, Qwen2.5-Omni, MiniCPM2.6-o, Gemini系列, Deepseek系列, Qwen2Audio, Voxtral3B, Baichuan-Omni-1.5, GLM4Voice。工具/数据集：CosyVoice2 (TTS), Whisper-large-v3 (ASR), AISHELL-2, WenetSpeech, LibriSpeech, CommonVoice, Fleurs, SAVEE, IEMOCAP, ESD, RAVDESS, MELD, CREMA-D, ESC50, AudioSet, FSD50K, VocalSound, UrbanSound8K, ClothoAQA, MusicAVQA, AVQA等。 📌 核心摘要解决的问题：本文针对语音语言模型（SLM）从个人设备走向智能家居、车载等共享多用户环境时面临的新挑战——“交互隐私”问题，即模型需要区分不同用户，防止将一个用户的私人信息泄露给另一个用户。现有基准测试忽略了这种基于说话人身份的条件隐私保护能力评估。方法核心：提出首个评估交互隐私的基准测试VoxPrivacy。它设计了三个难度递增的层级：Tier 1（直接命令保密）、Tier 2（基于说话人验证的保密）、Tier 3（主动隐私保护）。基于此构建了一个包含7107个样本、32.86小时的双语（中/英）合成数据集，并包含一个由18人录制的真实语音验证子集（Real-VoxPrivacy）。创新点：首次系统定义和评估SLM的“交互隐私”能力；设计了分层的评估任务以衡量从指令跟随到自主推理的完整能力谱；通过合成数据与真实语音的对齐验证，证明了评估结论的可靠性。主要实验结果：对9个SLM的评估显示，大多数开源模型在Tier 2/3任务上的准确率接近随机猜测（~50%），表明其根本无法将说话人声音与隐私规则关联。即使是强大的闭源模型（如Gemini-2.5-Pro）在Tier 3（主动推断）上也有明显性能下降。通过对比实验，证明失败根源是“对话上下文处理能力的缺失”，而非基础对话能力。通过微调，本文提出的模型在所有层级上显著优于其他开源模型，达到了与顶级闭源模型相当的水平。关键性能数据对比见下表： Tier 1 任务准确率（%） ...

WorldSense: Evaluating Real-world Omnimodal Understanding for Multimodal LLMs

📄 WorldSense: Evaluating Real-world Omnimodal Understanding for Multimodal LLMs #多模态模型 #基准测试 #音频问答 #视频理解 #模型评估 ✅ 7.0/10 | 前25% | #音频问答 | #基准测试 | #多模态模型 #视频理解学术质量 6.5/7 | 选题价值 7.5/2 | 复现加成 1.0 | 置信度高 👥 作者与机构第一作者：Jack Hong（小红书公司）通讯作者：Weidi Xie（上海交通大学）作者列表：Jack Hong（小红书公司）、Shilin Yan（小红书公司）、Jiayin Cai（小红书公司）、Xiaolong Jiang（小红书公司）、Yao Hu（小红书公司）、Weidi Xie（上海交通大学） 💡 毒舌点评这篇论文最大的亮点在于它指出了一个残酷的现实：现有最强的多模态大模型在需要同时理解声音和画面的真实世界场景中，表现最好的也只达到了65.1%的准确率，离可靠应用还差得远。然而，它的短板也同样明显：作为一个评测基准论文，它更像是为其他研究者“立规矩”和“出考卷”，本身在模型架构或训练方法上的原创性贡献有限。 🔗 开源详情代码：论文中未提及代码仓库链接。模型权重：未提及公开模型权重。数据集：公开。论文明确说明WorldSense数据集已公开发布，可在其项目主页和GitHub/HuggingFace获取。 Demo：未提供在线演示链接。复现材料：提供了详细的评估设置（如帧采样方法、API使用）、评估Prompt模板（附录A.4）和数据集统计信息，足以复现其评估实验。论文中引用的开源项目：引用了多个被评估的开源模型，如OneLLM, VideoLLaMA2, Qwen2-VL, LLaVA-OneVision等，以及数据集来源FineVideo和MusicAVQA。开源计划：论文中未提及除数据集之外的额外开源计划。 📌 核心摘要该论文旨在解决当前多模态大语言模型（MLLM）评估中忽略音频模态、场景简单、任务单一的问题。为此，作者提出了WorldSense，这是首个专注于评估MLLM对真实世界音视频同步内容进行全模态理解的基准测试。该基准的核心创新在于设计了紧密耦合音视频的任务，使得单独依赖任一模态都无法正确回答问题。它包含1662个来自8大领域、67个子类别的音频同步视频，以及3172个跨越26种认知任务的高质量多选题QA对。所有问答对由80名专家标注员多轮校对，确保质量。实验对众多开源和闭源模型进行了广泛评估。结果表明，现有模型在真实世界场景下面临巨大挑战，最佳模型Gemini 2.5 Pro的准确率仅为65.1%，而许多开源音视频模型的表现甚至接近随机猜测（约25%）。消融研究证实了原始音频信号比文本转录包含更多信息（如韵律、情感），对提升理解至关重要。该基准旨在推动更全面的多模态理解研究，为构建能够整合上下文信息的模型提供平台。主要局限性在于其采用的多选题格式限制了对模型生成能力的评估。 🏗️ 模型架构本文未提出一个新的模型架构，而是设计了一个用于评估现有模型的基准框架。其核心是评估流程，如下： ...

XModBench: Benchmarking Cross-Modal Capabilities and Consistency in Omni-Language Models

📄 XModBench: Benchmarking Cross-Modal Capabilities and Consistency in Omni-Language Models #基准测试 #多模态模型 #音频问答 #跨模态 #模型评估 ✅ 7.5/10 | 前25% | #基准测试 | #多模态模型 | #音频问答 #跨模态学术质量 6.5/7 | 选题价值 1.8/2 | 复现加成 0.7 | 置信度高 👥 作者与机构第一作者：Xingrui Wang (1. Advanced Micro Devices, 2. Johns Hopkins University) 通讯作者：Jiang Liu (Advanced Micro Devices) 作者列表：Xingrui Wang (Advanced Micro Devices, Johns Hopkins University), Jiang Liu (Advanced Micro Devices), Chao Huang (Advanced Micro Devices, University of Rochester), Xiaodong Yu (Advanced Micro Devices), Ze Wang (Advanced Micro Devices), Ximeng Sun (Advanced Micro Devices), Jialian Wu (Advanced Micro Devices), Alan Yuille (Johns Hopkins University), Emad Barsoum (Advanced Micro Devices), Zicheng Liu (Advanced Micro Devices) 💡 毒舌点评亮点：基准设计极其系统且具有诊断性，通过“模态平衡”的六种排列组合，像精密仪器一样能测量出模型对不同模态的“偏科”程度，这是超越简单平均分的深度评测。短板：论文将最强的闭源模型（Gemini）作为标杆，但自身并未提出新的模型或算法，因此更像一份详尽的“体检报告”而非“治疗方案”；同时，尽管承诺开源，但评测完全依赖现有模型，缺乏对新模型训练的直接指导细节。 ...