基准测试 | 语音/音乐/音频论文速递

Omni-Reward: Towards Generalist Omni-Modal Reward Modeling with Free-Form Preferences

📄 Omni-Reward: Towards Generalist Omni-Modal Reward Modeling with Free-Form Preferences #多模态模型 #强化学习 #数据集 #基准测试 #模型评估 🔥 8.5/10 | 前25% | #多模态模型 | #强化学习 | #数据集 #基准测试学术质量 6.0/7 | 选题价值 2.0/2 | 复现加成 0.8 | 置信度高 👥 作者与机构第一作者：Zhuoran Jin（中国科学院大学人工智能学院、中国科学院自动化研究所）通讯作者：Jun Zhao（中国科学院大学人工智能学院、中国科学院自动化研究所）作者列表：Zhuoran Jin（中国科学院大学人工智能学院、中国科学院自动化研究所）， Hongbang Yuan（中国科学院大学人工智能学院、中国科学院自动化研究所）， Kejian Zhu（中国科学院大学人工智能学院、中国科学院自动化研究所）， Jiachun Li（中国科学院大学人工智能学院、中国科学院自动化研究所）， Pengfei Cao（中国科学院大学人工智能学院、中国科学院自动化研究所）， Yubo Chen（中国科学院大学人工智能学院、中国科学院自动化研究所）， Kang Liu（中国科学院大学人工智能学院、中国科学院自动化研究所）， Jun Zhao（中国科学院大学人工智能学院、中国科学院自动化研究所） 💡 毒舌点评亮点：这篇论文最大的价值在于“系统性”和“开创性”，它首次将奖励模型（RM）的评估范围从传统的文本/图像扩展到了包括视频、音频、3D在内的全模态，并引入了自由形式的偏好描述，填补了一个重要的空白。短板：虽然构建了庞大的框架，但其核心生成式奖励模型（R1）的探索稍显初步，仅用了3%的数据进行训练，且论文中对训练的具体超参数和硬件环境交代不够清晰，使得这个最具野心的部分在可复现性上打了一丝折扣。 🔗 开源详情代码：论文提供了代码仓库链接：https://github.com/HongbangYuan/OmniReward 模型权重：论文提及将发布Omni-RewardModel，但未在正文中直接提供权重下载链接，通常这些链接会包含在代码仓库的README中。数据集：Omni-RewardBench和Omni-RewardData均已公开，并提供了HuggingFace链接： https://hf.co/datasets/HongbangYuan/OmniRewardBench https://hf.co/datasets/jinzhuoran/OmniRewardData Demo：论文中未提及在线演示。复现材料：论文详细描述了数据集构建流程、模型架构和评估协议，并在附录中提供了标注指南、质量控制细节等。但如前所述，缺乏训练硬件、具体超参数配置（如学习率、batch size、训练轮数）等细节。引用的开源项目：论文基于并引用了MiniCPM-o-2.6、Qwen2.5-VL-7B-Instruct等开源模型作为基础模型，并使用了GPT-4o进行数据生成。 📌 核心摘要这篇论文旨在解决当前奖励模型（RM）面临的模态不平衡（主要支持文本和图像）和偏好刚性（仅学习固定二元偏好）两大挑战，提出了一个面向全模态、支持自由形式偏好的奖励建模框架——Omni-Reward。其核心贡献包括三部分：（1）Omni-RewardBench：首个覆盖文本、图像、视频、音频和3D五种模态、九种任务、并支持自由形式偏好标注的奖励模型评估基准，包含3725个高质量人工标注对；（2）Omni-RewardData：一个大规模多模态偏好数据集，包含248K通用偏好对和69K指令微调对，以提升模型对跨模态任务和动态偏好的泛化能力；（3）Omni-RewardModel：基于上述数据训练的两种全模态奖励模型，包括判别式（BT）和生成式（R1）版本。实验表明，Omni-RewardModel在Omni-RewardBench上取得了最优性能（w/ Ties设置下准确率65.36%），在VL-RewardBench等公开基准上也达到了或超过了SOTA水平，证明了其有效性。论文指出现有模型在音频生成、3D生成等任务上表现不佳，凸显了模态不平衡问题。该工作为构建更通用、更个性化的多模态AI对齐工具奠定了重要基础，但其目前的基准规模、任务分类粒度以及对多轮对话偏好的支持仍有局限。 ...

OmniCVR: A Benchmark for Omni-Composed Video Retrieval with Vision, Audio, and Text

📄 OmniCVR: A Benchmark for Omni-Composed Video Retrieval with Vision, Audio, and Text #多模态模型 #音频检索 #基准测试 #跨模态 🔥 8.5/10 | 前25% | #音频检索 | #多模态模型 | #基准测试 #跨模态学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Junyang Ji（清华大学、快手科技、南方科技大学）通讯作者：Zhihai He（南方科技大学）、Wenming Yang（清华大学）作者列表：Junyang Ji（清华大学、快手科技、南方科技大学）、Shengjun Zhang（快手科技）、Da Li（快手科技、中国科学院大学）、Yuxiao Luo（快手科技、北京大学）、Yan Wang（快手科技）、Di Xu（快手科技）、Biao Yang（快手科技）、Wei Yuan（快手科技）、Fan Yang（快手科技）、Zhihai He（南方科技大学）、Wenming Yang（清华大学） 💡 毒舌点评本文核心贡献在于填补了组合视频检索基准中“音频模态缺失”的空白，并提出了一个扩展模型，其消融实验设计（如“盲目检索”、控制OmniEmbed骨干网络的音频表征方式）颇具巧思，有力地论证了“显式音频语义”的关键性。然而，其模型的核心创新“Audio-as-Text”在工程上略显“取巧”，完全依赖于现有大模型（Qwen2-Audio）的能力，并未在音频表征学习本身提出新方法，且额外的转录步骤带来了显著的延迟开销。 🔗 开源详情代码：论文中提供了GitHub仓库链接：https://github.com/Kuaishou-Reasearch/OmniCVR，并声明将开源完整代码库。模型权重：论文中声明将开源AudioVLM2Vec的模型权重。数据集：论文中声明OmniCVR基准（包括160k+片段、50k+三元组和黄金测试集）将在发表后完全开源，数据集链接为：https://huggingface.co/datasets/Jun-Yang/OmniCVR。 Demo：论文中未提及。复现材料：论文提供了详细的数据生成流程、所有使用的提示词（见附录G）、以及对训练设置（基于开源预训练权重）的描述，为复现提供了良好基础。但部分具体训练超参数未在文中说明。论文中引用的开源项目/模型：Qwen2-Audio, Qwen2-VL, Qwen2.5-Omni, PySceneDetect, CLIP, CLAP, Gemini 2.5 Pro等。 📌 核心摘要要解决什么问题：现有的组合视频检索（CoVR）基准和方法主要关注视觉与文本的对齐，系统性地忽略了音频模态（语音、音乐、环境声）在视频理解中的关键作用，导致无法评估模型在需要同时修改视觉和音频的复杂现实场景中的检索能力。方法核心是什么：论文提出了OmniCVR基准，这是首个将视觉、音频和文本视为同等重要模态的大规模组合视频检索基准。同时，提出了一种名为AudioVLM2Vec的模型，该模型通过将音频轨道转录为细粒度文本描述，并将其与视觉信息和用户查询一同输入大语言模型骨干，从而显式地注入音频语义。与已有方法相比新在哪里：1) 任务定义：首次定义了“全模态组合检索”，涵盖视觉中心、音频中心和集成型查询；2) 数据构建：设计了一套包含内容感知分割、全模态标注和由大模型与人类专家双重验证的自动化数据生成流程；3) 模型架构：提出了一种将原始音频转换为文本描述再与视觉信息融合的简单但有效的音频表征学习范式，区别于其他“全模态”模型（如ImageBind、OmniEmbed）直接处理原始音频token的方式。主要实验结果如何：AudioVLM2Vec在OmniCVR基准上取得了全面的最佳性能。例如，在整体查询上R@1达到66.98%，比强基线VLM2Vec（38.44%）高出28.54个百分点；在音频中心查询上R@1达到77.2%，而VLM2Vec仅为12.4%。消融实验证明，移除源视频会导致性能暴跌，证实了任务对组合推理的严格要求；将OmniEmbed的骨干从原生音频token替换为Audio-as-Text机制，其R@1从13.6%大幅提升至32.7%。实际意义是什么：该工作为评估和推动真正具备多模态理解能力的视频检索系统建立了新的标准，揭示了当前最先进模型在音频理解和组合推理上的重大缺陷，并证明了将音频转化为语义文本是提升相关性能的有效途径，对智能视频搜索、内容审核、跨模态生成等应用具有指导意义。主要局限性是什么：1) 推理效率：引入的音频转录步骤显著增加了推理延迟（从1.72s增加到4.77s），限制了实时应用；2) 音频表征依赖：性能高度依赖于Qwen2-Audio的转录质量，可能引入偏差或错误；3) 任务范围：专注于检索任务，未探索音频修改指令的生成等更复杂的交互。 🏗️ 模型架构本文主要提出AudioVLM2Vec模型，其架构是VLM2Vec的扩展。整体流程如下图所示： ...

OmniVideoBench: Towards Audio-Visual Understanding Evaluation for Omni MLLMs

📄 OmniVideoBench: Towards Audio-Visual Understanding Evaluation for Omni MLLMs #基准测试 #模型评估 #多模态模型 #音频问答 #音视频 ✅ 7.8/10 | 前25% | #基准测试 | #模型评估 | #多模态模型 #音频问答学术质量 6.3/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度高 👥 作者与机构第一作者：Caorui Li (南京大学, 东南大学) 通讯作者：Jiaheng Liu (南京大学) 作者列表：Caorui Li (南京大学, 东南大学), Yu Chen (南京大学, 东南大学), Yiyan Ji (南京大学), Jin Xu (阿里巴巴集团), Zhenyu Cui (东南大学), Shihao Li (南京大学), Yuanxing Zhang (快手科技), Zhenghao Song (M-A-P), Dingling Zhang (南京大学), Ying He (北京科技大学), Haoxiang Liu (北京科技大学), Yuxuan Wang (阿里巴巴集团), Qiufeng Wang (东南大学), Jiafu Tang (南京大学), Zhenhe Wu (M-A-P), Jiehui Luo (中央音乐学院), Zhiyu Pan (南京大学), Weihao Xie (华中科技大学), Chenchen Zhang (M-A-P), Zhaohui Wang (南京大学), Jiayi Tian (阿里巴巴集团), Yanghai Wang (南京大学), Zhe Cao (南京大学), Minxin Dai (南京大学), Ke Wang (M-A-P), Runzhe Wen (南京大学), Yinghao Ma (伦敦玛丽女王大学), Yaning Pan (复旦大学), Sungkyun Chang (伦敦玛丽女王大学), Termeh Taheri (伦敦玛丽女王大学), Haiwen Xia (北京大学), Christos Plachouras (伦敦玛丽女王大学), Emmanouil Benetos (伦敦玛丽女王大学), Yizhi Li (曼彻斯特大学), Ge Zhang (M-A-P), Jian Yang (M-A-P), Tianhao Peng (M-A-P), Zili Wang (M-A-P), Minghao Liu (2077AI), Junran Peng (北京科技大学), Zhaoxiang Zhang (中国科学院), Jiaheng Liu (南京大学)。 💡 毒舌点评这篇论文的亮点在于其极其严谨和“反作弊”的基准设计理念（如强调音视频必须协同、设计原子推理链、多阶段质量过滤），为评估“真·多模态推理”设立了高标准。然而，短板在于其本质是一个“裁判”而非“运动员”——它精准地指出了当前模型的短板（音乐理解差、长视频融合弱），但并未提出任何解决这些问题的新模型或新方法，创新性停留在了评估体系的设计层面。 ...

OptMerge: Unifying Multimodal LLM Capabilities and Modalities via Model Merging

📄 OptMerge: Unifying Multimodal LLM Capabilities and Modalities via Model Merging #多模态模型 #模型合并 #基准测试 #开源工具 🔥 8.0/10 | 前25% | #多模态模型 | #模型合并 | #基准测试 #开源工具学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Yongxian Wei（清华大学）通讯作者：Lu Hou（华为诺亚方舟实验室），Chun Yuan（清华大学）作者列表：Yongxian Wei（清华大学），Runxi Cheng（清华大学），Weike Jin（华为诺亚方舟实验室），Enneng Yang（中山大学），Li Shen（中山大学），Lu Hou（华为诺亚方舟实验室），Sinan Du（清华大学），Chun Yuan（清华大学），Xiaochun Cao（中山大学），Dacheng Tao（南洋理工大学） 💡 毒舌点评亮点：论文最大的价值在于系统性地填补了MLLM模型合并领域“无标准基准”的空白，并基于此提出了针对全微调和LoRA微调两种不同场景的、有理论支撑的优化方法（OptMerge），实验充分且开源承诺良好。短板：实验规模主要集中在1B和7B参数的模型上，对于当前主流的大参数量（如70B以上）多模态模型的合并效果、以及合并后模型的长期稳定性（如对话能力衰减）缺乏更深入的探讨。 🔗 开源详情代码：论文明确提及“All code and checkpoints are publicly available here”，并提供了链接（here应为超链接，但当前文本中未显示具体URL）。因此，代码将开源。模型权重：论文明确提及公开“checkpoints”，包括为基准训练的所有专家模型（VQA, Geometry, Chart, OCR, Grounding）在InternVL2.5和Qwen2-VL上的权重，以及模态合并实验中使用的视觉、音频、视频模型权重。数据集：基准中使用的所有训练数据和评估数据均来自公开数据集（如Table 1所列），论文提供了详细的列表。评估使用VLMEvalKit和LMMs-Eval等公开工具。 Demo：论文中未提及提供在线演示。复现材料：论文提供了详细的实现细节（附录C），包括微调参数、合并设置、优化器配置等。所有实验在8×V100 GPU上进行，提供了硬件参考。引用的开源项目：论文依赖并引用了多个开源工具和模型，包括：模型：InternVL2.5, Qwen2-VL, Vicuna, CLIP, BEATs, LanguageBind, LLaVA系列, CogVLM, InstructBLIP等。评估工具：VLMEvalKit, LMMs-Eval。合并工具：提到MergeKit。框架：HuggingFace Transformers。 📌 核心摘要要解决什么问题：现有模型合并研究缺乏针对多模态大语言模型（MLLM）的、能清晰划分其多种能力（如VQA、几何推理、图表理解等）并评估其模态融合效果的专用基准。同时，现有的数据驱动合并方法成本高昂，需要一种数据高效的后处理方法来统一不同专家模型的能力或不同模态。方法核心是什么：本文提出了OptMerge基准，包含从VQA到Grounding五类能力的训练数据集和评估集，覆盖了InternVL2.5（全微调）和Qwen2-VL（LoRA）两种设置。同时，提出了OptMerge算法，通过对任务向量进行低秩近似去噪，并基于任务向量间的交互损失来鲁棒地优化合并向量，以应对全微调和LoRA微调模型参数特性不同的挑战。与已有方法相比新在哪里：(1) 首次构建了细粒度划分MLLM能力并评估模态融合的专用模型合并基准。(2) 提出了针对MLLM特性的新合并算法OptMerge，通过SVD去噪和针对性的优化策略（全微调用Adam+中心化，LoRA用SGD+初始化为平均值）来提升稳定性与性能。(3) 首次在基准上系统性地探索了通过合并来融合视觉、音频、视频多种模态，构建“全模态”语言模型。主要实验结果如何：能力合并：OptMerge在基准上平均性能提升2.48%，在InternVL2.5（全微调）上达到57.44分（最佳），在Qwen2-VL（LoRA）上达到63.30分（最佳），超越了需要数据混合训练的基线（如InternVL2.5混合训练为57.66分）。模态合并：合并视觉、音频、视频三个模态模型后，在Audio-VQA任务上平均得分66.88，显著高于单个模态模型（视觉63.16，音频37.75，视频64.11）。消融实验：对LoRA合并，从WUDI Merging（58.65）逐步加入SGD（降至48.88）、初始化（升至63.08）、低秩近似（最终63.30）各组件，验证了各设计的有效性。实际模型：合并从Hugging Face收集的4个不同专长模型（如GRPO数学模型、Pokemon模型），平均分达66.70，超过了最强单体模型（63.17）。实际意义是什么：证明了模型合并是一种数据高效、计算成本低的构建增强版MLLM的有效路径。它不仅能融合同一基础模型的不同能力版本，还能通过“数据free”的方式整合不同模态的编码器，为快速集成社区开源模型、构建全模态模型提供了新思路。主要局限性是什么：实验主要在中等规模模型（1B， 7B）上进行，对更大规模模型（如32B以上）的验证（虽然补充了32B实验但不深入）和计算效率的更全面评估有待加强。此外，基准所用的训练数据均为公开数据集，可能无法完全代表工业界复杂的私有数据场景。 🏗️ 模型架构本文的核心贡献并非提出一个新的多模态模型架构，而是提出一种模型合并（Merging）的方法论，用于将多个已训练好的、具有不同能力或模态的多模态大语言模型（MLLM）融合成一个统一的模型。因此，其“架构”主要指合并后模型的构成方式。 ...

ParaS2S: Benchmarking and Aligning Spoken Language Models for Paralinguistic-aware Speech-to-Speech Interaction

📄 ParaS2S: Benchmarking and Aligning Spoken Language Models for Paralinguistic-aware Speech-to-Speech Interaction #语音对话系统 #强化学习 #知识蒸馏 #基准测试 #语音合成 🔥 8.5/10 | 前25% | #语音对话系统 | #强化学习 | #知识蒸馏 #基准测试学术质量 6.5/7 | 选题价值 1.8/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Shu-wen Yang (台湾大学电气工程学系研究生院 / 字节跳动 Seed) 通讯作者：Lu Lu (字节跳动 Seed)， Hung-yi Lee (台湾大学电气工程学系) 作者列表： Shu-wen Yang (台湾大学电气工程学系研究生院，字节跳动 Seed) Ming Tu (字节跳动 Seed) Andy T. Liu (字节跳动 Seed) Xinghua Qu (字节跳动 Seed) Hung-yi Lee (台湾大学电气工程学系) Lu Lu (字节跳动 Seed) Yuxuan Wang (字节跳动 Seed) Yonghui Wu (字节跳动 Seed) 💡 毒舌点评这篇论文最大的亮点在于精准定义了“语音对话模型听不懂弦外之音”这一痛点，并系统性地设计了从评估基准（ParaS2SBench）到强化学习训练（ParaS2SAlign）的完整解决方案，堪称“对症下药”的范例。但其短板也明显：核心的强化学习框架（GRPO）和奖励模型蒸馏技术并非首次提出，创新更多体现在将这些技术成功适配到一个全新的、定义良好的问题域中，而非算法本身的突破；此外，自动评估器虽与人类评分高度相关，但其“风格幻觉”问题可能并未完全根除，依然依赖于其精心构建的特征提取流水线。 ...

PrismAudio: Decomposed Chain-of-Thought and Multi-dimensional Rewards for Video-to-Audio Generation

📄 PrismAudio: Decomposed Chain-of-Thought and Multi-dimensional Rewards for Video-to-Audio Generation #音频生成 #强化学习 #扩散模型 #多模态模型 #基准测试 ✅ 7.0/10 | 前25% | #音频生成 | #强化学习 | #扩散模型 #多模态模型学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度高 👥 作者与机构第一作者：Huadai Liu（香港科技大学、阿里巴巴集团通义实验室）通讯作者：Wei Xue（香港科技大学）作者列表：Huadai Liu（香港科技大学、阿里巴巴集团通义实验室）、Kaicheng Luo（阿里巴巴集团通义实验室）、Wen Wang（阿里巴巴集团通义实验室）、Qian Chen（阿里巴巴集团通义实验室）、Peiwen Sun（香港中文大学）、Rongjie Huang（香港中文大学）、Xiangang Li（阿里巴巴集团通义实验室）、Jieping Ye（阿里巴巴集团通义实验室）、Wei Xue（香港科技大学） 💡 毒舌点评亮点在于将“分解的链式思维”与“多维强化学习奖励”进行耦合的框架设计思路，清晰且有效，为解决多目标生成中的“目标纠缠”提供了新颖且可解释的方案。短板是，其提出的全新AudioCanvas基准数据集虽然是必要的，但作为“裁判员”的同时，自己也是“运动员”，这使得核心结论的公信力部分依赖于数据集构建的客观性，且报告的部分指标（如在某些空间或美学指标上超越了真实音频）需要更谨慎的解释。 🔗 开源详情代码：论文承诺将开源完整训练脚本和配置文件，但当前未提供代码仓库链接。模型权重：论文承诺将公开所有模型权重（音频基础模型、微调后的VideoLLaMA2等），但未提供下载地址。数据集：论文承诺将公开AudioCanvas基准数据集，但未说明具体获取方式。 Demo：论文未提及在线演示。复现材料：附录D提供了极其详细的实现细节，包括训练各阶段的GPU型号、数量、时长、批大小、学习率等超参数，以及CoT生成和微调的提示词模板，复现信息非常充分。论文中引用的开源项目：VideoPrism, T5-Gemma, VideoLLaMA2, Gemini 2.5 Pro（API）, MS-CLAP, Synchformer, Meta Audiobox Aesthetics, StereoCRW, Stability AI的音频工具。 📌 核心摘要要解决什么问题：视频到音频生成需要同时优化语义一致性、时间同步性、美学质量和空间准确性四个维度，但现有方法使用单一损失函数导致目标相互纠缠，且缺乏与人类偏好对齐。方法核心是什么：提出PrismAudio框架，首次将强化学习引入视频到音频生成。其核心是将生成前的推理过程分解为四个专门的链式思维模块（语义、时间、美学、空间），并为每个模块设计对应的奖励函数，通过多维强化学习进行联合优化。与已有方法相比新在哪里：1) 首次在V2A中使用分解式CoT与多维RL奖励对应，解决目标纠缠并提升可解释性。2) 提出Fast-GRPO算法，通过随机窗口的混合ODE-SDE采样，在保证性能的同时大幅降低RL训练开销。3) 构建了更严谨、场景更多样的AudioCanvas基准数据集。主要实验结果如何：在自建的AudioCanvas基准和VGGSound测试集上，PrismAudio在所有四个感知维度上均达到了SOTA水平。例如，在AudioCanvas上，与基线ThinkSound相比，语义对齐度（CLAP）从0.48提升至0.52，时间同步性（DeSync）从0.80大幅改善至0.36，美学质量（CE）从4.10提升至4.26，空间误差（CRW）从22.82降低至12.87。消融实验证明分解式CoT优于单体式CoT，多维度奖励优于单维度奖励。实际意义是什么：为生成高质量、可控且与人类感知对齐的视频配音提供了一个新范式。其分解式推理框架和高效RL训练方法对其他多模态生成任务也有参考价值。主要局限性是什么：框架复杂度较高，依赖于多个预训练模型（如VideoLLaMA2、各种奖励模型）。实验中报告的部分客观指标（如空间/美学）超越了真实音频，这可能源于对不完美代理指标的过度优化，其实际感知质量需结合主观评估看。新提出的AudioCanvas基准的有效性和广泛接受度有待社区检验。 🏗️ 模型架构 PrismAudio的整体架构可分为三个主要阶段，建立在一个基于流匹配的扩散Transformer音频基础模型之上。 ...

STAR-Bench: Probing Deep Spatio-Temporal Reasoning as Audio 4D Intelligence

📄 STAR-Bench: Probing Deep Spatio-Temporal Reasoning as Audio 4D Intelligence #音频问答 #模型评估 #基准测试 #多模态模型 #时空推理 🔥 8.5/10 | 前25% | #音频问答 | #基准测试 | #模型评估 #多模态模型学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.8 | 置信度高 👥 作者与机构第一作者：Zihan Liu（北京航空航天大学、上海AI实验室）通讯作者：Yuhang Zang（上海AI实验室）、Jiaqi Wang（上海AI实验室）作者列表：Zihan Liu（北京航空航天大学、上海AI实验室）， Zhikang Niu（上海交通大学、上海创新研究院）， Qiuyang Xiao（上海交通大学）， Zhisheng Zheng（上海交通大学）， Ruoqi Yuan（北京航空航天大学）， Yuhang Zang（上海AI实验室）， Yuhang Cao（上海AI实验室）， Xiaoyi Dong（上海AI实验室、香港中文大学）， Jianze Liang（上海AI实验室）， Xie Chen（上海交通大学、上海创新研究院）， Leilei Sun（北京航空航天大学）， Dahua Lin（上海AI实验室、香港中文大学）， Jiaqi Wang（上海AI实验室、上海创新研究院） 💡 毒舌点评这篇论文精准地抓住了当前音频大模型“懂语义、不懂物理”的痛点，用一套精心设计的“体检套餐”（STAR-Bench）让模型们在感知灵敏度和物理推理能力上露了怯。它最大的亮点是为社区立了一个更严格的标杆，指明了从“能说会道”到“耳听八方”的进阶之路。短板则在于它主要是一份“诊断书”而非“药方”，对于如何让模型真正“听懂”多普勒效应和倒水声的变化，给出的解决方案线索有限。 ...

Steering Autoregressive Music Generation with Recursive Feature Machines

📄 Steering Autoregressive Music Generation with Recursive Feature Machines #音乐生成 #可解释性 #自回归模型 #基准测试 #模型评估 🔥 8.0/10 | 前25% | #音乐生成 | #可解释性 | #自回归模型 #基准测试学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Daniel Zhao (University of California, San Diego) 通讯作者：未明确说明（论文列出了所有作者邮箱，无指定通讯作者）作者列表：Daniel Zhao (University of California, San Diego)、Daniel Beaglehole (University of California, San Diego)、Taylor Berg-Kirkpatrick (University of California, San Diego)、Julian McAuley (University of California, San Diego)、Zachary Novack (University of California, San Diego) 💡 毒舌点评亮点：该工作将“可解释性”与“可控生成”两个热门方向巧妙结合，通过激活空间干预提供了无需重训模型的细粒度控制方案，实验设计全面，既有严谨的量化指标，也有主观听感测试。短板：对节奏、和弦进行等强时序依赖概念的控制效果仍较弱，其核心控制单元（均值池化的探针）本质上牺牲了时序动态信息，这在未来可能是需要突破的瓶颈。 ...

TripleSumm: Adaptive Triple-Modality Fusion for Video Summarization

📄 TripleSumm: Adaptive Triple-Modality Fusion for Video Summarization #视频摘要 #多模态模型 #自适应融合 #基准测试 #数据集 🔥 8.0/10 | 前25% | #视频摘要 | #多模态模型 | #自适应融合 #基准测试学术质量 6.5/7 | 选题价值 1.0/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Sumin Kim（首尔国立大学）[论文中注明与Hyemin Jeong, Mingu Kang并列第一作者] 通讯作者：Yoori Oh, Joonseok Lee（首尔国立大学）作者列表：Sumin Kim（首尔国立大学）、Hyemin Jeong（首尔国立大学）、Mingu Kang（首尔国立大学）、Yejin Kim（首尔国立大学）、Yoori Oh（首尔国立大学）、Joonseok Lee（首尔国立大学） 💡 毒舌点评亮点在于直击了现有视频摘要模型“静态融合”或“忽视音频/文本”的痛点，并用一个设计巧妙的“融合令牌”自适应地解决了这个问题，效果立竿见影，同时构建了首个大规模三模态数据集，功在千秋。短板是其核心框架（时间窗口注意力+跨模态注意力）并未跳出Transformer的范畴，创新更多是组合与适配，且“先打分再选段”的两阶段范式本身限制了端到端优化的可能，论文也在结论中坦承了这一局限。 🔗 开源详情代码：论文明确提供了代码仓库链接：https://github.com/smkim37/TripleSumm。模型权重：未在论文正文中明确提及是否公开预训练模型权重。数据集：论文明确介绍了新数据集MoSu，并提供了数据获取信息（基于YouTube-8M，遵循特定筛选标准），论文中未明确给出直接下载链接，但提供了获取方法。 Demo：论文中未提及在线演示。复现材料：论文提供了详细的超参数表（表I）、训练硬件、数据预处理流程（附录B.4）、评估协议（附录B.5）以及完整的消融研究，复现信息非常充分。引用的开源项目：依赖的主要预训练模型和库包括：CLIP (视觉编码器), RoBERTa (文本编码器), Audio Spectrogram Transformer (AST，音频编码器), Qwen2.5-VL-7B-Instruct (用于外部数据集生成文本描述), SwiGLU (FFN层), KTS (视频分割)。 📌 核心摘要本文针对视频摘要任务中现有方法无法动态、自适应地融合视觉、文本和音频模态信息的问题，提出了TripleSumm模型。该模型通过多尺度时间块（MST）在每一模态内部进行时序建模，并通过跨模态融合块（CMF）利用一个“融合令牌”作为中立查询，在每一帧动态选择和加权最相关的模态信息。与以往方法相比，其核心创新在于实现了帧级别的、自适应的模态重要性评估。为解决多模态训练数据稀缺的问题，论文还引入了首个大规模三模态视频摘要数据集MoSu，包含52,678个视频及其观看回放统计作为ground-truth。主要实验结果显示，TripleSumm在MoSu、Mr. HiSum、SumMe和TVSum四个基准上均显著超越了现有方法，例如在MoSu上，其Kendall‘s τ（0.351）和Spearman‘s ρ（0.472）大幅领先于此前最优的CFSum（0.277， 0.374）。该工作的实际意义在于提供了一个高效且可扩展的多模态视频摘要解决方案，并为未来研究奠定了可靠的大规模数据基础。主要局限性在于其摘要生成仍遵循“帧评分-片段选择”的传统两阶段流程，而非直接生成摘要片段，且模型架构的创新性主要体现在模块组合而非底层机制。 ...

TTSDS2: Resources and Benchmark for Evaluating Human-Quality Text to Speech Systems

📄 TTSDS2: Resources and Benchmark for Evaluating Human-Quality Text to Speech Systems #语音合成 #模型评估 #基准测试 #多语言 #鲁棒性 ✅ 7.0/10 | 前25% | #模型评估 | #基准测试 | #语音合成 #多语言学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 1.0 | 置信度高 👥 作者与机构第一作者：Christoph Minixhofer（爱丁堡大学语音技术研究中心）通讯作者：未说明作者列表：Christoph Minixhofer（爱丁堡大学语音技术研究中心）、Ondrej Klejch（爱丁堡大学语音技术研究中心）、Peter Bell（爱丁堡大学语音技术研究中心） 💡 毒舌点评亮点：论文构建了迄今最全面的TTS系统公开评测框架，涵盖20个系统、4个测试域、14种语言，并发布了超过1万条主观评分数据，这本身就是一项耗时耗力的重要基础设施贡献。短板：TTSDS2指标本身创新有限，本质是多个特征分布的Wasserstein距离集成，且计算开销大（每分需约10分钟CPU时间），其最大优势——“跨域一致性”更像是一个精心设计和调优的工程成果，而非理论突破。 🔗 开源详情代码：提供了流水线代码仓库链接：github.com/ttsds/pipeline。模型权重：TTSDS2本身是一个评估算法，不涉及模型权重。论文中评估的20个TTS系统中，大部分开源代码和权重（见表6附录A）。数据集：a) 主观评测数据集：hf.co/datasets/ttsds/listening_test；b) 自动化生成的评测数据集：可通过上述流水线重建，噪声参考集在 hf.co/datasets/ttsds/noise-reference。 Demo：提供了多语言基准排行榜网站 ttsdsbenchmark.com，可查看各系统分数。论文未提及交互式Demo。复现材料：论文提供了详细的算法伪代码（算法1）、因子特征选择表（表1）、附录中的听测问卷细节（附录B）、以及所有实验数据的详细表格（附录C-H）。论文中引用的开源项目：Whisper（语音识别与转录）、FastText（语言识别）、Pyannote（说话人分割）、Demucs（音乐分离）、VERSA（评估工具包）、以及所有被评测的20个TTS系统。 📌 核心摘要解决的问题：现有TTS评估方法（主观MOS耗时费力且不可比，客观指标在域外泛化差且与主观分相关性弱）已无法满足评估高质量、接近真人水平的现代TTS系统的需求。方法核心：提出TTSDS2，一个分布式的、因子化的客观评估指标。它从Generic、Speaker、Prosody、Intelligibility四个感知维度，提取多种特征，并计算合成语音特征分布与真实语音分布、噪声分布之间的2-Wasserstein距离，归一化后得到分数。与已有方法相比新在哪里：a) 是首个在4个差异巨大的域（干净朗读、嘈杂、野外、儿童语音）和14种语言上，都能与主观评分（MOS/CMOS/SMOS）保持 Spearman 相关系数 ρ > 0.5 的单一指标。b) 发布了一个持续更新、可自动化复现的多语言TTS评测基准和流程。c) 收集并发布了大规模、跨系统的主观评测数据集（11,282条有效评分）。主要实验结果： TTSDS2在所有4个域、3类主观评分（共12个评测点）上的平均Spearman相关系数为0.67，是唯一一个在所有评测点上ρ > 0.5的指标（表3）。相比之下，其他15个指标中表现最好的Speaker Similarity类指标（RawNet3）平均相关系数为0.6，但存在域失效；MOS预测网络（SQUIM）平均为0.57。对20个开源TTS系统的排名中，TTSDS2与MOS和CMOS在Top 4和Bottom 3系统上达成一致（图2）。实际意义：为TTS社区提供了一个可靠、稳健、可自动化的跨语言、跨域评估标尺和持续更新的基准排行榜，有助于更公平、更高效地比较和推进TTS技术，尤其对评估那些声称达到“人机难辨”水平的系统至关重要。主要局限性：a) 计算成本高（CPU-bound）。b) 仍无法完全替代主观评测（最高相关系数约0.8）。c) 无法检测TTS系统可能存在的语义错误（如转录不忠实），需辅以WER等指标。d) 评估粒度为句子级别，不支持长文本。 🏗️ 模型架构 TTSDS2并非一个生成模型，而是一个评估指标框架。其核心架构如下： ...