模型评估 | 语音/音乐/音频论文速递

Human or Machine? A Preliminary Turing Test for Speech-to-Speech Interaction

📄 Human or Machine? A Preliminary Turing Test for Speech-to-Speech Interaction #语音对话系统 #模型评估 #基准测试 #数据集 🔥 9.0/10 | 前25% | #语音对话系统 | #模型评估 | #基准测试 #数据集学术质量 6.5/7 | 选题价值 1.8/2 | 复现加成 0.8 | 置信度高 👥 作者与机构第一作者：Xiang Li（北京邮电大学网络与交换技术国家重点实验室、深圳大数据研究院、香港中文大学（深圳）、深圳环西丽湖实验室）通讯作者：Jiale Han（香港科技大学）作者列表： Xiang Li（北京邮电大学网络与交换技术国家重点实验室、深圳大数据研究院、香港中文大学（深圳）、深圳环西丽湖实验室） Jiabao Gao（香港中文大学（深圳）） Sipei Lin（香港中文大学（深圳）） Xuan Zhou（香港中文大学（深圳）） Chi Zhang（香港中文大学（深圳）） Bo Cheng（北京邮电大学网络与交换技术国家重点实验室） Jiale Han（香港科技大学） Benyou Wang（深圳大数据研究院、香港中文大学（深圳）、深圳环西丽湖实验室） 💡 毒舌点评这篇论文的亮点在于其开创性和系统性：它首次将图灵测试从文本或语音合成领域完整地迁移到端到端语音对话系统评估，并构建了首个包含18维度的细粒度诊断框架，这为“何为类人语音交互”设立了新的评估标准。然而，其短板在于实验设计的简化，例如角色扮演和特定开场白的提示可能无法完全模拟真实世界中开放、自发的对话场景，且测试对话长度较短（20-60秒），对长程记忆和动态人格塑造的评估有所欠缺。 🔗 开源详情代码：论文明确提供了公开的代码仓库链接：https://github.com/Carbohydrate1001/Turing-Test。模型权重：论文提到公开了模型，但具体权重获取方式需参考上述代码仓库（has_model: 是）。数据集：论文明确提供了公开的数据集，并通过上述代码仓库发布（has_dataset: 是）。 Demo：论文中未提及提供在线演示的链接。复现材料：论文在附录中详细说明了数据收集流程（B节）、图灵测试平台设计（C节）、细粒度标注协议（D节）、以及AI评判器的训练设置、嵌入读取选择、模型消融、超参数调优和敏感性分析（E节），复现信息非常充分。论文中引用的开源项目：论文引用了多个开源模型和数据集，包括： S2S模型：GPT-4o, Gemini2.5-Pro, Qwen3, Kimi-K1.5, ChatGLM-4.5, Hunyuan-TurboS, Doubao-Pro 1.5, Claude-Sonnet 4, iFLYTEK-Spark。 TTS模型：Nari Dia-1.6B, Spark-TTS。对话数据集：DailyDialog, DailyTalk, IEMOCAP, MagicData。 AI评判器骨干模型：Qwen2.5-Omni。其他技术：LoRA（低秩适应）。 📌 核心摘要本文旨在解决如何评估现代语音到语音（S2S）系统是否能够像人类一样自然对话这一核心问题。为此，研究者首次针对S2S系统开展了图灵测试。方法核心是构建一个高质量、多类别（人-人、人-机、伪人类）的对话数据集，并通过一个游戏化的在线平台收集大规模人类判断（2,968条）。与仅提供“通过/失败”的传统评估不同，本文进一步开发了一个包含5大类、18个细粒度维度的类人性诊断标注体系，并基于此训练了一个可解释的AI评判模型。与已有工作相比，本文的新意在于：1）首次对端到端S2S系统进行图灵测试；2）从“是否像人”的视角进行诊断，发现当前瓶颈不在语义理解，而在副语言特征、情感表达和对话人格；3）开发了一个显著优于通用多模态模型且可提供诊断依据的专用AI评判器。主要实验结果显示，所有被评估的9个S2S系统的成功率均远低于0.5的人类基准，无人类通过测试；细粒度分析显示S2S系统在“记忆一致性”、“逻辑连贯性”等方面接近人类，但在“韵律”、“情感声学表达”、“谄媚行为”等方面差距明显。所提出的AI评判器在测试集上的整体分类准确率达到96.05%，远超人类评判者的72.84%和通用AI模型的平均水平45.27%。这项工作的实际意义在于为S2S系统提供了一个超越功能性、聚焦于“类人性”的评估基准和诊断工具，明确指出了下一代语音对话AI需要突破的关键方向。主要局限性在于评估的对话场景和长度相对有限，且“伪人类”对话作为对照组的引入虽然增加了测试难度，但其与S2S系统固有缺陷的直接关联性值得进一步探讨。 ...

JointAVBench: A Benchmark for Joint Audio-Visual Reasoning Evaluation

📄 JointAVBench: A Benchmark for Joint Audio-Visual Reasoning Evaluation #基准测试 #多模态模型 #音视频 #模型评估 ✅ 7.5/10 | 前25% | #基准测试 | #多模态模型 | #音视频 #模型评估学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Jianghan Chao (中国人民大学高瓴人工智能学院) 通讯作者：Ruihua Song (中国人民大学高瓴人工智能学院) 作者列表：Jianghan Chao (中国人民大学高瓴人工智能学院)、Jianzhang Gao (未说明，仅提供邮箱)、Wenhui Tan (未说明，仅提供邮箱)、Yuchong Sun (未说明，仅提供邮箱)、Ruihua Song (中国人民大学高瓴人工智能学院)、Liyun Ru (百川智能) 💡 毒舌点评这篇论文像一个精心设计的“多模态AI体能测试仪”，它系统化地定义了音视频联合推理的“考试范围”（5认知维度、4音频类型、3场景跨度）和“出题规则”（严格关联、半自动生成），并逼出了当前最强模型的“真实分数”（最高仅62.6%）。其最大亮点是提供了首个结构严谨、维度全面的评估体系，直指当前全模态模型“感知割裂、融合不深”的痛点。短板则在于，这个“测试仪”本身只生产考卷，不制造“应试技巧”——论文对模型失败原因的分析相对宏观，未能深入模型内部机制，且数据来源单一，可能让这个“考场”代表性打了折扣。 🔗 开源详情代码：论文提供了项目主页链接 (https://jointavbench.github.io)，但论文中未提及是否有公开的数据生成或评估代码仓库。模型权重：未提及。本论文为评测工作，未提出新模型。数据集：已公开。JointAVBench数据集在项目主页提供，采用CC BY-NC-SA 4.0许可证。 Demo：未提及。复现材料：论文附录提供了非常详尽的生成流水线提示词模板（图10-图16），以及实验设置细节（如模型参数、帧采样、API设置），为复现其评测流程提供了充分信息。论文中引用的开源项目：PySceneDetect（用于场景分割），Whisper-v3（用于语音转录），以及大量被评测的开源模型（如Qwen系列、VideoLLaMA系列、SALMONN系列等）。 📌 核心摘要问题：现有基准在评估全模态大语言模型（Omni-LLMs）的音视频联合推理能力时，存在音频-视频关联不严格、音频类型覆盖不全、缺乏对多场景推理能力评估等关键缺陷，无法全面、严格地评估模型的真实联合理解水平。 ...

MAPSS: Manifold-based Assessment of Perceptual Source Separation

📄 MAPSS: Manifold-based Assessment of Perceptual Source Separation #语音分离 #自监督学习 #流形学习 #基准测试 #模型评估 🔥 8.5/10 | 前25% | #语音分离 | #流形学习 | #自监督学习 #基准测试学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.8 | 置信度高 👥 作者与机构第一作者：Amir Ivry（Technion - Israel Institute of Technology, Electrical and Computer Engineering）通讯作者：Shinji Watanabe（Carnegie Mellon University, Language Technologies Institute）作者列表：Amir Ivry（Technion - Israel Institute of Technology）、Samuele Cornell（Carnegie Mellon University）、Shinji Watanabe（Carnegie Mellon University） 💡 毒舌点评亮点在于其坚实的理论基础和创新的评估范式：通过扩散映射将主观听感离散化为流形上的几何距离，首次在数学上清晰地解耦了“分离度”和“匹配度”，并提供了理论误差界，这在音频评估指标中极为罕见。短板则是其实用性受限于严格的时序对齐假设和对预定义失真库的依赖，在存在较大延迟或未知失真类型的实际场景中，其有效性可能会打折扣。 ...

MCIF: Multimodal Crosslingual Instruction-Following Benchmark from Scientific Talks

📄 MCIF: Multimodal Crosslingual Instruction-Following Benchmark from Scientific Talks #基准测试 #多模态模型 #多语言 #模型评估 #语音翻译 🔥 8.0/10 | 前25% | #基准测试 | #多模态模型 | #多语言 #模型评估学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Sara Papi（Fondazione Bruno Kessler (FBK)）通讯作者：未明确说明作者列表：Sara Papi (FBK), Maike Züfle (Karlsruhe Institute of Technology (KIT)), Marco Gaido (FBK), Beatrice Savoldi (FBK), Danni Liu (KIT), Ioannis Douros (Translated), Luisa Bentivogli (FBK), Jan Niehues (KIT) 💡 毒舌点评亮点是设计了一个非常全面、平行且高质量的跨语言多模态指令跟随基准，填补了现有评估体系的关键空白；短板在于受限于计算成本，评估的开源模型参数规模普遍偏小（≤20B），且未包含任何闭源前沿商业模型的系统性对比（仅测试了Gemini 2.5 Flash），削弱了对当前技术天花板的揭示能力。 ...

Measuring Audio's Impact on Correctness: Audio-Contribution-Aware Post-Training of Large Audio Language Models

📄 Measuring Audio’s Impact on Correctness: Audio-Contribution-Aware Post-Training of Large Audio Language Models #音频大模型 #强化学习 #数据集 #音频问答 #模型评估 ✅ 7.5/10 | 前25% | #音频问答 | #强化学习 | #音频大模型 #数据集学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Haolin He（香港中文大学、蚂蚁集团）通讯作者：Jian Liu（蚂蚁集团， rex.lj@antgroup.com）、Qiuqiang Kong（香港中文大学， qqkong@ee.cuhk.edu.hk）作者列表：Haolin He（香港中文大学、蚂蚁集团）、Xingjian Du（罗切斯特大学）、Renhe Sun（蚂蚁集团）、Zheqi Dai（香港中文大学）、Yujia Xiao（香港中文大学）、Mingru Yang（蚂蚁集团）、Jiayi Zhou（蚂蚁集团）、Xiquan Li（上海交通大学）、Zhengxi Liu（香港中文大学）、Zining Liang（香港中文大学）、Chunyat Wu（香港中文大学）、Qianhua He（华南理工大学）、Tan Lee（香港中文大学）、Xie Chen（上海交通大学）、Wei-Long Zheng（上海交通大学）、Weiqiang Wang（蚂蚁集团）、Mark Plumbley（伦敦国王学院）、Jian Liu（蚂蚁集团）、Qiuqiang Kong（香港中文大学） 💡 毒舌点评亮点在于敏锐地抓住了音频问答模型“偷懒”不听音频的“零音频贡献”问题，并巧妙地将此“缺陷”转化为训练策略设计的依据（Weak-to-Strong），结果亮眼。短板则是整个方法链条严重依赖强大的生成式AI（Qwen3-235B）来构建数据集和进行质量过滤，这多少有点“用魔法打败魔法”，其生成质量的天花板可能直接决定了本方法的天花板。 🔗 开源详情代码：论文中未提及代码仓库链接。模型权重：论文未提及是否公开本次实验微调后的模型权重。所使用的基础模型（Qwen2.5-Omni）和评估模型（A-Flamingo2, R1-AQA, Kimi-Audio）均为已公开的模型。数据集：AudioMCQ是本文构建的数据集，论文中描述了构建方法和组成，但未明确提供数据集的公开下载链接或获取方式。 Demo：论文中未提及在线演示。复现材料：提供了详细的超参数配置表（表6，表7）、训练策略说明、评估提示模板（附录B）和质量验证流程（附录C），复现细节较为充分。论文中引用的开源项目：Qwen3-235B（用于数据生成）、Qwen2.5-Omni（骨干模型）、A-Flamingo2、R1-AQA、Kimi-Audio（用于ACF评估）、GRPO（训练方法）、DeepSpeed ZeRO-2（优化器）。开源计划：论文中未提及明确的开源计划。 📌 核心摘要解决的问题：大型音频语言模型（LALMs）的多阶段后训练（如SFT后接RL）效果不佳，缺乏针对性的高质量数据集，且普遍存在“零音频贡献”现象（模型仅凭文本信息即可答对，无需听音频）。方法核心：首先构建了大规模音频选择题数据集AudioMCQ（571k样本）。其次，提出音频贡献过滤（ACF）方法，利用多个模型在“静音”输入下的正确率，将数据分为“弱音频贡献”和“强音频贡献”子集。最后，基于此提出两种训练范式：Weak-to-Strong（SFT用弱音频贡献数据，GRPO用强音频贡献数据）和Mixed-to-Strong（SFT用混合数据，GRPO用强音频贡献数据）。创新性：1) 构建了首个大规模、带思维链注释的音频选择题数据集；2) 系统性地量化并分析了LALMs中的零音频贡献现象及其类型（显式逻辑推理与隐式知识检索）；3) 基于音频贡献度提出了简单有效的后训练数据分配策略。实验结果：使用Weak-to-Strong策略，在MMAU-test-mini和MMAU上分别达到78.2%和75.6%；使用Mixed-to-Strong策略，在MMAR和MMSU上分别达到67.0%和71.7%，均为开源模型SOTA。具体结果见表5及下表：方法 MMAU-test-mini MMAU MMAR MMSU Weak-to-Strong 78.2% 75.6% 65.3% 69.3% Mixed-to-Strong 76.4% 75.1% 67.0% 71.7% 所有数据 SFT 75.2% 75.0% 64.6% 64.0% 所有数据 GRPO 78.1% 75.4% 63.0% 70.2% GPT4o-Audio (基线) 62.5% 60.8% 63.5% 56.4% 实际意义：为音频大模型后训练提供了可复现的数据构建方案和高效的数据分配策略，揭示了当前评估基准中可能存在的“伪音频理解”问题。主要局限性：数据集构建完全依赖一个强大的大语言模型（Qwen3-235B），可能引入偏差；ACF方法依赖三个特定的现成模型；Weak-to-Strong范式在MMAR/MMSU上弱于Mixed-to-Strong，表明其普适性有待验证。 🏗️ 模型架构本文不提出新的模型架构，而是以现有的 Qwen2.5-Omni 作为基础模型进行后训练。其核心贡献在于数据构建与训练策略。因此，其“架构”体现在数据处理与训练流程上。图1展示了AudioMCQ数据集的构建流程。流程始于多个音频描述/问答数据集，经过问题生成、选择题构建、结构化与非结构化思维链生成，以及最后的质量评分与过滤。这是一个多阶段、依赖LLM的生成与筛选管线，最终产出高质量的选择题数据集。 ...

MMSU: A Massive Multi-task Spoken Language Understanding and Reasoning Benchmark

📄 MMSU: A Massive Multi-task Spoken Language Understanding and Reasoning Benchmark #基准测试 #数据集 #语音问答 #模型评估 #模型比较 🔥 8.5/10 | 前25% | #语音问答 | #模型评估 | #基准测试 #数据集学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Dingdong WANG（香港中文大学）通讯作者：未说明（论文未明确指定通讯作者；通讯邮箱为第一作者邮箱：dingdongwang@link.cuhk.edu.hk）作者列表：Dingdong WANG (香港中文大学), Junan Li (香港中文大学), Jincenzi Wu (香港中文大学), Dongchao Yang (香港中文大学), Xueyuan Chen (香港中文大学), Tianhua Zhang (香港中文大学), Helen M. Meng (香港中文大学) 💡 毒舌点评亮点：该工作像一位严谨的语言学教授，为“只会听个响”的语音大模型们精心设计了一场覆盖音素、韵律、修辞等全方位的“期末统考”，诊断出当前模型普遍存在的“语音学文盲”和“韵律感知障碍”，指明了未来训练的重点补课方向。短板：考试形式局限于“单选题”，虽然高效，但无法评估模型在真实对话中灵活运用这些能力进行生成或交互的水平，有点“高分低能”的潜在风险。 🔗 开源详情代码：论文中未提及代码仓库链接。评估用的脚本或提示词模板未开源。模型权重：未提及。论文评估了多个现有模型，但未提供任何自己训练的模型。数据集：公开。论文明确提供了数据集获取链接：https://huggingface.co/datasets/ddwang2000/MMSU。 Demo：未提及。复现材料：论文在附录中详细说明了数据构建过程（自定义录音、人工审核）、任务定义、任务示例、错误案例分析以及使用的GPT提示词。这为理解基准构建和部分复现提供了丰富信息，但完整的评估流程复现仍需额外工作。论文中引用的开源项目：论文依赖并引用了多个开源数据集和模型，包括：CommonVoice, MELD, GigaSpeech, Switchboard, SLURP, SEAME, Fake-or-Real, RAVDESS, CoVoST 2, EDACC, VCTK, CHILDES, LogicBench等（完整列表见附录B）。评估的模型包括BLSP, Qwen-Audio, Kimi-Audio, Gemini, GPT-4o-Audio等众多开源和闭源SpeechLLMs。 📌 核心摘要问题：当前语音大模型（SpeechLLMs）的评估基准普遍存在三大缺陷：日常语音现象（如不流畅、语调变化、重音）覆盖不足、过度依赖合成语音导致不真实、以及评估设计缺乏语言学理论基础。这导致无法全面、真实地评估模型对语音的深层理解能力。方法核心：本文提出了MMSU，一个全新的、基于语言学理论的语音理解与推理基准。它系统性地整合了语音学、韵律学、修辞学、句法学、语义学和副语言学等理论，构建了包含感知（24个任务）和推理（23个任务）两大维度、共计47个任务的评估框架。数据包含5000个精心设计的音频-问题-答案三元组。创新与对比：与之前基准（如VoiceBench， ADU-Bench， MMAU）相比，MMSU的新颖之处在于：(a) 理论驱动：首次系统性地将语言学原理融入任务设计；(b) 全面覆盖：涵盖了前所未有的语音现象广度（从音素辨析到双关语理解）；(c) 数据真实性：主要采用真实世界录音（76.74%开源数据，13.44%专业录制），仅少量使用TTS补充。实验结果：论文对22个先进的SpeechLLMs和OmniLLMs进行了评估。关键结果如下表所示（数据摘自论文表3）：模型类别大小感知准确率(%) 推理准确率(%) 总体平均准确率(%) Human 人类基线 - 91.24 86.77 89.72 Gemini-1.5-Pro 闭源 - 46.10 76.16 60.68 Qwen2.5-Omni-7B 开源 7B 42.50 79.83 60.57 Kimi-Audio 开源 7B 43.52 76.03 59.28 GPT-4o-Audio 闭源 - 39.67 71.96 56.38 * 人类表现（89.72%）远超所有模型，最优模型Gemini-1.5-Pro（60.68%）与其存在近30%的差距，凸显了任务的挑战性。 * 开源模型（如Qwen2.5-Omni-7B）性能已接近甚至超越部分闭源模型（如GPT-4o-Audio）。 * 关键发现：模型在感知任务（尤其是音系学相关任务）上表现普遍较差，与人类“推理难于感知”的认知模式相反；噪声注入后性能下降轻微，证明模型确实在使用音频信号。图5展示了模型在噪声条件下的鲁棒性对比。实际意义：MMSU为社区提供了一个标准化、高难度的“体检工具”，能有效诊断出当前SpeechLLMs在精细语音感知和复杂语义推理上的短板（特别是音系处理能力），为下一代更类人的语音交互模型研发指明了优化方向。主要局限性：a) 基准主要覆盖英语和中英混合语音，对其他语言的评估能力未体现；b) 评估形式为固定选项的多选题，可能无法完全反映模型开放式生成或对话中的理解能力；c) 尽管追求真实，数据中仍有9.82%的合成语音。 🏗️ 模型架构本文提出的是基准测试（Benchmark），而非一个新的模型。因此，其“架构”指的是基准本身的层级结构设计。 MMSU的架构设计是一个三层的树状分类体系，旨在系统性地评估语音理解能力： ...

Omni-Reward: Towards Generalist Omni-Modal Reward Modeling with Free-Form Preferences

📄 Omni-Reward: Towards Generalist Omni-Modal Reward Modeling with Free-Form Preferences #多模态模型 #强化学习 #数据集 #基准测试 #模型评估 🔥 8.5/10 | 前25% | #多模态模型 | #强化学习 | #数据集 #基准测试学术质量 6.0/7 | 选题价值 2.0/2 | 复现加成 0.8 | 置信度高 👥 作者与机构第一作者：Zhuoran Jin（中国科学院大学人工智能学院、中国科学院自动化研究所）通讯作者：Jun Zhao（中国科学院大学人工智能学院、中国科学院自动化研究所）作者列表：Zhuoran Jin（中国科学院大学人工智能学院、中国科学院自动化研究所）， Hongbang Yuan（中国科学院大学人工智能学院、中国科学院自动化研究所）， Kejian Zhu（中国科学院大学人工智能学院、中国科学院自动化研究所）， Jiachun Li（中国科学院大学人工智能学院、中国科学院自动化研究所）， Pengfei Cao（中国科学院大学人工智能学院、中国科学院自动化研究所）， Yubo Chen（中国科学院大学人工智能学院、中国科学院自动化研究所）， Kang Liu（中国科学院大学人工智能学院、中国科学院自动化研究所）， Jun Zhao（中国科学院大学人工智能学院、中国科学院自动化研究所） 💡 毒舌点评亮点：这篇论文最大的价值在于“系统性”和“开创性”，它首次将奖励模型（RM）的评估范围从传统的文本/图像扩展到了包括视频、音频、3D在内的全模态，并引入了自由形式的偏好描述，填补了一个重要的空白。短板：虽然构建了庞大的框架，但其核心生成式奖励模型（R1）的探索稍显初步，仅用了3%的数据进行训练，且论文中对训练的具体超参数和硬件环境交代不够清晰，使得这个最具野心的部分在可复现性上打了一丝折扣。 🔗 开源详情代码：论文提供了代码仓库链接：https://github.com/HongbangYuan/OmniReward 模型权重：论文提及将发布Omni-RewardModel，但未在正文中直接提供权重下载链接，通常这些链接会包含在代码仓库的README中。数据集：Omni-RewardBench和Omni-RewardData均已公开，并提供了HuggingFace链接： https://hf.co/datasets/HongbangYuan/OmniRewardBench https://hf.co/datasets/jinzhuoran/OmniRewardData Demo：论文中未提及在线演示。复现材料：论文详细描述了数据集构建流程、模型架构和评估协议，并在附录中提供了标注指南、质量控制细节等。但如前所述，缺乏训练硬件、具体超参数配置（如学习率、batch size、训练轮数）等细节。引用的开源项目：论文基于并引用了MiniCPM-o-2.6、Qwen2.5-VL-7B-Instruct等开源模型作为基础模型，并使用了GPT-4o进行数据生成。 📌 核心摘要这篇论文旨在解决当前奖励模型（RM）面临的模态不平衡（主要支持文本和图像）和偏好刚性（仅学习固定二元偏好）两大挑战，提出了一个面向全模态、支持自由形式偏好的奖励建模框架——Omni-Reward。其核心贡献包括三部分：（1）Omni-RewardBench：首个覆盖文本、图像、视频、音频和3D五种模态、九种任务、并支持自由形式偏好标注的奖励模型评估基准，包含3725个高质量人工标注对；（2）Omni-RewardData：一个大规模多模态偏好数据集，包含248K通用偏好对和69K指令微调对，以提升模型对跨模态任务和动态偏好的泛化能力；（3）Omni-RewardModel：基于上述数据训练的两种全模态奖励模型，包括判别式（BT）和生成式（R1）版本。实验表明，Omni-RewardModel在Omni-RewardBench上取得了最优性能（w/ Ties设置下准确率65.36%），在VL-RewardBench等公开基准上也达到了或超过了SOTA水平，证明了其有效性。论文指出现有模型在音频生成、3D生成等任务上表现不佳，凸显了模态不平衡问题。该工作为构建更通用、更个性化的多模态AI对齐工具奠定了重要基础，但其目前的基准规模、任务分类粒度以及对多轮对话偏好的支持仍有局限。 ...

OmniVideoBench: Towards Audio-Visual Understanding Evaluation for Omni MLLMs

📄 OmniVideoBench: Towards Audio-Visual Understanding Evaluation for Omni MLLMs #基准测试 #模型评估 #多模态模型 #音频问答 #音视频 ✅ 7.8/10 | 前25% | #基准测试 | #模型评估 | #多模态模型 #音频问答学术质量 6.3/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度高 👥 作者与机构第一作者：Caorui Li (南京大学, 东南大学) 通讯作者：Jiaheng Liu (南京大学) 作者列表：Caorui Li (南京大学, 东南大学), Yu Chen (南京大学, 东南大学), Yiyan Ji (南京大学), Jin Xu (阿里巴巴集团), Zhenyu Cui (东南大学), Shihao Li (南京大学), Yuanxing Zhang (快手科技), Zhenghao Song (M-A-P), Dingling Zhang (南京大学), Ying He (北京科技大学), Haoxiang Liu (北京科技大学), Yuxuan Wang (阿里巴巴集团), Qiufeng Wang (东南大学), Jiafu Tang (南京大学), Zhenhe Wu (M-A-P), Jiehui Luo (中央音乐学院), Zhiyu Pan (南京大学), Weihao Xie (华中科技大学), Chenchen Zhang (M-A-P), Zhaohui Wang (南京大学), Jiayi Tian (阿里巴巴集团), Yanghai Wang (南京大学), Zhe Cao (南京大学), Minxin Dai (南京大学), Ke Wang (M-A-P), Runzhe Wen (南京大学), Yinghao Ma (伦敦玛丽女王大学), Yaning Pan (复旦大学), Sungkyun Chang (伦敦玛丽女王大学), Termeh Taheri (伦敦玛丽女王大学), Haiwen Xia (北京大学), Christos Plachouras (伦敦玛丽女王大学), Emmanouil Benetos (伦敦玛丽女王大学), Yizhi Li (曼彻斯特大学), Ge Zhang (M-A-P), Jian Yang (M-A-P), Tianhao Peng (M-A-P), Zili Wang (M-A-P), Minghao Liu (2077AI), Junran Peng (北京科技大学), Zhaoxiang Zhang (中国科学院), Jiaheng Liu (南京大学)。 💡 毒舌点评这篇论文的亮点在于其极其严谨和“反作弊”的基准设计理念（如强调音视频必须协同、设计原子推理链、多阶段质量过滤），为评估“真·多模态推理”设立了高标准。然而，短板在于其本质是一个“裁判”而非“运动员”——它精准地指出了当前模型的短板（音乐理解差、长视频融合弱），但并未提出任何解决这些问题的新模型或新方法，创新性停留在了评估体系的设计层面。 ...

SNAP-UQ: Self-supervised Next-Activation Prediction for Single-Pass Uncertainty in TinyML

📄 SNAP-UQ: Self-supervised Next-Activation Prediction for Single-Pass Uncertainty in TinyML #音频分类 #鲁棒性 #模型评估 #实时处理 #低资源 ✅ 7.0/10 | 前25% | #音频分类 | #自监督学习 | #鲁棒性 #模型评估学术质量 5.5/7 | 选题价值 1.0/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Ismail Lamaakal（Mohammed First University, Multidisciplinary Faculty of Nador, Oujda, Morocco）、Chaymae Yahyati（同上，标注为共同第一作者并主导项目）通讯作者：未说明作者列表：Ismail Lamaakal（Mohammed First University, Multidisciplinary Faculty of Nador, Oujda 60000, Morocco）、Chaymae Yahyati（同上）、Khalid El Makkaoui（同上）、Ibrahim Ouahbi（同上）、Yassine Maleh（Sultan Moulay Slimane University, Laboratory LaSTI, ENSAK, Khouribga 54000, Morocco） 💡 毒舌点评亮点：在毫瓦级MCU的严苛约束下，这篇论文找到了一条不依赖多次推理或复杂状态的确定性不确定性计算路径——用“层间预测误差”这个巧妙的代理指标，这比死磕softmax置信度或堆叠模型要聪明得多。短板：虽然实验做得很全面，但核心的“深度方向惊奇信号”是否比其他轻量方法（如能量分数、Mahalanobis距离）真的优越，似乎更多体现在工程可行性上，理论深度和普适性说服力略显不足，更像是一个为特定场景优化的“补丁”方案。 ...

SpeechJudge: Towards Human-Level Judgment for Speech Naturalness

📄 SpeechJudge: Towards Human-Level Judgment for Speech Naturalness #模型评估 #强化学习 #奖励模型 #大语言模型 #语音合成 🔥 8.0/10 | 前25% | #模型评估 | #强化学习 | #奖励模型 #大语言模型学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 1.0 | 置信度高 👥 作者与机构第一作者：Xueyao Zhang（香港中文大学（深圳））通讯作者：Zhizheng Wu（香港中文大学（深圳）、深圳湾区研究院、澳门城市大学、Amphion Technology Co., Ltd）作者列表： Xueyao Zhang（香港中文大学（深圳）） Chaoren Wang（香港中文大学（深圳）） Huan Liao（香港中文大学（深圳）） Ziniu Li（香港中文大学（深圳）） Yuancheng Wang（香港中文大学（深圳）） Li Wang（香港中文大学（深圳）） Dongya Jia（字节跳动 Seed） Yuanzhe Chen（字节跳动 Seed） Xiulin Li（DataBaker Technology） Zhuo Chen（字节跳动 Seed） Zhizheng Wu（香港中文大学（深圳）、深圳湾区研究院、澳门城市大学、Amphion Technology Co., Ltd） 💡 毒舌点评亮点：工作非常“接地气”且系统，从最基础的“数据集-基准-模型”三位一体入手，解决了语音合成对齐中缺乏大规模人类偏好数据的关键瓶颈，且承诺全部开源，这对领域发展是扎实的贡献。短板：核心的奖励模型训练依赖闭源的Gemini-2.5-Flash生成CoT数据进行“冷启动”，其“教学”质量直接决定了“学生”GRM的上限，这使得方法的独立性和可复现性打了点折扣；同时，数据集的语言（中英）和风格覆盖仍有明显局限。 ...