基准测试 | 语音/音乐/音频论文速递

ParaS2S: Benchmarking and Aligning Spoken Language Models for Paralinguistic-aware Speech-to-Speech Interaction

📄 ParaS2S: Benchmarking and Aligning Spoken Language Models for Paralinguistic-aware Speech-to-Speech Interaction #语音对话系统 #强化学习 #语音大模型 #语音合成 #基准测试 🔥 8.0/10 | 前25% | #语音对话系统 | #强化学习 | #语音大模型 #语音合成学术质量 6.5/7 | 选题价值 1.0/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Shu-wen Yang（台湾大学通讯工程研究所）通讯作者：Ming Tu（字节跳动 Seed），Lu Lu（字节跳动 Seed）作者列表：Shu-wen Yang（台湾大学通讯工程研究所，字节跳动 Seed†），Ming Tu（字节跳动 Seed†），Andy T. Liu（字节跳动 Seed），Xinghua Qu（字节跳动 Seed），Hung-yi Lee（台湾大学通讯工程研究所），Lu Lu（字节跳动 Seed†），Yuxuan Wang（字节跳动 Seed），Yonghui Wu（字节跳动 Seed） 💡 毒舌点评亮点：论文系统性地定义了副语言感知的S2S交互评估难题，并构建了从基准测试到自动评测再到强化学习训练的完整闭环，其提出的“PolyTone”训练策略和多阶段评测框架有效缓解了音频大模型的风格幻觉问题，实验结果令人信服。短板：整个框架高度依赖复杂的多阶段流程和多个外部模型（如Whisper， AudioReasoner， Qwen2.5-Omni），虽然论文提供了蒸馏后的奖励模型方案，但最终模型的轻量化和部署效率存在疑问，且核心RL方法（GRPO）并非原创。 ...

PrismAudio: Decomposed Chain-of-Thought and Multi-dimensional Rewards for Video-to-Audio Generation

📄 PrismAudio: Decomposed Chain-of-Thought and Multi-dimensional Rewards for Video-to-Audio Generation #音频生成 #强化学习 #扩散模型 #流匹配 #基准测试 🔥 9.0/10 | 前10% | #音频生成 | #强化学习 | #扩散模型 #流匹配学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 1.0 | 置信度高 👥 作者与机构第一作者：Huadai Liu（香港科技大学; 阿里巴巴通义团队）通讯作者：Wei Xue（香港科技大学）作者列表：Huadai Liu（香港科技大学; 阿里巴巴通义团队）、Kaicheng Luo（阿里巴巴通义团队）、Wen Wang（阿里巴巴通义团队）、Qian Chen（阿里巴巴通义团队）、Peiwen Sun（香港中文大学）、Rongjie Huang（香港中文大学）、Xiangang Li（阿里巴巴通义团队）、Jieping Ye（阿里巴巴通义团队）、Wei Xue（香港科技大学） 💡 毒舌点评亮点：论文首次将强化学习与分解式思维链（CoT）相结合，应用于视频到音频生成，巧妙地将一个复杂的多目标优化问题分解为四个可解释、可优化的维度，并提供了高效训练算法（Fast-GRPO）和高质量评测基准（AudioCanvas）。短板：该框架高度依赖一个强大的多模态语言模型（如VideoLLaMA2）来生成高质量的CoT训练数据，且音频基础模型本身也采用了多种现有先进组件（如VideoPrism、T5-Gemma），其“从零到一”的原创性贡献相对有限。 🔗 开源详情代码：论文承诺将公开完整代码，但未提供具体仓库链接。模型权重：论文承诺将公开所有模型权重。数据集：论文承诺将公开自建的AudioCanvas基准测试集。 Demo：论文中未提及在线演示链接。复现材料：论文提供了非常详细的附录，包括训练细节、超参数、资源需求、CoT生成Prompt等，复现信息充分。论文中引用的开源项目：依赖的开源项目/模型包括：Stability AI的VAE、VideoPrism、T5-Gemma、VideoLLaMA2、MS-CLAP、Synchformer、Meta Audiobox Aesthetics、StereoCRW、Gemini 2.5 Pro（用于数据生成）。 📌 核心摘要本文针对视频到音频（V2A）生成任务中存在的“目标纠缠”（语义、时序、美学、空间等目标相互冲突）和缺乏人类偏好对齐的问题，提出了PrismAudio框架。其核心方法是将单一的推理路径分解为四个专门的CoT模块（语义、时序、美学、空间），并为每个模块设计对应的奖励函数，通过多维强化学习进行联合优化。与现有方法相比，新在：1）首次在V2A中整合分解CoT与多维RL；2）提出Fast-GRPO算法，通过混合ODE-SDE采样大幅降低训练开销；3）构建了更严谨的AudioCanvas基准测试集（包含300类单事件和501个多事件场景）。实验结果表明，在VGGSound测试集上，PrismAudio在语义一致性（CLAP: 0.47 vs. 0.43）、时序同步性（DeSync: 0.41 vs. 0.55）和空间准确性（CRW: 7.72 vs. 13.47）等指标上均优于此前SOTA的ThinkSound，并在主观评测中获得最高MOS分数。其实际意义在于为V2A生成提供了一个可解释、可精细控制且对齐人类偏好的新范式。主要局限性在于训练过程依赖LLM生成的CoT数据和多阶段训练，计算成本较高。 ...

Seeing, Listening, Remembering, and Reasoning: A Multimodal Agent with Long-Term Memory

📄 Seeing, Listening, Remembering, and Reasoning: A Multimodal Agent with Long-Term Memory #多模态模型 #在线处理 #记忆机制 #任务规划 #基准测试 ✅ 7.5/10 | 前25% | #多模态模型 | #强化学习 | #在线处理 #记忆机制学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 1.0 | 置信度高 👥 作者与机构第一作者：Lin Long (Zhejiang University, Bytedance Seed) 通讯作者：Yuan Lin (Bytedance Seed) 作者列表：Lin Long (Zhejiang University, Bytedance Seed)、Yichen He (Bytedance Seed)、Wentao Ye (Zhejiang University)、Yiyuan Pan (Robotics Institute, Carnegie Mellon University)、Yuan Lin (Bytedance Seed)、Hang Li (Bytedance Seed)、Junbo Zhao (Zhejiang University)、Wei Li (Bytedance Seed) 💡 毒舌点评本文最大的亮点在于构建了一个“类人记忆”的闭环系统，并发布了极具针对性的评测集M3-Bench，直指当前智能体长期记忆能力评估的空白。但其记忆系统的动态更新与冲突解决机制（如权重投票）描述过于简略，实际大规模部署时的鲁棒性与效率存疑。 ...

SpeechJudge: Towards Human-Level Judgment for Speech Naturalness

📄 SpeechJudge: Towards Human-Level Judgment for Speech Naturalness #语音合成 #强化学习 #数据集 #基准测试 #奖励模型 🔥 8.5/10 | 前10% | #语音合成 | #强化学习 | #数据集 #基准测试学术质量 6.5/7 | 选题价值 2.0/2 | 复现加成 1.0 | 置信度高 👥 作者与机构第一作者：Xueyao Zhang（香港中文大学（深圳））通讯作者：Zhizheng Wu（香港中文大学（深圳）、深圳湾区研究院、澳门城市大学、Amphion Technology Co., Ltd.）作者列表： Xueyao Zhang（香港中文大学（深圳）） Chaoren Wang（香港中文大学（深圳）） Huan Liao（香港中文大学（深圳）） Ziniu Li（香港中文大学（深圳）） Yuancheng Wang（香港中文大学（深圳）） Li Wang（香港中文大学（深圳）） Dongya Jia（ByteDance Seed） Yuanzhe Chen（ByteDance Seed） Xiulin Li（DataBaker Technology） Zhuo Chen（ByteDance Seed） Zhizheng Wu（香港中文大学（深圳）、深圳湾区研究院、澳门城市大学、Amphion Technology Co., Ltd.） 💡 毒舌点评这篇论文的“基建”价值很高，99K规模的高质量人类偏好数据集和开源承诺堪称语音合成对齐研究的“粮草先行”。但核心的奖励模型架构（基于现有Qwen2.5-Omni的微调）创新稍显有限，更像是一个强大但“组装式”的解决方案，而非从头设计的、能深刻洞察自然度内在结构的新架构。 ...

STAR-Bench: Probing Deep Spatio-Temporal Reasoning as Audio 4D Intelligence

📄 STAR-Bench: Probing Deep Spatio-Temporal Reasoning as Audio 4D Intelligence #基准测试 #音频大模型 #音频问答 #空间音频 #数据集 ✅ 6.5/10 | 前25% | #基准测试 | #数据集 | #音频大模型 #音频问答学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Zihan Liu (北京航空航天大学, 上海人工智能实验室) 通讯作者：Yuhang Zang (上海人工智能实验室), Jiaqi Wang (上海人工智能实验室, 上海创新研究院) 作者列表：Zihan Liu（北京航空航天大学，上海人工智能实验室），Zhikang Niu（上海交通大学，上海创新研究院），Qiuyang Xiao（上海交通大学），Zhisheng Zheng（上海交通大学），Ruoqi Yuan（北京航空航天大学），Yuhang Zang（上海人工智能实验室），Yuhang Cao（上海人工智能实验室），Xiaoyi Dong（上海人工智能实验室，香港中文大学），Jianze Liang（上海人工智能实验室），Xie Chen（上海交通大学，上海创新研究院），Leilei Sun（北京航空航天大学），Dahua Lin（香港中文大学，上海人工智能实验室），Jiaqi Wang（上海人工智能实验室，上海创新研究院） 💡 毒舌点评本文最大的亮点在于精准地指出了当前音频大模型“懂得多但听不懂”的尴尬现状——用文本描述就能回答大部分问题，证明现有基准测试太“水”。它设计的STAR-Bench像一份严苛的“听力体检表”，从音高、响度等基础感知到时空推理，层层深入，确实能测出模型的真实短板。不过，论文本身止步于“诊断医生”，并未给出“治疗方案”，其核心价值依赖于未来模型能否利用这个基准取得进步，稍显被动。 📌 核心摘要本文指出，现有的音频基准测试主要评估可通过文本描述传达的语义内容，无法衡量模型对“语言难以描述”的细粒度音频线索的深层时空推理能力。为此，论文提出了“音频4D智能”的概念，即结合时间（1D）和三维空间（3D）进行深度推理的能力。作者构建了STAR-Bench基准，包含两个层级：基础声学感知（对音高、响度、时长、方位角、仰角、距离等六个属性的绝对感知范围和相对辨别灵敏度进行量化评估）和整体时空推理（包括连续过程与离散事件序列的时间推理，以及静态定位、多源关系和动态轨迹跟踪的空间推理）。数据构建流程结合了程序化合成音频和严格的人工标注四阶段流程。在对19个模型（16个开源，3个闭源）的评测中，STAR-Bench展现出巨大挑战性，人类表现远高于所有模型。研究发现：闭源模型（如Gemini 2.5 Pro）在知识和推理上领先，但细粒度感知仍是其瓶颈；开源模型则在感知、知识和推理各方面均存在基础性缺陷。例如，在仅使用音频文本描述答题时，MMAU和MMAR基准的准确率仅下降5.9%和9.0%，而STAR-Bench上时间推理和空间推理的准确率分别暴跌31.5%和35.2%，证明了其评测的是更深层的音频智能。论文通过详细的错误分析和消融研究，为未来模型改进指明了方向，如增强密集音频描述、改善多音频推理能力以及开发原生支持多通道音频的架构。 ...

The Deleuzian Representation Hypothesis

📄 The Deleuzian Representation Hypothesis #模型可解释性 #概念提取 #对比学习 #自监督学习 #基准测试 🔥 8.5/10 | 前25% | #模型可解释性 | #概念提取 | #对比学习 #自监督学习学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Clément Cornet (Université Paris-Saclay, CEA, List) 通讯作者：Clément Cornet (论文未明确标注通讯作者，根据单位信息推断) 作者列表：Clément Cornet (Université Paris-Saclay, CEA, List)、Romaric Besançon (Université Paris-Saclay, CEA, List)、Hervé Le Borgne (Université Paris-Saclay, CEA, List) 💡 毒舌点评这篇论文将哲学思想（德勒兹的差异论）包装成了一个工程上简洁、实验上有效的概念提取新范式，确实超越了现有稀疏自编码器方法。其核心创新——聚类激活差异而非重建激活——思路清晰且有启发性。但最大的短板在于其评估高度依赖现有的有标签数据集（用于计算探针损失），对于真正无监督的、超越已知属性的“新概念”发现能力缺乏评估框架，且对语音/音频任务本身的方法论贡献有限。 🔗 开源详情代码：提供。论文明确给出了代码仓库链接：https://github.com/ClementCornet/Deleuzian-Hypothesis。模型权重：未提及。论文未公开其提取的概念向量词典或修改后的模型权重。数据集：论文使用的数据集（ImageNet, WikiArt, IMDB, CoNLL-2003, AudioSet）均为公开数据集，并在附录B中给出了获取信息。 Demo：未提及。复现材料：提供了详尽的复现信息，包括实现细节（附录A：所有基线方法的超参数设置）、实验设置细节（附录B：数据集描述、模型版本、数据划分）、以及方法核心代码。引用的开源项目：论文引用了多个开源项目/模型作为基线或工具，包括：scikit-learn (用于ICA)、ViT-Prisma (预训练SAE)、EleutherAI (预训练SAE)、OpenClip (CLIP实现)、PyTorch Hub (DinoV2)、HuggingFace上的多个模型（DeBERTa, BART, Pythia, AST）。 📌 核心摘要问题：现有的稀疏自编码器（SAE）在提取神经网络内部可解释概念时面临训练困难、特征多义性以及依赖稀疏性作为可解释性代理等问题，需要一种更简单、更直接的概念提取方法。方法核心：提出“德勒兹表征假说”，将概念定义为激活空间中数据样本之间的“差异”。具体方法是：随机采样激活差异向量，然后使用带有偏度逆权重（以促进多样性）的K-means聚类算法对这些差异进行聚类，聚类中心即为概念向量。与已有方法的对比：与主流SAE方法（如重建+稀疏）不同，本方法不进行激活重建，而是直接识别和聚类“重复出现的差异”。它被形式化为一种无监督的判别分析，并在保持概念向量位于原始激活空间（便于无损引导）的同时，仅需一个可解释的超参数（概念数量k）。主要实验结果：在涵盖视觉、语言、音频三个模态的五个模型和五个数据集上进行了广泛评估。结果显示，在探针损失（Probe Loss）指标上，该方法在13/20个任务中超越了所有SAE变体，其表现接近有监督的线性判别分析（LDA）基线。在跨运行一致性（MPPC）上也表现优异。关键实验数据对比如下表所示：方法 CLIP (WikiArt Artist) DinoV2 (WikiArt Artist) DeBERTa (CoNLL-2003 NER) BART (CoNLL-2003 POS) AST (AudioSet) 平均排名 ↓ Deleuzian (Ours) 0.0119 0.0055 0.0665 0.2148 0.0164 1.65±0.85 Tk-SAE 0.0125 0.0096 0.0839 0.3478 0.0169 2.65±1.01 A-SAE 0.0130 0.0143 0.0775 0.3754 0.0169 3.20±1.72 LDA (监督基线) 0.0084 0.0044 0.0429 0.6326 0.0164 - 实际意义：提供了一种更简洁、可解释性更强的概念提取工具，可用于分析模型内部表征、进行概念引导（Steering）以可控地修改模型行为（如图像风格迁移、文本生成控制），为理解和调试大规模神经网络提供了新途径。主要局限性：方法的评估依赖于带有语义标签的数据集，可能无法评估与已知标签无关的“新颖”概念。假设概念可在线性方向上表示，这一假设可能在某些模型中不成立。引导效果虽为定性展示，但系统性量化仍需更多研究。 🏗️ 模型架构该方法并非一个传统的神经网络架构，而是一个用于从预训练模型激活中提取概念的流程（Pipeline）。其核心流程如下： ...

TripleSumm: Adaptive Triple-Modality Fusion for Video Summarization

📄 TripleSumm: Adaptive Triple-Modality Fusion for Video Summarization #多模态模型 #音视频 #自注意力 #端到端 #基准测试 🔥 8.5/10 | 前25% | #视频摘要 | #多模态模型 | #音视频 #自注意力学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 1.0 | 置信度高 👥 作者与机构第一作者：Sumin Kim（首尔大学）， Hyemin Jeong（首尔大学）， Mingu Kang（首尔大学）（表示同等贡献）通讯作者：Yoori Oh†（首尔大学）， Joonseok Lee†（首尔大学）（†表示通讯作者）作者列表：Sumin Kim（首尔大学）， Hyemin Jeong（首尔大学）， Mingu Kang（首尔大学）， Yejin Kim（首尔大学）， Yoori Oh（首尔大学）， Joonseok Lee（首尔大学） 💡 毒舌点评论文提出了一个设计精巧的多模态视频摘要模型TripleSumm，其自适应帧级融合机制和引入的大规模三模态数据集MoSu是扎实的贡献，显著推动了视频摘要领域的多模态研究。然而，其核心创新点（自适应注意力融合）在多模态学习中并非前所未见，且在标准小数据集（SumMe/TVSum）上的绝对性能提升幅度有限，新数据集的“Most Replayed”监督信号本身的普适性也有待更广泛验证。 🔗 开源详情代码：论文提供了GitHub代码仓库链接：https://github.com/smkim37/TripleSumm。模型权重：论文中未明确提及是否公开预训练模型权重。数据集：MoSu数据集已公开，论文提供了获取方式。 Demo：论文中未提及在线演示。复现材料：论文在附录中提供了非常详细的超参数设置（表I）、摘要生成算法、数据预处理细节、评估协议说明以及各种消融实验的配置，复现信息充分。论文中引用的开源项目：依赖了预训练模型CLIP、RoBERTa、AST以及用于生成文本描述的Qwen2.5-VL。 📌 核心摘要要解决什么问题？现有视频摘要方法通常采用静态或模态无关的融合策略，无法动态捕捉不同视频帧中视觉、文本和音频模态重要性的变化，导致理解复杂视频能力不足。同时，缺乏包含三模态特征的大规模基准数据集也阻碍了该领域的发展。方法核心是什么？论文提出了TripleSumm架构，其核心包括：a) 多尺度时间块，采用层次化的滑动窗口自注意力，从局部到全局捕捉视频的时序模式；b) 跨模态融合块，使用一个中性的“融合令牌”作为查询，动态地对三种模态的特征进行加权聚合，实现帧级别的自适应融合。与已有方法相比新在哪里？相比于现有模态静态或简单融合的方法，TripleSumm在帧级别动态地学习并分配各模态的权重。此外，论文首次提出了大规模、三模态的视频摘要基准数据集MoSu。主要实验结果如何？ TripleSumm在四个基准测试上均达到了SOTA性能。在提出的MoSu数据集上，其Kendall‘s τ和Spearman’s ρ分别达到0.351和0.472，大幅超越次优方法CFSum（0.277/0.374）。在Mr. HiSum，SumMe（TVT）和TVSum（TVT）数据集上，其全模型版本也均取得最优或并列最优的相关性指标。消融实验证实了三模态输入、层次化窗口和自适应融合机制的有效性。实际意义是什么？该工作推动了视频摘要向更符合人类多模态感知的方向发展，提出的MoSu数据集和TripleSumm模型为未来研究提供了可靠的基础和强大的基线，有助于从海量视频中高效提取关键信息。主要局限性是什么？论文指出，当前遵循的“帧重要性评分-分割-选择”流程并非端到端可训练，未来可探索直接学习选择连贯摘要片段的端到端模型。此外，数据集的监督信号基于聚合的“Most Replayed”数据，可能无法完全反映个体或多样化的用户需求。 🏗️ 模型架构 TripleSumm是一个用于视频摘要的端到端多模态模型，其整体架构如图2所示。其设计核心是将时序建模与跨模态融合解耦，并逐层进行“精炼-融合”的迭代处理。 ...

TTSDS2: Resources and Benchmark for Evaluating Human-Quality Text to Speech Systems

📄 TTSDS2: Resources and Benchmark for Evaluating Human-Quality Text to Speech Systems #语音合成 #模型评估 #基准测试 #多语言 ✅ 7.5/10 | 前25% | #语音合成评估 | #基准测试 | #语音合成 #模型评估学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Christoph Minixhofer（爱丁堡大学语音技术研究中心）通讯作者：论文中未明确指定，根据作者邮箱统一格式，可能为同一机构课题组作者列表：Christoph Minixhofer（爱丁堡大学语音技术研究中心）、Ondrej Klejch（爱丁堡大学语音技术研究中心）、Peter Bell（爱丁堡大学语音技术研究中心） 💡 毒舌点评亮点在于构建了首个覆盖14种语言、横跨多个真实世界域（含噪声、野生、儿童语音）的TTS客观评估基准与自动化流水线，实用价值高。但核心创新点（TTSDS2）是对原有TTSDS指标的增量改进，更多是工程优化和鲁棒性验证，而非提出全新评估范式，且其计算开销（CPU-bound）限制了快速迭代。 🔗 开源详情代码：提供代码仓库链接（github.com/ttsds/pipeline），用于自动化数据创建和基准测试。模型权重：论文评估的20个系统多为开源，TTSDS2本身不涉及需训练的模型，但依赖的特征提取模型（如mHuBERT-147）是公开的。数据集：公开发布了包含11,282条评分的人类评估数据集（hf.co/datasets/ttsds/listening_test）。自动化流水线可创建多语言数据集。 Demo：提供在线基准排行榜网站（ttsdsbenchmark.com）。复现材料：论文详细描述了评估设置、问卷内容、流水线算法（Algorithm 1）、特征选择标准，并提供了特征分布可视化示例（图1）。论文中引用的开源项目：大量引用了开源工具和模型，如Whisper, Demucs, Pyannote, XNLI模型, VERSA工具包, 以及所评估的20个开源TTS系统。 📌 核心摘要解决的问题：现代文本转语音（TTS）系统已能生成以假乱真的语音，导致传统主观评估（如MOS）难以跨研究对比，而常用的客观指标缺乏在多领域、多语言下的鲁棒性验证。方法核心：提出TTSDS2，一个改进的分布评估指标。它通过比较合成语音与真实语音在通用性、说话人、韵律、可懂度四个因子上多个特征分布的2-Wasserstein距离，综合评分。得分越高表明合成语音分布越接近真实语音分布而非噪声分布。与已有的方法相比新在哪里：特征集升级：相较于TTSDS，替换了表现不佳的特征（如用Whisper和wav2vec 2.0的ASR激活替代WER），并为多语言场景引入了mHuBERT-147和XLSR-53等模型。跨域鲁棒性验证：在CLEAN（干净朗读）、NOISY（噪声）、WILD（野生/对话）、KIDS（儿童语音）四个不同域上验证了指标与人类评分的相关性。自动化多语言基准：发布了一个可重复运行的流水线，用于自动创建多语言YouTube数据集并生成持续更新的TTS系统排名，覆盖14种语言。主要实验结果：在20个开源TTS系统、16个客观指标的对比中，TTSDS2是唯一一个在所有4个域、3种主观评分（MOS, CMOS, SMOS）上均取得Spearman相关系数ρ > 0.50的指标，平均ρ ≈ 0.67。与次优的说话人相似度指标（RawNet3, X-Vector）平均相关性0.6相比，TTSDS2更具一致性和连续性。消融实验表明，简单的因子平均策略比学习权重策略在未见域上泛化更好。多语言TTSDS2分数与语言学距离（Uriel+）相关性（ρ = -0.51）高于原版TTSDS（ρ = -0.39）。 Metric Clean (MOS) Clean (CMOS) Clean (SMOS) Noisy (MOS) Noisy (CMOS) Noisy (SMOS) Wild (MOS) Wild (CMOS) Wild (SMOS) Kids (MOS) Kids (CMOS) Kids (SMOS) TTSDS2 (Ours) 0.75 0.69 0.73 0.59 0.54 0.71 0.75 0.71 0.75 0.61 0.50 0.70 TTSDS (Original) 0.60 0.62 0.52 0.49 0.61 0.66 0.67 0.57 0.67 0.70 0.52 0.60 RawNet3 0.36 0.26 0.52 0.44 0.37 0.82 0.85 0.80 0.64 0.73 0.61 0.77 X-Vector 0.46 0.42 0.56 0.40 0.29 0.77 0.82 0.82 0.62 0.70 0.57 0.75 SQUIM 0.68 0.46 0.37 0.48 0.48 0.60 0.62 0.75 0.79 0.57 0.55 0.45 表：主要客观指标与主观评分的Spearman相关系数对比（节选）。TTSDS2在所有条件下均保持高于0.50的强相关。 ...

Unmute the Patch Tokens: Rethinking Probing in Multi-Label Audio Classification

📄 Unmute the Patch Tokens: Rethinking Probing in Multi-Label Audio Classification #音频分类 #自监督学习 #探针评估 #模型评估 #基准测试 ✅ 7.5/10 | 前25% | #音频分类 | #探针评估 | #自监督学习 #模型评估学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Lukas Rauch (卡塞尔大学) 通讯作者：未说明作者列表：Lukas Rauch (卡塞尔大学), René Heinrich (卡塞尔大学, 弗劳恩霍夫IEE), Houtan Ghaffari (根特大学), Lukas Miklautz (MPI of Biochemistry), Ilyass Moummad (INRIA Montpellier), Bernhard Sick (卡塞尔大学), Christoph Scholz (卡塞尔大学, 弗劳恩霍夫IEE) 💡 毒舌点评亮点：这篇论文做了一件“对”且“必要”的事——它系统性地指出并验证了音频SSL领域普遍存在的“用线性探针评估却不靠��”的核心症结（池化瓶颈），并给出了一个简洁有效的解决方案，让探针评估重获可信度。实验规模和设计的严谨性也值得称赞。短板：其提出的“二值化原型探针”本质上是现有原型网络的变体和简化，在方法创新深度上稍显不足，更像是一个工程上优化得很好的“修补”方案。研究完全基于冻结的声谱图编码器，其结论在更广泛的音频表示（如波形、离散token）上的普适性有待验证。 ...

VideoMathQA: Benchmarking Mathematical Reasoning via Multimodal Understanding in Video

📄 VideoMathQA: Benchmarking Mathematical Reasoning via Multimodal Understanding in Video #基准测试 #多模态模型 #数学推理 #视频理解 ✅ 7.0/10 | 前25% | #基准测试 | #多模态模型 | #数学推理 #视频理解学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Hanoona Rasheed（MBZUAI）通讯作者：未明确说明（论文未明确指出通讯作者）作者列表：Hanoona Rasheed（MBZUAI）， Abdelrahman Shaker（MBZUAI）， Anqi Tang（MBZUAI）， Muhammad Maaz（MBZUAI）， Ming-Hsuan Yang（University of California Merced, Google Research）， Salman Khan（Australian National University）， Fahad Shahbaz Khan（Linköping University） 💡 毒舌点评亮点：数据集构建过程堪称“教科书级别”的严谨，从视频筛选、问题设计到推理步骤标注都体现了极高的专家投入和质控标准，为后续研究立下了标杆。短板：作为一篇“Benchmarking”论文，其提出的评估框架（如CoT评分使用Qwen-3-4B作为Judge）虽然验证了鲁棒性，但可能引入新的偏见或被未来更强的模型“规避”，且评估结果仍高度依赖现有模型的能力天花板。 🔗 开源详情代码：提供。论文明确给出了代码仓库链接：https://mbzuai-oryx.github.io/VideoMathQA，并说明已将VideoMathQA的实现集成到lmms-eval框架中。模型权重：未提供。本文是基准测试论文，不涉及提出新的模型。数据集：提供。论文声明数据集公开，可通过上述GitHub页面获取。 Demo：未提及在线演示。复现材料：提供了充分的复现细节，包括：完整的模型评估配置（输入帧数、解码参数）、所有使用的提示词模板（CoT、后处理、步骤评估、错误分析等）、评估硬件环境说明。论文中引用的开源项目/工具：主要引用了 lmms-eval 作为评估框架，vLLM 用于语言模型推理，以及多个被评估的开源模型（如Qwen2.5-VL, InternVL系列等）。 📌 核心摘要本文旨在解决现有数学推理基准无法评估多模态视频场景中动态、时序、跨模态推理能力的问题。作者构建了VideoMathQA基准，包含420个经过专家标注的视频问答对，覆盖10个数学领域，视频时长从10秒到1小时不等。每个问题配有详细的多步推理过程标注（共2,945步），并设计了三种核心推理类型：直接问题解决、概念迁移和深度教学理解。与已有的静态图像或文本基准相比，VideoMathQA的创新在于其专注于需要综合视觉、文本（字幕/板书）和音频（讲解）信息，并在长时间序列中进行关联推理的数学任务。实验评估了30多个模型，包括闭源（如GPT-o4-mini）和开源模型（如Qwen2.5-VL-72B），结果发现：1) 当前模型性能与人类水平（80.7%）存在巨大差距，最强的GPT-o4-mini在多二进制评估（CoT+Sub）下仅达44.8%；2) 模型性能随规模提升而提高，但新架构的小模型可超越旧架构的大模型；3) 字幕对具备推理能力的大模型增益显著；4) 模型在“问题理解”和“概念应用”上错误最多。该基准为评估和推动真正的视频多模态数学推理能力提供了必要的评测平台和深入的诊断分析。其主要局限性在于数据集规模相对较小，且构建过程人力成本极高。 ...