数学推理 | 语音/音乐/音频论文速递

📄 Flexi-LoRA with Input-Adaptive Ranks: Efficient Finetuning for Speech and Reasoning Tasks #大语言模型 #参数高效微调 #问答 #数学推理 #开源 🔥 8.5/10 | 前25% | #大语言模型 | #参数高效微调 | #问答 #数学推理 | arxiv 学术质量 5.8/7 | 选题价值 1.8/2 | 复现加成 0.8 | 置信度高 👥 作者与机构第一作者：未说明（论文中未明确标注第一作者）通讯作者：未说明（论文中未明确标注通讯作者）作者列表：Zongqian Li（未说明所属机构），Yixuan Su（未说明所属机构），Han Zhou（未说明所属机构），Zihao Fu（未说明所属机构），Nigel Collier（未说明所属机构） 💡 毒舌点评亮点：论文的核心贡献——在训练和推理阶段均保持输入自适应的动态秩分配——被设计得非常巧妙，且通过与DyLoRA+的对照实验，清晰地论证了“训练-推理动态一致性”对复杂推理任务的重要性，这一观察颇具启发性。实验覆盖了文本理解和语音任务，展现了方法的通用潜力。短板：创新性主要在于将“动态秩”与“输入感知路由器”相结合，属于对LoRA家族的优化而非范式变革。此外，路由器的引入无疑增加了模型复杂度和训练开销，但论文对其自身的计算成本和可能引入的偏差讨论较少，理论分析稍显单薄。 🔗 开源详情代码：https://github.com/ZongqianLi/Flexi-LoRA 模型权重：论文中未提及数据集：论文中未提及 Demo：论文中未提及复现材料：论文中未提及论文中引用的开源项目：未提及补充信息 [作者与机构] 补充：论文在结尾的致谢部分明确列出了全部作者的邮箱地址。第一作者为Zongqian Li (zl452@cam.ac.uk)，通讯作者为Nigel Collier (nc293@cam.ac.uk)。所有作者均隶属于剑桥大学。 [核心摘要] 补充：论文在摘要和结论中均强调，Flexi-LoRA的输入自适应分配使其能够“成功解决一些静态LoRA即使使用等效秩也无法解决的复杂问题”（如图1所示）。此外，论文指出成功适应不仅体现在正确性上，还体现在推理质量和指令遵循上，这一点在数学推理任务中尤为明显。 ...

📄 VideoMathQA: Benchmarking Mathematical Reasoning via Multimodal Understanding in Video #基准测试 #多模态模型 #数学推理 #视频理解 ✅ 7.0/10 | 前25% | #基准测试 | #多模态模型 | #数学推理 #视频理解学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Hanoona Rasheed（MBZUAI）通讯作者：未明确说明（论文未明确指出通讯作者）作者列表：Hanoona Rasheed（MBZUAI）， Abdelrahman Shaker（MBZUAI）， Anqi Tang（MBZUAI）， Muhammad Maaz（MBZUAI）， Ming-Hsuan Yang（University of California Merced, Google Research）， Salman Khan（Australian National University）， Fahad Shahbaz Khan（Linköping University） 💡 毒舌点评亮点：数据集构建过程堪称“教科书级别”的严谨，从视频筛选、问题设计到推理步骤标注都体现了极高的专家投入和质控标准，为后续研究立下了标杆。短板：作为一篇“Benchmarking”论文，其提出的评估框架（如CoT评分使用Qwen-3-4B作为Judge）虽然验证了鲁棒性，但可能引入新的偏见或被未来更强的模型“规避”，且评估结果仍高度依赖现有模型的能力天花板。 🔗 开源详情代码：提供。论文明确给出了代码仓库链接：https://mbzuai-oryx.github.io/VideoMathQA，并说明已将VideoMathQA的实现集成到lmms-eval框架中。模型权重：未提供。本文是基准测试论文，不涉及提出新的模型。数据集：提供。论文声明数据集公开，可通过上述GitHub页面获取。 Demo：未提及在线演示。复现材料：提供了充分的复现细节，包括：完整的模型评估配置（输入帧数、解码参数）、所有使用的提示词模板（CoT、后处理、步骤评估、错误分析等）、评估硬件环境说明。论文中引用的开源项目/工具：主要引用了 lmms-eval 作为评估框架，vLLM 用于语言模型推理，以及多个被评估的开源模型（如Qwen2.5-VL, InternVL系列等）。 📌 核心摘要本文旨在解决现有数学推理基准无法评估多模态视频场景中动态、时序、跨模态推理能力的问题。作者构建了VideoMathQA基准，包含420个经过专家标注的视频问答对，覆盖10个数学领域，视频时长从10秒到1小时不等。每个问题配有详细的多步推理过程标注（共2,945步），并设计了三种核心推理类型：直接问题解决、概念迁移和深度教学理解。与已有的静态图像或文本基准相比，VideoMathQA的创新在于其专注于需要综合视觉、文本（字幕/板书）和音频（讲解）信息，并在长时间序列中进行关联推理的数学任务。实验评估了30多个模型，包括闭源（如GPT-o4-mini）和开源模型（如Qwen2.5-VL-72B），结果发现：1) 当前模型性能与人类水平（80.7%）存在巨大差距，最强的GPT-o4-mini在多二进制评估（CoT+Sub）下仅达44.8%；2) 模型性能随规模提升而提高，但新架构的小模型可超越旧架构的大模型；3) 字幕对具备推理能力的大模型增益显著；4) 模型在“问题理解”和“概念应用”上错误最多。该基准为评估和推动真正的视频多模态数学推理能力提供了必要的评测平台和深入的诊断分析。其主要局限性在于数据集规模相对较小，且构建过程人力成本极高。 ...