数据集 | 语音/音乐/音频论文速递

Measuring Audio's Impact on Correctness: Audio-Contribution-Aware Post-Training of Large Audio Language Models

📄 Measuring Audio’s Impact on Correctness: Audio-Contribution-Aware Post-Training of Large Audio Language Models #音频大模型 #强化学习 #数据集 #音频问答 #模型评估 ✅ 7.5/10 | 前25% | #音频问答 | #强化学习 | #音频大模型 #数据集学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Haolin He（香港中文大学、蚂蚁集团）通讯作者：Jian Liu（蚂蚁集团， rex.lj@antgroup.com）、Qiuqiang Kong（香港中文大学， qqkong@ee.cuhk.edu.hk）作者列表：Haolin He（香港中文大学、蚂蚁集团）、Xingjian Du（罗切斯特大学）、Renhe Sun（蚂蚁集团）、Zheqi Dai（香港中文大学）、Yujia Xiao（香港中文大学）、Mingru Yang（蚂蚁集团）、Jiayi Zhou（蚂蚁集团）、Xiquan Li（上海交通大学）、Zhengxi Liu（香港中文大学）、Zining Liang（香港中文大学）、Chunyat Wu（香港中文大学）、Qianhua He（华南理工大学）、Tan Lee（香港中文大学）、Xie Chen（上海交通大学）、Wei-Long Zheng（上海交通大学）、Weiqiang Wang（蚂蚁集团）、Mark Plumbley（伦敦国王学院）、Jian Liu（蚂蚁集团）、Qiuqiang Kong（香港中文大学） 💡 毒舌点评亮点在于敏锐地抓住了音频问答模型“偷懒”不听音频的“零音频贡献”问题，并巧妙地将此“缺陷”转化为训练策略设计的依据（Weak-to-Strong），结果亮眼。短板则是整个方法链条严重依赖强大的生成式AI（Qwen3-235B）来构建数据集和进行质量过滤，这多少有点“用魔法打败魔法”，其生成质量的天花板可能直接决定了本方法的天花板。 🔗 开源详情代码：论文中未提及代码仓库链接。模型权重：论文未提及是否公开本次实验微调后的模型权重。所使用的基础模型（Qwen2.5-Omni）和评估模型（A-Flamingo2, R1-AQA, Kimi-Audio）均为已公开的模型。数据集：AudioMCQ是本文构建的数据集，论文中描述了构建方法和组成，但未明确提供数据集的公开下载链接或获取方式。 Demo：论文中未提及在线演示。复现材料：提供了详细的超参数配置表（表6，表7）、训练策略说明、评估提示模板（附录B）和质量验证流程（附录C），复现细节较为充分。论文中引用的开源项目：Qwen3-235B（用于数据生成）、Qwen2.5-Omni（骨干模型）、A-Flamingo2、R1-AQA、Kimi-Audio（用于ACF评估）、GRPO（训练方法）、DeepSpeed ZeRO-2（优化器）。开源计划：论文中未提及明确的开源计划。 📌 核心摘要解决的问题：大型音频语言模型（LALMs）的多阶段后训练（如SFT后接RL）效果不佳，缺乏针对性的高质量数据集，且普遍存在“零音频贡献”现象（模型仅凭文本信息即可答对，无需听音频）。方法核心：首先构建了大规模音频选择题数据集AudioMCQ（571k样本）。其次，提出音频贡献过滤（ACF）方法，利用多个模型在“静音”输入下的正确率，将数据分为“弱音频贡献”和“强音频贡献”子集。最后，基于此提出两种训练范式：Weak-to-Strong（SFT用弱音频贡献数据，GRPO用强音频贡献数据）和Mixed-to-Strong（SFT用混合数据，GRPO用强音频贡献数据）。创新性：1) 构建了首个大规模、带思维链注释的音频选择题数据集；2) 系统性地量化并分析了LALMs中的零音频贡献现象及其类型（显式逻辑推理与隐式知识检索）；3) 基于音频贡献度提出了简单有效的后训练数据分配策略。实验结果：使用Weak-to-Strong策略，在MMAU-test-mini和MMAU上分别达到78.2%和75.6%；使用Mixed-to-Strong策略，在MMAR和MMSU上分别达到67.0%和71.7%，均为开源模型SOTA。具体结果见表5及下表：方法 MMAU-test-mini MMAU MMAR MMSU Weak-to-Strong 78.2% 75.6% 65.3% 69.3% Mixed-to-Strong 76.4% 75.1% 67.0% 71.7% 所有数据 SFT 75.2% 75.0% 64.6% 64.0% 所有数据 GRPO 78.1% 75.4% 63.0% 70.2% GPT4o-Audio (基线) 62.5% 60.8% 63.5% 56.4% 实际意义：为音频大模型后训练提供了可复现的数据构建方案和高效的数据分配策略，揭示了当前评估基准中可能存在的“伪音频理解”问题。主要局限性：数据集构建完全依赖一个强大的大语言模型（Qwen3-235B），可能引入偏差；ACF方法依赖三个特定的现成模型；Weak-to-Strong范式在MMAR/MMSU上弱于Mixed-to-Strong，表明其普适性有待验证。 🏗️ 模型架构本文不提出新的模型架构，而是以现有的 Qwen2.5-Omni 作为基础模型进行后训练。其核心贡献在于数据构建与训练策略。因此，其“架构”体现在数据处理与训练流程上。图1展示了AudioMCQ数据集的构建流程。流程始于多个音频描述/问答数据集，经过问题生成、选择题构建、结构化与非结构化思维链生成，以及最后的质量评分与过滤。这是一个多阶段、依赖LLM的生成与筛选管线，最终产出高质量的选择题数据集。 ...

MMSU: A Massive Multi-task Spoken Language Understanding and Reasoning Benchmark

📄 MMSU: A Massive Multi-task Spoken Language Understanding and Reasoning Benchmark #基准测试 #数据集 #语音问答 #模型评估 #模型比较 🔥 8.5/10 | 前25% | #语音问答 | #模型评估 | #基准测试 #数据集学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Dingdong WANG（香港中文大学）通讯作者：未说明（论文未明确指定通讯作者；通讯邮箱为第一作者邮箱：dingdongwang@link.cuhk.edu.hk）作者列表：Dingdong WANG (香港中文大学), Junan Li (香港中文大学), Jincenzi Wu (香港中文大学), Dongchao Yang (香港中文大学), Xueyuan Chen (香港中文大学), Tianhua Zhang (香港中文大学), Helen M. Meng (香港中文大学) 💡 毒舌点评亮点：该工作像一位严谨的语言学教授，为“只会听个响”的语音大模型们精心设计了一场覆盖音素、韵律、修辞等全方位的“期末统考”，诊断出当前模型普遍存在的“语音学文盲”和“韵律感知障碍”，指明了未来训练的重点补课方向。短板：考试形式局限于“单选题”，虽然高效，但无法评估模型在真实对话中灵活运用这些能力进行生成或交互的水平，有点“高分低能”的潜在风险。 🔗 开源详情代码：论文中未提及代码仓库链接。评估用的脚本或提示词模板未开源。模型权重：未提及。论文评估了多个现有模型，但未提供任何自己训练的模型。数据集：公开。论文明确提供了数据集获取链接：https://huggingface.co/datasets/ddwang2000/MMSU。 Demo：未提及。复现材料：论文在附录中详细说明了数据构建过程（自定义录音、人工审核）、任务定义、任务示例、错误案例分析以及使用的GPT提示词。这为理解基准构建和部分复现提供了丰富信息，但完整的评估流程复现仍需额外工作。论文中引用的开源项目：论文依赖并引用了多个开源数据集和模型，包括：CommonVoice, MELD, GigaSpeech, Switchboard, SLURP, SEAME, Fake-or-Real, RAVDESS, CoVoST 2, EDACC, VCTK, CHILDES, LogicBench等（完整列表见附录B）。评估的模型包括BLSP, Qwen-Audio, Kimi-Audio, Gemini, GPT-4o-Audio等众多开源和闭源SpeechLLMs。 📌 核心摘要问题：当前语音大模型（SpeechLLMs）的评估基准普遍存在三大缺陷：日常语音现象（如不流畅、语调变化、重音）覆盖不足、过度依赖合成语音导致不真实、以及评估设计缺乏语言学理论基础。这导致无法全面、真实地评估模型对语音的深层理解能力。方法核心：本文提出了MMSU，一个全新的、基于语言学理论的语音理解与推理基准。它系统性地整合了语音学、韵律学、修辞学、句法学、语义学和副语言学等理论，构建了包含感知（24个任务）和推理（23个任务）两大维度、共计47个任务的评估框架。数据包含5000个精心设计的音频-问题-答案三元组。创新与对比：与之前基准（如VoiceBench， ADU-Bench， MMAU）相比，MMSU的新颖之处在于：(a) 理论驱动：首次系统性地将语言学原理融入任务设计；(b) 全面覆盖：涵盖了前所未有的语音现象广度（从音素辨析到双关语理解）；(c) 数据真实性：主要采用真实世界录音（76.74%开源数据，13.44%专业录制），仅少量使用TTS补充。实验结果：论文对22个先进的SpeechLLMs和OmniLLMs进行了评估。关键结果如下表所示（数据摘自论文表3）：模型类别大小感知准确率(%) 推理准确率(%) 总体平均准确率(%) Human 人类基线 - 91.24 86.77 89.72 Gemini-1.5-Pro 闭源 - 46.10 76.16 60.68 Qwen2.5-Omni-7B 开源 7B 42.50 79.83 60.57 Kimi-Audio 开源 7B 43.52 76.03 59.28 GPT-4o-Audio 闭源 - 39.67 71.96 56.38 * 人类表现（89.72%）远超所有模型，最优模型Gemini-1.5-Pro（60.68%）与其存在近30%的差距，凸显了任务的挑战性。 * 开源模型（如Qwen2.5-Omni-7B）性能已接近甚至超越部分闭源模型（如GPT-4o-Audio）。 * 关键发现：模型在感知任务（尤其是音系学相关任务）上表现普遍较差，与人类“推理难于感知”的认知模式相反；噪声注入后性能下降轻微，证明模型确实在使用音频信号。图5展示了模型在噪声条件下的鲁棒性对比。实际意义：MMSU为社区提供了一个标准化、高难度的“体检工具”，能有效诊断出当前SpeechLLMs在精细语音感知和复杂语义推理上的短板（特别是音系处理能力），为下一代更类人的语音交互模型研发指明了优化方向。主要局限性：a) 基准主要覆盖英语和中英混合语音，对其他语言的评估能力未体现；b) 评估形式为固定选项的多选题，可能无法完全反映模型开放式生成或对话中的理解能力；c) 尽管追求真实，数据中仍有9.82%的合成语音。 🏗️ 模型架构本文提出的是基准测试（Benchmark），而非一个新的模型。因此，其“架构”指的是基准本身的层级结构设计。 MMSU的架构设计是一个三层的树状分类体系，旨在系统性地评估语音理解能力： ...

Music Flamingo: Scaling Music Understanding in Audio Language Models

📄 Music Flamingo: Scaling Music Understanding in Audio Language Models #音乐理解 #强化学习 #数据集 🔥 8.5/10 | 前25% | #音乐理解 | #强化学习 | #数据集学术质量 6.0/7 | 选题价值 1.8/2 | 复现加成 +0.5 | 置信度高 👥 作者与机构第一作者：Sreyan Ghosh (NVIDIA, USA; University of Maryland, College Park, USA) 与 Arushi Goel (NVIDIA, USA) 共同第一作者通讯作者：未明确指定，但提供了联系邮箱 sreyang@umd.edu, arushig@nvidia.com 作者列表：Sreyan Ghosh (NVIDIA, University of Maryland), Arushi Goel (NVIDIA), Lasha Koroshinadze (University of Maryland), Sang-gil Lee (NVIDIA), Zhifeng Kong (NVIDIA), Joao Felipe Santos (NVIDIA), Ramani Duraiswami (University of Maryland), Dinesh Manocha (University of Maryland), Wei Ping (NVIDIA), Mohammad Shoeybi (NVIDIA), Bryan Catanzaro (NVIDIA) 💡 毒舌点评本文档堪称“音乐理解大模型”的系统性工程手册，从数据构建、模型增强到推理训练全流程拉满，最终在多个榜单刷出SOTA，证明了其有效性。然而，其核心创新更多是针对垂直领域（音乐）的“特化”与“整合”（构建新数据集、改进训练流程），在基础模型架构或训练原理上并未提出颠覆性的新思想，更像是为特定应用打造的“精装套件”，而非一个通用的方法论突破。 ...

Omni-Captioner: Data Pipeline, Models, and Benchmark for Omni Detailed Perception

📄 Omni-Captioner: Data Pipeline, Models, and Benchmark for Omni Detailed Perception #音频场景理解 #多模态模型 #基准测试 #数据集 #开源工具 🔥 9.0/10 | 前25% | #音频场景理解 | #多模态模型 | #基准测试 #数据集学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 1.0 | 置信度高 👥 作者与机构第一作者：Ziyang Ma（上海交通大学，南洋理工大学）（论文中为共同第一作者）通讯作者：Xie Chen（上海交通大学，上海创智学院）（论文中为共同通讯作者）作者列表：Ziyang Ma（上海交通大学，南洋理工大学）、Ruiyang Xu（上海交通大学）（共同第一作者）、Zhenghao Xing（香港中文大学）（共同第一作者）、Yunfei Chu（阿里集团， Qwen团队）、Yuxuan Wang（阿里集团， Qwen团队）、Jinzheng He（阿里集团， Qwen团队）、Jin Xu†（阿里集团， Qwen团队）（项目负责人）、Pheng-Ann Heng（香港中文大学）、Kai Yu（上海交通大学）、Junyang Lin（阿里集团， Qwen团队）、Eng Siong Chng（南洋理工大学）、Xie Chen‡（上海交通大学，上海创智学院）（共同通讯作者） 💡 毒舌点评亮点在于提出了一个从“侦探式”数据生成、到针对性模型训练、再到闭式基准评估的完整闭环方案，直面多模态描述中“细节-幻觉”权衡这一核心矛盾，系统性强且效果显著。短板则是“多模态细粒度描述生成”本身仍是一个相对垂直和小众的任务，且模型架构本身是基于现有骨干（Qwen2.5-Omni）的微调，并非底层架构创新。 ...

Omni-Reward: Towards Generalist Omni-Modal Reward Modeling with Free-Form Preferences

📄 Omni-Reward: Towards Generalist Omni-Modal Reward Modeling with Free-Form Preferences #多模态模型 #强化学习 #数据集 #基准测试 #模型评估 🔥 8.5/10 | 前25% | #多模态模型 | #强化学习 | #数据集 #基准测试学术质量 6.0/7 | 选题价值 2.0/2 | 复现加成 0.8 | 置信度高 👥 作者与机构第一作者：Zhuoran Jin（中国科学院大学人工智能学院、中国科学院自动化研究所）通讯作者：Jun Zhao（中国科学院大学人工智能学院、中国科学院自动化研究所）作者列表：Zhuoran Jin（中国科学院大学人工智能学院、中国科学院自动化研究所）， Hongbang Yuan（中国科学院大学人工智能学院、中国科学院自动化研究所）， Kejian Zhu（中国科学院大学人工智能学院、中国科学院自动化研究所）， Jiachun Li（中国科学院大学人工智能学院、中国科学院自动化研究所）， Pengfei Cao（中国科学院大学人工智能学院、中国科学院自动化研究所）， Yubo Chen（中国科学院大学人工智能学院、中国科学院自动化研究所）， Kang Liu（中国科学院大学人工智能学院、中国科学院自动化研究所）， Jun Zhao（中国科学院大学人工智能学院、中国科学院自动化研究所） 💡 毒舌点评亮点：这篇论文最大的价值在于“系统性”和“开创性”，它首次将奖励模型（RM）的评估范围从传统的文本/图像扩展到了包括视频、音频、3D在内的全模态，并引入了自由形式的偏好描述，填补了一个重要的空白。短板：虽然构建了庞大的框架，但其核心生成式奖励模型（R1）的探索稍显初步，仅用了3%的数据进行训练，且论文中对训练的具体超参数和硬件环境交代不够清晰，使得这个最具野心的部分在可复现性上打了一丝折扣。 🔗 开源详情代码：论文提供了代码仓库链接：https://github.com/HongbangYuan/OmniReward 模型权重：论文提及将发布Omni-RewardModel，但未在正文中直接提供权重下载链接，通常这些链接会包含在代码仓库的README中。数据集：Omni-RewardBench和Omni-RewardData均已公开，并提供了HuggingFace链接： https://hf.co/datasets/HongbangYuan/OmniRewardBench https://hf.co/datasets/jinzhuoran/OmniRewardData Demo：论文中未提及在线演示。复现材料：论文详细描述了数据集构建流程、模型架构和评估协议，并在附录中提供了标注指南、质量控制细节等。但如前所述，缺乏训练硬件、具体超参数配置（如学习率、batch size、训练轮数）等细节。引用的开源项目：论文基于并引用了MiniCPM-o-2.6、Qwen2.5-VL-7B-Instruct等开源模型作为基础模型，并使用了GPT-4o进行数据生成。 📌 核心摘要这篇论文旨在解决当前奖励模型（RM）面临的模态不平衡（主要支持文本和图像）和偏好刚性（仅学习固定二元偏好）两大挑战，提出了一个面向全模态、支持自由形式偏好的奖励建模框架——Omni-Reward。其核心贡献包括三部分：（1）Omni-RewardBench：首个覆盖文本、图像、视频、音频和3D五种模态、九种任务、并支持自由形式偏好标注的奖励模型评估基准，包含3725个高质量人工标注对；（2）Omni-RewardData：一个大规模多模态偏好数据集，包含248K通用偏好对和69K指令微调对，以提升模型对跨模态任务和动态偏好的泛化能力；（3）Omni-RewardModel：基于上述数据训练的两种全模态奖励模型，包括判别式（BT）和生成式（R1）版本。实验表明，Omni-RewardModel在Omni-RewardBench上取得了最优性能（w/ Ties设置下准确率65.36%），在VL-RewardBench等公开基准上也达到了或超过了SOTA水平，证明了其有效性。论文指出现有模型在音频生成、3D生成等任务上表现不佳，凸显了模态不平衡问题。该工作为构建更通用、更个性化的多模态AI对齐工具奠定了重要基础，但其目前的基准规模、任务分类粒度以及对多轮对话偏好的支持仍有局限。 ...

OWL : Geometry-Aware Spatial Reasoning for Audio Large Language Models

📄 OWL : Geometry-Aware Spatial Reasoning for Audio Large Language Models #空间音频 #声源定位 #音频大模型 #链式思维 #数据集 ✅ 7.0/10 | 前25% | #空间音频 | #音频大模型 | #声源定位 #链式思维学术质量 6.5/7 | 选题价值 2.0/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Subrata Biswas（Worcester Polytechnic Institute 电气与计算机工程系）通讯作者：未说明作者列表：Subrata Biswas（Worcester Polytechnic Institute 电气与计算机工程系）、Mohammad Nur Hossain Khan（Worcester Polytechnic Institute 电气与计算机工程系）、Bashima Islam（Worcester Polytechnic Institute 电气与计算机工程系） 💡 毒舌点评这篇论文在音频大语言模型的空间推理能力上迈出了重要一步，其核心亮点在于巧妙地将环境几何信息作为辅助监督注入到音频编码器中，从而在推理时无需几何输入就能获得几何感知的表征，这是一个既实用又优雅的设计。然而，整个系统的基石——BiDepth数据集完全依赖于合成数据，尽管论文通过在真实世界数据集上的零样本测试部分缓解了这一担忧，但模拟环境与复杂真实声场之间的鸿沟仍是其走向大规模应用的首要挑战。 🔗 开源详情代码：提供代码仓库链接：https://github.com/BASHLab/OWL。模型权重：论文中未提及公开已训练好的模型权重。数据集：论文宣布将发布BiDepth数据集，但当前提供的文本中未说明具体发布平台和获取方式。 Demo：论文中未提及在线演示。复现材料：论文在附录中详细提供了SAGE和OWL的训练超参数、硬件配置、优化器设置等复现所需的关键信息。明确指出使用了LLaMA-2-7B和AudioMAE作为初始化。引用的开源项目：论文中明确使用了SoundSpaces v2.0、Matterport3D、AudioSet、LLaMA-2-7B、AudioMAE、Q-Former等开源工具或模型。 📌 核心摘要问题：现有的音频大语言模型在空间推理上能力不足，主要依赖粗糙的二元线索（左/右）和单步推理，缺乏对声学环境几何结构（如房间布局、混响）的显式建模，导致方向和距离估计精度低，且推理过程不可解释。方法核心：提出OWL模型，它由一个几何感知的音频编码器SAGE和一个集成了空间感知链式思维（CoT）的大语言模型组成。SAGE在训练时利用全景深度图和模拟房间冲激响应（RIR）来学习声学-几何对齐特征，但推理时仅需音频。OWL则通过从感知QA到多步推理的课程学习，支持细粒度的12扇区方向（DoA）估计和可解释的推理。新意：与之前的工作（如BAT）相比，OWL的创新在于：a) SAGE编码器首次引入几何感知监督，将音频特征与3D空间结构对齐；b) 空间感知CoT，使中间推理步骤锚定于声源位置，提供可解释的推理路径；c) 构建并发布了首个大规模、包含{双耳音频、RIR、深度图、QA}四元组的BiDepth数据集（约110万个QA对）。主要结果：在BiDepth和SpatialSoundQA两个基准上，SAGE将平均DoA误差降低了11°，OWL在空间推理QA准确率上比BAT最高提升了25%。具体地，在BiDepth上，OWL w CoT在单源/双源事件检测mAP为33.37/17.26，12扇区DoA准确率为46.17，空间推理（Type III）二分类准确率（BA）为77.89，CoT推理（Type IV）BA为76.53，全面超越包括Gemini在内的基线。实际意义：为构建能理解三维声学场景、进行细粒度空间推理的AI听觉智能体奠定了基础，对机器人导航、智能家居、人机交互等应用有潜在价值。主要局限性：核心训练数据集BiDepth是合成的，虽然通过了部分真实世界数据的零样本验证，但其在极端混响、复杂遮挡等真实场景下的泛化能力仍需进一步验证。推理任务目前限于单轮QA。 🏗️ 模型架构 OWL系统包含两个核心模块：SAGE编码器和OWL语言模型管道。 ...

RoboOmni: Proactive Robot Manipulation in Omni-modal Context

📄 RoboOmni: Proactive Robot Manipulation in Omni-modal Context #语音对话系统 #多模态模型 #端到端 #数据集 #机器人 🔥 8.5/10 | 前10% | #语音对话系统 | #多模态模型 | #端到端 #数据集学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Siyin Wang（复旦大学，上海创新研究院）通讯作者：Jinlan Fu (N/A), Xipeng Qiu (复旦大学，上海创新研究院)（论文标注†为共同通讯作者）作者列表：Siyin Wang（复旦大学，上海创新研究院）、Jinlan Fu（新加坡国立大学）、Feihong Liu（复旦大学）、Xinzhe He（复旦大学）、Huangxuan Wu（复旦大学）、Junhao Shi（复旦大学，上海创新研究院）、Kexin Huang（复旦大学）、Zhaoye Fei（复旦大学）、Jingjing Gong（上海创新研究院）、Zuxuan Wu（复旦大学，上海创新研究院）、Yu-Gang Jiang（复旦大学）、See-Kiong Ng（新加坡国立大学）、Tat-Seng Chua（新加坡国立大学）、Xipeng Qiu（复旦大学，上海创新研究院） 💡 毒舌点评亮点：这篇论文真正让机器人“听懂”了对话的弦外之音（比如“嗯…橙汁”的嫌弃语气）并主动发起询问确认，而不是傻等一句“把可乐放桌上”的明确指令，这在人机交互的自然性上是个重要进步。短板：虽然构建了庞大的合成数据集，但真实世界交互的复杂性（比如多人同时说话、声音重叠、远场噪声）与合成数据之间的差距可能仍然存在，论文在应对这些极端边缘案例时的鲁棒性上限有待进一步验证。 🔗 开源详情代码：提供GitHub仓库链接：https://github.com/OpenMOSS/RoboOmni 模型权重：未提及是否公开预训练权重，但论文中提到将“开源模型检查点”。数据集：公开OmniAction数据集，承诺将开源获取。 Demo：未提及在线演示。复现材料：提供了非常详细的训练细节（硬件、超参数、优化器设置）、数据集构建流程（三阶段）、实验设置（基线模型描述）和附录中的更多示例。引用的开源项目：论文中引用的开源项目包括OpenVLA、OpenVLA-OFT、π0、NORA、LIBERO、Whisper、FAST+分词器、Qwen2.5-VL/Omni、DINOv2、SigLIP等。 📌 核心摘要问题：现有的视觉-语言-动作（VLA）模型严重依赖用户发出的显式、直接的指令（如文本命令），但在真实场景中，人类意图常通过对话上下文、语气、环境音等隐式线索表达，机器人缺乏主动推断和确认意图的能力。方法核心：提出RoboOmni，一个基于端到端全模态大语言模型（如Qwen2.5-Omni）的Perceiver-Thinker-Talker-Executor框架。该模型能同时处理视觉、音频（包含语音和副语言线索、环境声）和文本对话历史，统一进行意图推理、生成确认性语音回复和执行机器人动作。新意：a) 定义了“跨模态上下文指令”新范式。b) 提出了统一感知、推理、交互和执行的端到端框架，无需ASR管道，保留了副语言信息。c) 构建了首个大规模、专用于此任务的数据集OmniAction（14万 episodes），包含6种上下文指令类型。主要实验结果：在模拟基准OmniAction-LIBERO上，RoboOmni平均成功率85.6%，大幅超越最强文本基线NORA（25.9%）。在真实人类语音测试（OmniAction-LIBERO-Real）中，成功率76.6%，优于π0（73.8%）。真实机器人实验成功率73.9%，远超ASR+VLA基线（52.2%）。消融实验证明，移除音频后意图识别准确率从88.89%暴跌至11.11%。实际意义：推动了机器人从“命令执行者”向“主动协作者”的转变，为下一代更自然、智能的人机交互提供了可行的技术路径和评估基准。主要局限性：a) 依赖大规模合成数据，虽然通过真人录音补充，但数据与真实交互的鸿沟可能依然存在。b) 模型的成功高度依赖预训练的全模态LLM基座（Qwen2.5-Omni）的能力。c) 在非常复杂的、需要深层社会认知推理的意图识别上仍有提升空间。 🏗️ 模型架构 RoboOmni采用Perceiver-Thinker-Talker-Executor四阶段端到端架构，所有组件通过自回归语言模型骨干统一。 ...

SongEcho: Towards Cover Song Generation via Instance-Adaptive Element-wise Linear Modulation

📄 SongEcho: Towards Cover Song Generation via Instance-Adaptive Element-wise Linear Modulation #音乐生成 #扩散模型 #条件生成 #数据集 ✅ 7.0/10 | 前25% | #音乐生成 | #扩散模型 | #条件生成 #数据集学术质量 6.8/7 | 选题价值 1.5/2 | 复现加成 0.7 | 置信度高 🔗 开源详情代码：提供GitHub仓库链接：https://github.com/lsfhuihuiff/SongEcho_ICLR2026 模型权重：论文未直接提及是否公开预训练好的SongEcho模型权重，但承诺开源代码。基于代码仓库，用户可能可以自行训练获得模型。数据集：公开了新构建的Suno70k数据集，通过论文提供的Hugging Face数据集链接（https://huggingface.co/datasets/nyuuzyou/suno）可获取元数据，音频需根据链接下载。 Demo：提供在线演示页面：https://vvanonymousvv.github.io/SongEcho_updated/ 复现材料：论文在附录中提供了极其详尽的复现信息，包括：ACE-Step+SA ControlNet和ACE-Step+MuseControlLite两种基线的具体实现方式（LoRA秩、克隆模块数量）、训练设置（优化器参数、学习率、步数）、推理设置（CFG引导强度）等。论文中引用的开源项目：ACE-Step（基础生成模型）、RVMPE（F0提取）、mir_eval（旋律指标计算）、Whisper（歌词转录）、Qwen2-audio（标签生成）、SongEval（美学评估与数据集）、OpenL3, PANNs (用于FD和KL计算)、CLAP（音频文本一致性评估）。 📌 核心摘要这篇论文针对“翻唱歌曲生成”（Cover Song Generation）任务，即在保留原曲主旋律的同时，根据新的文本提示生成全新的演唱和伴奏，提出了一个名为SongEcho的轻量级框架。其核心是实例自适应逐元素线性调制（IA-EiLM），该方法包含两个创新组件：1）逐元素线性调制（EiLM），它扩展了特征线性调制（FiLM），通过生成与隐藏状态维度匹配的调制参数（γ， β），实现了旋律条件的时序对齐精确注入；2）实例自适应条件精炼（IACR），它通过门控机制使条件特征与生成模型的隐藏状态动态交互，从而让条件特征自适应于当前生成实例，避免了静态条件注入导致的不兼容问题。为解决该领域缺乏大规模开源数据集的问题，论文构建并发布了Suno70k数据集。实验表明，SongEcho在Suno70k和SongEval数据集上，仅使用不到基线30%的可训练参数，在旋律保真度（如RPA, RCA）和音频质量（如FD， KL）等所有评估指标上均超越了现有最先进的旋律可控音乐生成方法（如SA ControlNet， MuseControlLite）。该工作的意义在于为歌曲的再创作提供了一种高效、可控的技术路径，但其局限在于对演唱音色等更细粒度风格的控制能力有限，且依赖于特定的文本到歌曲基础模型（ACE-Step）的文本控制能力。实验结果表格表1：在Suno70k测试集上的定量评估结果方法 RPA ↑ RCA ↑ OA ↑ CLAP ↑ FD ↓ KL ↓ PER ↓ TP ↓ ACE-Step (Gong et al., 2025) - - - 0.2930 73.53 0.2670 0.4168 - ACE-Step+SA ControlNet (Hou et al., 2025) 0.6209 0.6440 0.6858 0.2875 105.95 0.2019 0.3714 1.6B ACE-Step+SA ControlNet+LoRA (Hou et al., 2025) 0.6214 0.6431 0.6833 0.2892 99.19 0.1850 0.3734 331M ACE-Step+MuseControlLite (Tsai et al., 2025) 0.5205 0.5346 0.5940 0.2977 72.04 0.2151 0.4194 189M SongEcho (Ours) 0.7080 0.7339 0.6952 0.3243 42.06 0.1123 0.2951 49.1M 表2：在Suno70k测试集上（交换文本标签后）的定量评估结果 ...

SpeakerVid-5M: A Large-Scale High-Quality Dataset for Audio-Visual Dyadic Interactive Human Generation

📄 SpeakerVid-5M: A Large-Scale High-Quality Dataset for Audio-Visual Dyadic Interactive Human Generation #数据集 #自回归模型 #音视频 #多模态模型 ✅ 7.5/10 | 前25% | #数据集 | #自回归模型 | #音视频 #多模态模型学术质量 5.5/7 | 选题价值 1.8/2 | 复现加成 0.7 | 置信度高 👥 作者与机构第一作者：Youliang Zhang（清华大学，邮箱：zhangyou24@mails.tsinghua.edu.cn）通讯作者：Duomin Wang (wangduomin@gmail.com), Xiu Li (li.xiu@sz.tsinghua.edu.cn) （论文中标注了†和‡，通常表示通讯作者）作者列表： Youliang Zhang（清华大学） Zhaoyang Li（StepFun） Duomin Wang†（StepFun） Jiahe Zhang（未说明） Deyu Zhou（StepFun；香港科技大学（广州）） Zixin Yin（StepFun；香港科技大学） Xili Dai（StepFun；香港科技大学） Gang Yu（StepFun） Xiu Li‡（清华大学（深圳）） 💡 毒舌点评本文最大的亮点在于其填补了“音频-视觉双人交互虚拟人生成”这一关键任务的数据空白，以工业级的系统性和透明度构建了一个规模（520万片段）和质量（1080P+）俱佳的专用数据集，为后续研究铺平了道路。然而，其短板在于“新瓶装旧酒”感略强——基线模型采用的自回归+扩散架构并非全新，且在绝对视频生成质量上并未超越更庞大的级联扩散模型（如Hallo3），其主要优势更多体现在端到端带来的推理速度与情感保持上。 ...

Speech-to-LaTeX: New Models and Datasets for Converting Spoken Equations and Sentences

📄 Speech-to-LaTeX: New Models and Datasets for Converting Spoken Equations and Sentences #语音识别 #多模态模型 #数据集 #多语言 #大语言模型 🔥 8.5/10 | 前25% | #语音识别 | #多模态模型 | #数据集 #多语言学术质量 7.5/7 | 选题价值 1.5/2 | 复现加成 0.8 | 置信度高 👥 作者与机构第一作者：Dmitrii Korzh (1 AXXX, Moscow, Russia; 2 MTUCI, Moscow, Russia) 通讯作者：未说明作者列表： Dmitrii Korzh (AXXX, MTUCI) Dmitrii Tarasov (FusionBrain Lab, AXXX; HSE University) Artyom Iudin (AXXX, MTUCI) Elvir Karimov (AXXX, MTUCI; Applied AI Institute) Matvey Skripkin (FusionBrain Lab, AXXX; Applied AI Institute) Nikita Kuzmin (AXXX, MTUCI; Applied AI Institute) Andrey Kuznetsov (FusionBrain Lab, AXXX; Innopolis University) Oleg Y. Rogov (AXXX, MTUCI; Applied AI Institute) Ivan Oseledets (AXXX, MTUCI; Applied AI Institute; Moscow State University) 💡 毒舌点评这篇论文的最大亮点在于“基建狂魔”式的工作——用超过63万个人工/合成音频样本，硬生生为一个垂直领域（语音转LaTeX）打造了首个大规模开源数据集和完整的方法论基准，其数据构建的严谨性和开源精神值得称赞。但短板也很明显：号称“端到端”的SALMONN模型（图1b）其实只是在现有音频LLM上微调，且其对复杂数学语句（Table 3）的预测仍显示模型对深层语义理解有限，多数时候只是在做更精准的“符号匹配”。 ...