数据集 | 语音/音频论文速递

CustomDancer: Customized Dance Recommendation by Text-Dance Retrieval

📄 CustomDancer: Customized Dance Recommendation by Text-Dance Retrieval #音频检索 #音乐理解 #对比学习 #多模态模型 #数据集 ✅ 6.5/10 | 前50% | #音频检索 #音乐理解 | #对比学习 #多模态模型 | #音频检索 #音乐理解 | arxiv 学术质量 5.5/7 | 选题价值 1.0/2 | 复现加成 0.0 | 置信度中 👥 作者与机构第一作者：Yawen Qin（中南民族大学， South-Central Minzu University）通讯作者：未明确说明（根据作者列表，通讯作者可能是Qin Zhang或Ke Qiu，但论文中未明确标注）作者列表：Yawen Qin（中南民族大学）、Ke Qiu（未说明所属机构）、Qin Zhang（未说明所属机构） 💡 毒舌点评亮点是构建了首个针对文本-舞蹈检索的专用大规模数据集（TD-Data），并采用了严谨的专家标注流程，为后续研究奠定了重要基础。短板是主实验对比的基线过于简单（仅有两个通用的跨模态检索模型），未能与更相关的音频-文本或动作-文本检索方法进行比较，削弱了“State-of-the-Art”声称的说服力，且代码未开源。 🔗 开源详情代码：论文中未提及代码链接模型权重：论文中未提及数据集：论文中未提及数据集开源链接（论文介绍了自建的 TD-Data 数据集，但未提供任何可供下载的链接或开源仓库地址） Demo：论文中未提及复现材料：论文中未提及复现所需的具体代码仓库、训练脚本或检查点链接，但提供了详细的超参数和实现细节，可参考论文第4.8节。论文中引用的开源项目：论文引用了CLIP、Librosa、SMPL等工具，但未在正文中提供这些项目的具体GitHub或主页链接。补充信息 [细节详述] 补充：论文在实施细节（第4.8节）中明确了关键训练设置：文本编码器使用CLIP预训练权重初始化，其学习率设置得小于新初始化的MLP适配器以及音乐和运动编码器。此外，音乐和运动编码器是从零开始训练，因其输入分布与CLIP预训练数据差异大。论文未具体提及优化器类型、学习率数值、批次大小或训练硬件/时长。 [细节详述/实验结果] 补充：在主对比实验（表1）中，CustomDancer的Recall@1（10.23%）相较于最强基线XPool（9.46%）提升了0.77个百分点。用户研究（表4）具体说明为单盲研究，由10位参与者（包括业余舞者、编舞者和教师）进行。 [模型架构] 补充：文本编码器中的MLP适配器的作用是将CLIP嵌入投影到检索空间的维度 d（第4.3节）。 [创新点] 补充：论文在引言末尾明确总结了三点贡献，与分析中的核心创新点对应：1）为文本-舞蹈检索任务制定基准并引入TD-Data数据集；2）提出CustomDancer多模态框架；3）进行了广泛的实验、消融、用户研究和可视化分析。 [细节详述] 补充：TD-Data数据集的具体统计信息包括：由27位专业舞者表演，总时长14.6小时（第3.2节）。 [实验结果] 补充：论文在第5.2节强调，训练时采用单向（文本到舞蹈）的对齐作为主要目标，因为这符合用户交互场景。评估时使用整个测试集作为候选库进行排序，而非小子集，以模拟真实的大规模检索场景。 [核心摘要/模型架构] 补充：论文在摘要和引言中明确指出其核心任务定义与动机：现有方法（文本到动作生成、音乐到舞蹈、视频文本检索）存在不足，无法同时满足用户对音乐节奏和身体动态语义的自然语言检索需求，从而形成了本文的任务和方法。 [评分理由/毒舌点评] 补充：论文在摘要中明确声明“CustomDancer achieves state-of-the-art performance on TD-Data”，但其主实验对比的基线（仅两个通用的跨模态检索模型）的选择广度和领域相关性有限，这与该声明的说服力存在落差。 [核心摘要] 补充：论文在第5.6节详细讨论了三种失败案例：1）对高度专业化舞蹈术语的匹配不佳；2）当视觉运动与音乐情感冲突时的歧义；3）可能被表演者个人风格作为捷径所利用。这构成了其自我声明的局限性的一部分。 [核心摘要] 补充：论文在结论和未来工作部分提出，未来方向包括扩展TD-Data至多语言标注、更细粒度的编舞标签和交互式检索反馈，并探索将检索与生成耦合（先检索相关舞蹈，再适应新音乐/风格/表演者）。 [模型架构/评分理由] 补充：论文在第5.8节讨论中强调，文本-舞蹈检索不是文本-视频检索的更小变体，因为舞蹈中存在视觉相似但编舞含义不同的情况，反之亦然，这构成了独特的排名挑战。 [开源详情] 补充：论文在引用的开源项目（如CLIP、Librosa、SMPL）处也未提供具体的GitHub或主页链接（第2、4节）。 📌 核心摘要要解决什么问题：解决在线舞蹈内容爆炸式增长下的个性化发现难题，提出“文本-舞蹈检索”任务，即根据自然语言描述检索同时满足音乐节奏和身体动态语义的舞蹈片段。现有方法或忽视节奏，或缺乏自然语言接口。方法核心是什么：提出CustomDancer多模态检索框架。使用CLIP文本编码器处理查询，使用独立的Transformer编码器分别处理音乐（Librosa特征）和3D运动（SMPL参数）时序信息，然后通过一个同时包含加法和乘法交互的“音乐-运动混合模块”将二者融合为统一的舞蹈表征，最后通过对比学习对齐文本与舞蹈的嵌入空间。与已有方法相比新在哪里：1) 数据层面：构建并开放了首个大规模、高质量的文本-舞蹈检索数据集TD-Data，包含约4000个片段，由专家进行结构化标注并生成自然语言描述。2) 模型层面：专门针对舞蹈的音乐-运动同步特性设计了多模态融合架构，而非直接套用通用的视频-文本或音频-文本检索模型。主要实验结果如何：在自建TD-Data测试集上，CustomDancer的检索性能优于两个强基线（TABLE， XPool）。例如，在Recall@1上达到10.23%，比最强基线XPool（9.46%）高0.77个百分点。消融实验表明，Transformer优于RNN/LSTM，加法+乘法的融合策略优于单一策略。用户研究显示，其检索结果在文本-运动一致性（3.82）和文本-音乐相关性（3.68）上均优于基线。实际意义是什么：为舞蹈内容平台（如TikTok、B站舞蹈区）提供更精准的搜索和推荐技术，帮助用户、编舞者、学习者高效发现符合特定风格、节奏或动作描述的舞蹈内容，促进舞蹈文化的传播与学习。主要局限性是什么：1) 数据集：规模（约4k片段）和多样性（22种风格）对于通用舞蹈检索仍有限。2) 模型与对比：模型创新为有效整合而非突破；实验对比的基线与任务相关性不够强。3) 任务定义：未深入探讨用户查询的模糊性（如情绪描述 vs. 具体动作）和检索结果的多义性。4) 泛化性：依赖3D运动数据（SMPL），在真实2D视频场景中的应用需要额外转换。 🏗️ 模型架构 CustomDancer的整体架构如图3所示，是一个四模块的多模态对齐框架，旨在将文本查询与包含音乐和3D运动的舞蹈候选进行匹配。 ...

Echo: Towards Advanced Audio Comprehension via Audio-Interleaved Reasoning

📄 Echo: Towards Advanced Audio Comprehension via Audio-Interleaved Reasoning #音频大模型 #强化学习 #音频问答 #多模态模型 #数据集 🔥 8.5/10 | 前10% | #音频问答 | #强化学习 | #音频大模型 #多模态模型学术质量 6.0/7 | 选题价值 1.8/2 | 复现加成 0.7 | 置信度高 👥 作者与机构第一作者：Daiqing Wu（中国科学院信息工程研究所 IIE， ByteDance中国）通讯作者：Yangyang Kang（ByteDance中国）， Yu Zhou（南开大学 VCIP & TMCC & DISSec）作者列表： Daiqing Wu（IIE， ByteDance中国，中国科学院大学） Xuan Zhang（ByteDance中国） Dongbao Yang（IIE） Jiashu Yao（ByteDance中国） Longfei Chen（上海科技大学信息科学与技术学院） Qingsong Liu（ByteDance中国） Sicheng Zhao（清华大学心理学与认知科学系） Can Ma（IIE） Yangyang Kang（浙江大学， ByteDance中国）（带†和‡标注，应为共同通讯或同等贡献） Yu Zhou（南开大学 VCIP & TMCC & DISSec）（带†和‡标注，应为共同通讯或同等贡献） 💡 毒舌点评这篇论文最亮眼的是提出了一个符合人类认知直觉的“音频交错推理”框架，并用一套从数据生成到训练的完整工程化方案将其落地，实验也做得扎实全面。然而，其性能提升高度依赖于自动合成的训练数据（EAQA），这本质上是用一个强大的“教师”（DeepSeek-R1）的知识来蒸馏模型，而数据生成的“天花板”和潜在偏差可能限制模型的上限；此外，模型当前只能“回放”原始音频片段，无法进行更复杂的音频分析操作（如慢放、滤波），这为未来的扩展留下了空间，但也是当前的局限。 ...

EmotionThinker: Prosody-Aware Reinforcement Learning for Explainable Speech Emotion Reasoning

📄 EmotionThinker: Prosody-Aware Reinforcement Learning for Explainable Speech Emotion Reasoning #语音情感识别 #强化学习 #语音大模型 #数据集 #可解释AI 🔥 8.0/10 | 前25% | #语音情感识别 | #强化学习 | #语音大模型 #数据集学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Dingdong Wang (香港中文大学、微软) 通讯作者：未明确说明作者列表：Dingdong Wang (香港中文大学、微软), Shujie Liu (微软), Tianhua Zhang (未说明), Youjun Chen (未说明), Jinyu Li (微软), Helen Meng (香港中文大学) 💡 毒舌点评亮点在于将RL范式引入语音情感推理，并提出了一个新颖的“渐进式信任感知”奖励机制来约束推理过程，思路清晰且具有启发性。短板在于其核心的“推理质量”高度依赖一个由合成数据训练的奖励模型和GPT-4o的自动评估，这种“用AI评AI”的闭环验证其可靠性和泛化性仍需更多元的外部检验。 🔗 开源详情代码：论文提供了项目主页和GitHub仓库链接（https://github.com/dingdongwang/EmotionThinker）。模型权重：论文中未明确说明是否会开源EmotionThinker或EmotionThinker-Base的模型权重。数据集：论文构建了EmotionCoT-35K数据集，并描述了构建方法，预计会公开。 Demo：未提及。复现材料：在附录中提供了详细的数据构建流程、模型训练细节（SFT和RL）、奖励模型训练数据构造、评估prompt等，复现信息较为充分。依赖的开源项目：论文明确依赖并提及的开源项目包括：Qwen2.5-Omni（骨干模型）、WhiStress（重音检测）、wav2vec 2.0（说话人属性分类）、GPT-4o API（数据合成与评估）。 📌 核心摘要这篇论文旨在解决当前语音大语言模型（SpeechLLMs）在情感理解上仅进行简单分类、缺乏可解释性推理的问题。论文首次尝试将情感识别（SER）重新定义为一个深度推理问题，并提出EmotionThinker框架。该框架的核心方法包括：1）构建了首个面向语音情感推理的Chain-of-Thought数据集EmotionCoT-35K；2）通过韵律感知的监督微调（SFT）构建了基础模型EmotionThinker-Base，显著提升了模型对音高、能量等韵律线索的感知能力；3）设计了GRPO-PTR强化学习策略，该策略在标准规则奖励（结果准确性）基础上，逐步引入并动态调整一个评估推理过程质量的奖励模型。实验表明，EmotionThinker在IEMOCAP、MELD等多个基准上，情感识别平均准确率达68.89%，推理质量（由GPT-4o评估的4个维度平均分）达3.98，均显著优于对比的16个开源SpeechLLM。该工作的实际意义是推动SER从“是什么”走向“为什么”，为构建可解释、可信赖的情感AI迈出了一步。主要局限性在于其推理监督和评估对大型语言模型的合成数据和自动评分依赖较重。 ...

ICLR 2026 - 数据集论文列表

ICLR 2026 - 数据集共 1 篇论文 ← 返回 ICLR 2026 总览排名论文评分分档 🥇 SpeakerVid-5M: A Large-Scale High-Quality Dataset for Audio- 8.5分前25% 📋 论文详情 🥇 SpeakerVid-5M: A Large-Scale High-Quality Dataset for Audio-Visual Dyadic Interactive Human Generation 🔥 8.5/10 | 前25% | #数据集 | #自回归模型 | #音视频 #音频生成 👥 作者与机构第一作者：Youliang Zhang（清华大学、StepFun）通讯作者：Xiu Li（清华大学深圳国际研究生院）作者列表： Youliang Zhang（清华大学、StepFun） Zhaoyang Li（StepFun） Duomin Wang（StepFun，共同第一作者/责任作者†） Jiahe Zhang（未说明具体机构） Deyu Zhou（香港科技大学（广州）、StepFun） Zixin Yin（香港科技大学、StepFun） Xili Dai（StepFun） Gang Yu（StepFun） Xiu Li（清华大学深圳国际研究生院‡） 💡 毒舌点评 ...

LLM2Fx-Tools: Tool Calling for Music Post-Production

📄 LLM2Fx-Tools: Tool Calling for Music Post-Production #音乐信息检索 #大语言模型 #多模态模型 #数据集 ✅ 7.0/10 | 前25% | #音乐信息检索 | #大语言模型 | #多模态模型 #数据集学术质量 7.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：SeungHeon Doh（KAIST, Sony AI）、Junghyun Koo（Sony AI）（共同第一作者）通讯作者：未明确说明作者列表：SeungHeon Doh (KAIST, Sony AI), Junghyun Koo (Sony AI), Marco A. Martínez-Ramírez (Sony AI), Woosung Choi (Sony AI), Wei-Hsiang Liao (Sony AI), Qiyu Wu (Sony Group Corporation), Juhan Nam (KAIST), Yuki Mitsufuji (Sony AI, Sony Group Corporation) 💡 毒舌点评亮点是这篇论文首次将LLM的工具调用范式引入到音频效果链生成任务，框架设计完整（从感知、推理到执行），并配套发布了高质量的对话式数据集LP-Fx，为后续研究建立了不错的基础。短板是实验验证范围主要局限于单声道、单乐器音频，在真正复杂的多轨混音场景下有效性存疑，且“可解释性”在面对多效果器组合产生的复杂听感时可能大打折扣。 ...

Measuring Audio's Impact on Correctness: Audio-Contribution-Aware Post-Training of Large Audio Language Models

📄 Measuring Audio’s Impact on Correctness: Audio-Contribution-Aware Post-Training of Large Audio Language Models #音频问答 #音频大模型 #强化学习 #数据集 #后训练 ✅ 7.5/10 | 前25% | #音频问答 | #强化学习 | #音频大模型 #数据集学术质量 6.0/7 | 选题价值 1.0/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Haolin He（香港中文大学、蚂蚁集团）通讯作者：Jian Liu（蚂蚁集团）， Qiuqiang Kong（香港中文大学）作者列表：Haolin He（香港中文大学、蚂蚁集团）， Xingjian Du（罗切斯特大学）， Renhe Sun（蚂蚁集团）， Zheqi Dai（香港中文大学）， Yujia Xiao（香港中文大学）， Mingru Yang（蚂蚁集团）， Jiayi Zhou（蚂蚁集团）， Xiquan Li（上海交通大学）， Zhengxi Liu（香港中文大学）， Zining Liang（香港中文大学）， Chunyat Wu（香港中文大学）， Qianhua He（华南理工大学）， Tan Lee（香港中文大学）， Xie Chen（上海交通大学）， Wei-Long Zheng（上海交通大学）， Weiqiang Wang（蚂蚁集团）， Mark D Plumbley（伦敦国王学院）， Jian Liu（蚂蚁集团）， Qiuqiang Kong（香港中文大学） 💡 毒舌点评亮点：论文敏锐地捕捉并量化了“音频语言模型不听音频”这一核心问题，提出的“音频贡献”度量与过滤方法逻辑自洽，且基于此设计的Weak-to-Strong和Mixed-to-Strong训练范式确实有效，在多个基准上取得了扎实的SOTA结果。短板：整个框架高度依赖Qwen2.5-Omni作为基座模型验证，其结论在不同架构（如纯编码器-解码器模型）上的泛化性未可知；且“音频贡献”的定义（用静音替换音频）过于粗暴，无法区分解码器是“忽略”了音频还是“错误处理”了音频。 ...

Music Flamingo: Scaling Music Understanding in Audio Language Models

📄 Music Flamingo: Scaling Music Understanding in Audio Language Models #音乐理解 #音频大模型 #预训练 #强化学习 #数据集 ✅ 7.5/10 | 前25% | #音乐理解 | #音频大模型 | #预训练 #强化学习学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 1.0 | 置信度高 👥 作者与机构第一作者：Sreyan Ghosh (University of Maryland, College Park & NVIDIA), Arushi Goel (NVIDIA) (论文注明二者同等贡献) 通讯作者：sreyang@umd.edu, arushig@nvidia.com 作者列表：Sreyan Ghosh (University of Maryland, College Park & NVIDIA)、Arushi Goel (NVIDIA)、Lasha Koroshinadze (University of Maryland, College Park)、Sang-gil Lee (NVIDIA)、Zhifeng Kong (NVIDIA)、Joao Felipe Santos (NVIDIA)、Ramani Duraiswami (University of Maryland, College Park)、Dinesh Manocha (University of Maryland, College Park)、Wei Ping (NVIDIA)、Mohammad Shoeybi (NVIDIA)、Bryan Catanzaro (NVIDIA) 💡 毒舌点评论文的最大亮点是构建了一个覆盖多层次、多文化、带推理链的音乐理解数据集（MF-Skills & MF-Think），并通过GRPO强化学习有效提升了模型的“音乐家式”分析能力，使其输出从“列标签”升级到了“写乐评”。短板在于，尽管数据集声称覆盖多元文化，但模型在对非西方音乐（如印度拉格、非洲节奏）的深层理论分析上仍可能受限于训练数据的偏见，且对复杂乐器特定技法的识别能力有待验证。 ...

Omni-Reward: Towards Generalist Omni-Modal Reward Modeling with Free-Form Preferences

📄 Omni-Reward: Towards Generalist Omni-Modal Reward Modeling with Free-Form Preferences #多模态模型 #基准测试 #数据集 #强化学习 🔥 8.0/10 | 前25% | #基准测试 #数据集 | #强化学习 #多任务学习 | #多模态模型 #基准测试学术质量 6.5/7 | 选题价值 1.8/2 | 复现加成 0.9 | 置信度高 👥 作者与机构第一作者：Zhuoran Jin（中国科学院大学人工智能学院，中国科学院自动化研究所，国家认知与决策智能重点实验室）通讯作者：Jun Zhao（中国科学院大学人工智能学院，中国科学院自动化研究所，国家认知与决策智能重点实验室）作者列表：Zhuoran Jin（中国科学院大学人工智能学院，中国科学院自动化研究所）， Hongbang Yuan（中国科学院大学人工智能学院，中国科学院自动化研究所）， Kejian Zhu（中国科学院大学人工智能学院，中国科学院自动化研究所）， Jiachun Li（中国科学院大学人工智能学院，中国科学院自动化研究所）， Pengfei Cao（中国科学院大学人工智能学院，中国科学院自动化研究所）， Yubo Chen（中国科学院大学人工智能学院，中国科学院自动化研究所）， Kang Liu（中国科学院大学人工智能学院，中国科学院自动化研究所）， Jun Zhao（中国科学院大学人工智能学院，中国科学院自动化研究所） 💡 毒舌点评这篇论文最大的贡献是“立规矩、搭台子”——提出了首个覆盖全模态且支持自由格式偏好的奖励建模基准和数据集，填补了领域空白，为后续研究提供了标准评测场。其短板在于模型架构本身（Omni-RewardModel）是现有技术（如Bradley-Terry框架、GRPO强化学习）在更大规模多模态数据上的直接应用，缺乏针对“自由格式偏好”理解的独创性建模机制。 🔗 开源详情代码：提供了GitHub仓库链接：https://github.com/HongbangYuan/OmniReward 模型权重：提及了公开Omni-RewardModel权重，下载链接为：https://hf.co/datasets/HongbangYuan/OmniRewardBench (注：此处链接标签为Dataset，但文中暗示模型权重也可能在此或类似路径) 数据集：明确公开两个数据集：Omni-RewardBench (https://hf.co/datasets/HongbangYuan/OmniRewardBench) 和 Omni-RewardData (https://hf.co/datasets/jinzhuoran/OmniRewardData)，均托管于HuggingFace。 Demo：论文中未提及在线演示。复现材料：论文在正文和附录中描述了数据收集、标注流程、模型训练细节（如骨干模型选择、训练数据比例、强化学习算法）以及评估协议，复现信息较为充分。引用的开源项目：模型构建依赖MiniCPM-o-2.6和Qwen2.5-VL等开源多模态模型。训练数据整合了多个公开数据集，如Skywork-Reward-Preference, RLAIF-V, HPDv2, VideoDPO等。 📌 核心摘要要解决什么问题：现有的奖励模型存在两个核心挑战：一是模态不平衡，主要关注文本和图像，对音频、视频、3D等模态支持不足；二是偏好刚性，基于固定的二元偏好对训练，无法捕捉复杂多样的个性化偏好。方法核心是什么：提出Omni-Reward框架，包含三个核心组件：(1) 评测基准Omni-RewardBench，首个支持自由格式偏好描述、覆盖9类任务5种模态的奖励模型评测集；(2) 训练数据集Omni-RewardData，包含248K通用偏好对和69K用于指令微调的自由格式偏好对；(3) 模型Omni-RewardModel，包括判别式（BT）和生成式（R1）两种全模态奖励模型。与已有方法相比新在哪里：(1) 首次系统性地将奖励建模扩展到全模态场景（包括音频、3D）；(2) 首次在奖励建模中引入自由形式的自然语言偏好描述，替代传统的二元选择，以支持动态、个性化的偏好对齐；(3) 构建了迄今为止最全面的多模态奖励建模训练数据集。主要实验结果如何：在自有基准Omni-RewardBench（w/ Ties设置）上，Omni-RewardModel-BT达到65.36% 准确率，超越最强基线（Claude 3.5 Sonnet的66.54%已属顶级，但模型整体仍有提升空间）。在公开基准VL-RewardBench上，Omni-RewardModel-BT达到76.3% 准确率，取得SOTA性能。消融实验证明，使用混合多模态数据进行训练比单模态数据显著提升泛化能力；指令微调数据对于处理自由格式偏好至关重要。模型 Omni-RewardBench (w/ Ties) VL-RewardBench Claude 3.5 Sonnet (最强基线) 66.54% 55.3% Omni-RewardModel-BT 65.36% 76.3% Omni-RewardModel-R1 60.18% 未报告实际意义是什么：为未来的全模态大模型（如GPT-4o, Qwen2.5-Omni）提供了对齐所需的关键基础设施——评测标准和训练数据。推动了奖励建模从“固定偏好”向“个性化偏好”的范式转变，使AI系统能更灵活地适应不同用户或场景的具体需求。主要局限性是什么：(1) Omni-RewardBench的规模（3.7K对）相对较小，可能不足以全面评估超大规模模型；(2) 任务定义相对粗粒度，每种模态任务内的多样性还可进一步细分；(3) 当前数据仅限单轮交互，未涵盖多轮对话偏好。 🏗️ 模型架构 Omni-RewardModel包含两个变体，其整体架构如下图所示。核心是基于一个多模态大语言模型（如MiniCPM-o-2.6或Qwen2.5-VL）作为骨干网络，处理来自文本、图像、视频、音频等模态的输入。 ...

OmniCVR: A Benchmark for Omni-Composed Video Retrieval with Vision, Audio, and Text

📄 OmniCVR: A Benchmark for Omni-Composed Video Retrieval with Vision, Audio, and Text #音频检索 #多模态模型 #基准测试 #数据集 ✅ 7.0/10 | 前25% | #音频检索 | #多模态模型 | #基准测试 #数据集学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度高 👥 作者与机构第一作者：Junyang Ji（清华大学、南方科技大学、快手科技）通讯作者：Zhihai He（南方科技大学）、Wenming Yang（清华大学）作者列表：Junyang Ji（清华大学，南方科技大学，快手科技），Shengjun Zhang（快手科技），Da Li（快手科技，中国科学院大学），Yuxiao Luo（快手科技，北京大学），Yan Wang（快手科技），Di Xu（快手科技），Biao Yang（快手科技），Wei Yuan（快手科技，项目负责人），Fan Yang（快手科技，项目负责人），Zhihai He（南方科技大学，通讯作者），Wenming Yang（清华大学，通讯作者） 💡 毒舌点评亮点：论文一针见血地指出了当前多模态模型“视觉-文本”偏科、严重忽视音频信息的普遍问题，并通过一个高质量、大规模的诊断基准（OmniCVR）将其量化，这比提出一个改进模型更有价值。短板：提出的解决方案“AudioVLM2Vec”本质上是把音频先转录/描述成文本再喂给视觉语言模型，这种“音频-文本化”的工程化方案虽然有效，但显得不够优雅，且引入了额外的延迟和潜在信息损失，算不上是最根本的端到端解决方案。 🔗 开源详情代码：论文承诺将开源完整代码库，包括数据生成脚本、训练代码和评估协议。具体代码仓库链接在提供的论文全文中未直接显示，但提到数据将发布在HuggingFace（https://huggingface.co/datasets/Jun-Yang/OmniCVR），代码链接可能随发布同步公开。论文中未明确给出代码仓库的直接URL。模型权重：论文承诺将公开AudioVLM2Vec模型权重。未提及具体模型权重的发布链接。数据集：OmniCVR数据集（包括160K+片段、50K+三元组、5K测试集）将完全开源。获取方式为通过上述HuggingFace链接。 Demo：论文中未提及是否提供在线演示。复现材料：论文在附录（Appendix G）中提供了用于数据生成（如生成视频描述、修改指令）的完整提示词模板，以及详细的双重验证协议说明，这对于复现数据生成管线至关重要。然而，关于模型训练的具体细节（学习率、优化器、批次大小等）论文中未提及。论文中引用的开源项目/模型：论文明确使用了以下开源模型作为组件或基线： Qwen2.5-Omni：用于视频音频标注生成。 Gemini 2.5 Pro：用于数据验证。 Qwen2-Audio-7B-Instruct：用于AudioVLM2Vec中的音频描述生成。 Qwen2-VL：作为VLM2Vec和AudioVLM2Vec的视觉-语言骨干。 CLIP、BLIP、BLIP-2、ImageBind 等作为基线模型。 PySceneDetect：用于视频分割。所有使用的数据集（HowTo100M, MSR-VTT, VATEX, YouTube8M, YouCook2, VALOR）均为公开数据集。 📌 核心摘要本文旨在解决现有视频检索基准和模型普遍忽视音频模态的关键问题。论文提出了首个全模态组合视频检索基准OmniCVR，该基准将视觉、音频和文本视为同等重要的第一类模态。核心方法是构建了一个包含50,000个三元组（源视频、修改文本、目标视频）的大规模数据集，其中超过57%的查询需要同时修改视觉和音频（集成查询）。为此，作者设计了一个可扩展的自动化数据生成管线，并通过大模型与人类专家的双重验证确保数据质量。为验证基准，论文提出了AudioVLM2Vec模型，其核心创新是利用音频理解大模型（Qwen2-Audio）将音频转为细粒度描述文本，再与视觉信息一同输入VLM2Vec框架。主要实验结果表明，AudioVLM2Vec在OmniCVR基准上取得了最优性能，尤其是在音频中心查询上，相比基线VLM2Vec实现了巨大的性能提升（R@1从12.4提升到77.2）。这证明了显式注入音频语义对于跨模态检索的关键作用，并暴露了现有“全模态”模型在音频推理上的根本缺陷。该工作的实际意义在于为更真实的多模态视频理解设立了新标准，推动研究向听觉-视觉-语言融合迈进。主要局限性在于提出的“音频转文本”方案带来了额外的推理延迟（约1.77倍），且该方案可能无法完美捕捉音频的所有非语义信息（如音色、节奏等）。 ...

OWL : Geometry-Aware Spatial Reasoning for Audio Large Language Models

📄 OWL : Geometry-Aware Spatial Reasoning for Audio Large Language Models #音频大模型 #空间音频 #声源定位 #多任务学习 #数据集 🔥 8.0/10 | 前25% | #空间音频 | #音频大模型 | #声源定位 #多任务学习学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.8 | 置信度高 👥 作者与机构第一作者：未说明（论文标注Subrata Biswas和Mohammad Nur Hossain Khan为共同第一作者）通讯作者：未说明作者列表：Subrata Biswas（Worcester Polytechnic Institute电气与计算机工程系）、Mohammad Nur Hossain Khan（Worcester Polytechnic Institute电气与计算机工程系）、Bashima Islam（Worcester Polytechnic Institute电气与计算机工程系） 💡 毒舌点评这篇论文为音频大模型装上了“空间几何眼睛”，通过“模拟训练-纯音频推理”的巧思和详实的课程学习，确实把空间定位和推理精度提升了一个台阶；但美中不足的是，其所有辉煌战绩（包括新建的百万级数据集）均建立在精心构建的合成世界里，在真实嘈杂、反射复杂的声学环境中，这套“几何内功”的实战效果还有待“出关”检验。 🔗 开源详情代码：论文明确提供代码仓库链接：https://github.com/BASHLab/OWL。表明将在该仓库发布代码。模型权重：未明确提及是否公开预训练模型权重，但根据“our dataset and code are available”的表述，模型权重可能包含在开源计划内。数据集：论文明确表示将发布BiDepth数据集（“we construct and release BiDepth”），包含约110万QA对。 Demo：未提及在线演示。复现材料：附录提供了完整的训练超参数（表10，表11）、特征提取公式（B.1）、模型架构细节（B.2， B.3）和数据集生成细节（A节），复现指引非常充分。论文中引用的开源项目：依赖SoundSpaces v2.0和Matterport3D进行模拟；音频编码器初始化自AudioMAE；语言模型使用LLaMA-2-7B；投影模块参考Q-Former；微调使用LoRA。 📌 核心摘要要解决什么问题：现有的音频大语言模型（ALLMs）在空间推理方面能力薄弱，主要依赖粗糙的双耳线索和单步推理，导致在声源方向（DoA）和距离估计上精度不足，且推理过程缺乏可解释性。方法核心是什么：提出OWL框架，其核心是创新的几何感知音频编码器SAGE。SAGE在训练时利用全景深度图和模拟房间脉冲响应（RIR）作为监督信号，让编码器学会将声学特征与3D空间几何结构对齐，但在推理时只需音频输入。OWL进一步将SAGE与空间接地的链式思维（CoT）推理相结合，支持从感知到多步推理的课程学习。与已有方法相比新在哪里：首次将显式的几何监督（通过RIR预测任务）引入音频编码器训练；构建了首个大规模（约110万QA对）耦合双耳音频、RIR和深度图的数据集BiDepth用于几何感知训练；引入了针对音频空间推理的多阶段课程学习和CoT监督机制，使模型能生成可解释的推理路径。主要实验结果如何：在BiDepth和SpatialSoundQA两个基准上，OWL显著超越了现有方法。SAGE相比SOTA（Spatial-AST），在BiDepth数据集上平均角度误差（MAE）降低25.52%，距离错误率（DER）降低31.34%。OWL相比BAT，在BiDepth上的空间推理二分类准确率（BA）提升24.9%（77.89% vs. 69.46%），在SpatialSoundQA上的推理平均准确率达79.06%（BAT为76.89%）。OWL在真实世界音频场景分类和声源定位任务上也展现出良好的泛化能力。实际意义是什么：该工作推动了音频大模型从“听到什么”向“声音在哪里、如何关联”的空间理解迈进，为构建更接近人类听觉感知的智能系统（如机器人、智能家居助手、助听设备）提供了关键技术组件和评估基准。主要局限性是什么：训练和评估严重依赖合成数据（BiDepth），而真实世界声学环境更为复杂多变，模型的鲁棒性有待验证；目前的推理任务限于单轮问答，尚未扩展到多轮对话式空间推理；几何监督依赖于预先生成的深度图和RIR，限制了其在完全未知环境中的应用。 🏗️ 模型架构 OWL是一个完整的空间音频问答系统，其架构（如图4所示）由三个主要部分串联而成，旨在将原始双耳波形转化为带有空间推理的文本输出。 ...