音频检索 | 语音/音频论文速递

Audio-Image Cross-Modal Retrieval with Onomatopoeic Images

📄 Audio-Image Cross-Modal Retrieval with Onomatopoeic Images #音频检索 #迁移学习 #跨模态 #多模态模型 #数据集 ✅ 7/10 | 前50% | #音频检索 | #迁移学习 | #跨模态 #多模态模型 | arxiv 学术质量 5.8/8 | 影响力 0.6/1 | 可复现性 0.6/1 | 置信度高 👥 作者与机构第一作者：Keisuke Imoto（Kyoto University, Japan）通讯作者：未说明作者列表：Keisuke Imoto（Kyoto University, Japan）、Yamato Kojima（Doshisha University, Japan）、Takao Tsuchiya（Doshisha University, Japan） 💡 毒舌点评本文的亮点在于首次定义了“拟声图像-声音检索”这一具体且有趣的小众问题，并构建了首个专用数据集MIAO，填补了该交叉领域的空白。然而，其技术贡献主要是在成熟的CLIP和CLAP之上“堆叠”了一个两层MLP投影头，方法的原创性和技术深度较为有限，更像是一个针对特定数据集的适配实验而非一个具有普遍启发性的方法论突破。审稿人可能会质疑，在缺乏更强大的基线对比和充分消融实验的情况下，该工作的说服力和对社区的贡献有限。 📌 核心摘要这篇论文旨在解决多媒体创作（如漫画）中，创作者希望根据画面中拟声词的视觉表现（拟声图像）来检索匹配的声音，或根据声音检索合适拟声图像的实际需求。目前，拟声图像与声音之间的跨模态检索尚未被研究。论文提出了一种双向检索框架，其核心方法是在冻结的预训练CLIP图像编码器和CLAP音频编码器之上，为每个模态分别训练一个轻量的两层MLP投影头，将它们的特征重新对齐到一个共享的嵌入空间，而非直接比较原始嵌入。与直接使用预训练CLIP和CLAP嵌入的零样本基线相比，该方法在双向检索任务上取得了显著的性能提升。论文还构建了包含50个声音事件类别、850个配对样本的首个多模态拟声图像-音频数据集（MIAO）。主要实验结果表明，所提方法在图像到音频检索（I2A）上的mAP从基线的6.77%提升至61.45%，在音频到图像检索（A2I）上从7.82%提升至61.08%。这项工作的实际意义在于为多媒体创作提供了自动化的跨模态检索工具雏形。主要局限性在于所提方法相对简单，且数据集中拟声图像的视觉多样性（因插画师风格不同）是导致检索错误的主要原因，论文未提出更鲁棒的表征方法来应对此问题。方法任务 mAP (%) R@1 (%) R@5 (%) MRR 零样本基线 I2A 6.77 ± 0.00 2.00 ± 0.00 9.00 ± 0.00 0.076 ± 0.00 零样本基线 A2I 7.82 ± 0.00 6.00 ± 0.00 10.00 ± 0.00 0.116 ± 0.00 提出方法 I2A 61.45 ± 1.71 53.60 ± 2.41 68.90 ± 2.69 0.60 ± 0.02 提出方法 A2I 61.08 ± 1.84 64.60 ± 3.37 88.20 ± 2.66 0.75 ± 0.03 表1：零样本基线与提出方法在MIAO测试集上的双向检索性能对比 🔗 开源详情代码：论文中未提及代码链接。模型权重：论文中未提及模型权重链接。数据集：Multimodal Image-Audio Onomatopoeia dataset (MIAO)。获取链接：https://huggingface.co/datasets/KeisukeImoto/MIAO。 Demo：论文中未提及。复现材料：论文中提及了训练配置（超参数等），但未提供检查点或附录等详细复现材料。论文中引用的开源项目： CLIP (Contrastive Language–Image Pre-training)： https://github.com/openai/CLIP CLAP (Contrastive Language-Audio Pre-training)： https://github.com/LAION-AI/CLAP AudioCLIP： https://github.com/shikkunchoi/AudioCLIP Wav2CLIP： https://github.com/seungheondoh/wav2clip ImageBind： https://github.com/facebookresearch/ImageBind FSD50K： https://zenodo.org/record/4060432 HTS-AT：论文将其作为CLAP音频编码器的骨干网络引用，但未直接提供其独立开源链接。 🏗️ 方法概述和架构 ...

FLARE: Full-Modality Long-Video Audiovisual Retrieval Benchmark with User-Simulated Queries

📄 FLARE: Full-Modality Long-Video Audiovisual Retrieval Benchmark with User-Simulated Queries #音频检索 #基准测试 #数据集 #音视频 #跨模态 ✅ 6.0/10 | 前25% | #音频检索 | #数据集 | #基准测试 #音视频 | arxiv 学术质量 6.0/8 | 影响力 1.5/2 | 可复现性 0.8/1 | 置信度高 👥 作者与机构第一作者：Qijie You（北京科技大学 University of Science and Technology Beijing）通讯作者：Wentao Zhang（北京大学 Peking University、中关村学院 Zhongguancun Academy）作者列表：Qijie You（北京科技大学）、Hao Liang（北京大学、中关村学院，同等贡献）、Mingrui Chen（中国科学院自动化研究所 Institute of Automation, Chinese Academy of Sciences）、Bohan Zeng（北京大学）、Meiyi Qiang（北京大学）、Zhenhao Wong（北京大学）、Wentao Zhang（北京大学、中关村学院，项目负责人，通讯作者） 💡 毒舌点评这篇论文的亮点在于它精准地抓住了现有视频检索基准的“阿喀琉斯之踵”——过于依赖信息密集的字幕和短片段，完全无法模拟真实用户模糊、不完整、强依赖多模态线索的搜索意图；其提出的“硬双模态约束”过滤机制是一个非常聪明的设计，确保了跨模态查询不是简单的拼接。然而，其短板也明显：整个基准完全建立在 Qwen 系列等商用/闭源模型的自动生成和筛选之上，这虽保证了规模，却也引入了模型特有的偏见，且自动化流水线的“黑箱”特性使得最终数据集的“用户模拟”真实性存疑，更像是一场大规模的模型行为模拟而非真实人类查询的反映。 ...

ReasonAudio: A Benchmark for Evaluating Reasoning Beyond Matching in Text-Audio Retrieval

📄 ReasonAudio: A Benchmark for Evaluating Reasoning Beyond Matching in Text-Audio Retrieval #音频检索 #基准测试 #多模态模型 #对比学习 #模型评估 ✅ 7.5/10 | 前25% | #音频检索 | #对比学习 | #基准测试 #多模态模型 | arxiv 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Honglei Zhang (南京大学软件学院) 通讯作者：未说明（论文未明确指定）作者列表： Honglei Zhang (南京大学软件学院) Yuting Chen (西北工业大学软件学院) Chenpeng Hu (西北工业大学软件学院) Siyue Zhang (南洋理工大学计算与数据科学学院) Yilei Shi (西北工业大学软件学院) 💡 毒舌点评本文最大的价值在于“撕开了一道口子”：用精心设计的合成基准，无情地揭示了当前多模态检索模型（即便是基于强大MLLM的）在“否定”、“时长”等基础推理任务上脆弱得可笑，最高平均准确率仅20.1%，这为后续研究划出了明确的“能力短板”地图。但硬伤也很明显：全靠合成数据得出的结论，多少有点“温室里的比武”，模型在真实世界嘈杂、语义模糊的查询中表现如何，这篇论文其实并没有给出答案。 🔗 开源详情代码：论文中未提及代码链接。模型权重：论文中未提及模型权重获取链接。数据集：ReasonAudio。论文中在摘要部分的脚注提到“The dataset is available on HuggingFace”，但未提供具体URL。 Demo：论文中未提及在线演示链接。复现材料：论文中未提及训练配置、检查点等复现材料。论文中引用的开源项目： FSD50K (Fonseca et al., 2022)：https://zenodo.org/record/4060432 Freesound (Jiang et al., 2025)：https://freesound.org/ AudioCaps (Kim et al., 2019)：https://www.kaggle.com/datasets/costacr/audio-caps Clotho (Drossos et al., 2020)：https://zenodo.org/record/4783391 WavText5K (Deshmukh et al., 2022)：https://github.com/Declare-lab/WavText5K SoundDescs (Koepke et al., 2023)：https://zenodo.org/record/6990313 AudioSet (Sun et al., 2025)：https://research.google.com/audioset/ SVQ (MSEB) (Google Research, 2025)：https://github.com/google-research/google-research/tree/master/mseb Spoken SQuAD (Lee et al., 2018)：https://github.com/raoyongming/Spoken-SQuAD Qwen2-Audio (Chu et al., 2024)：https://github.com/QwenLM/Qwen2-Audio Step-Audio (Huang et al., 2025)：https://github.com/step-function-ai/Step-Audio BGE-M3 (Chen et al., 2024)：https://github.com/FlagOpen/FlagEmbedding Qwen3-Embedding (Zhang et al., 2025c)：https://github.com/QwenLM/Qwen3-Embedding CLAP (Elizalde et al., 2023)：https://github.com/LAION-AI/CLAP AudioCLIP (Guzhov et al., 2022)：https://github.com/AndreyGuzhov/AudioCLIP Wav2CLIP (Wu et al., 2022)：https://github.com/keunwoochoi/Wav2CLIP LCO-Embedding (Xiao et al., 2025)：https://github.com/LCO-AI/LCO-Embedding e5-omni (Chen et al., 2026)：https://github.com/microsoft/unilm/tree/master/e5-omni OmniEmbed (Xu et al., 2025)：https://github.com/XuLab-Connect/OmniEmbed CLIP (Radford et al., 2021)：https://github.com/openai/CLIP 补充信息 [模型架构] 补充：对于“基于MLLM的嵌入模型”这一范式，论文原文更具体地指出其设计动机和核心是“leverage pretrained multimodal large language models (MLLMs) to learn unified representations across modalities”（利用预训练的多模态大语言模型来学习跨模态的统一表示）。这明确了其架构创新点在于直接基于强大的多模态生成模型进行微调以获取检索嵌入，而非从头训练或使用纯编码器架构。 [实验结果] 补充：论文在第5节的分析中，对多选题测试和t-SNE可视化的结果有更深入和具体的解读。关于多选题测试（图2），论文指出OmniEmbed-7B在Duration任务上的准确率（50.8%）是“marginally above random chance”（略高于随机水平），而在Negation任务上的准确率（27.5%）则“indicating a failure to capture negation semantics and a bias toward matching mentioned sounds”（表明未能捕捉否定语义，并存在匹配查询中提及声音的偏见）。这比“接近随机”和“低于随机”的概括更具体地揭示了模型的问题本质。关于t-SNE可视化（图3），论文结论更明确地指出，嵌入空间的错位（misalignment）直接导致了“failing to encode logical constraints—particularly negation—into the shared embedding space”（未能将逻辑约束——尤其是否定——编码到共享嵌入空间）。这直接解释了模型在否定任务上表现低于随机水平的原因。 [核心摘要/毒舌点评] 补充：论文在摘要和结论中均强调了一个关键发现：所提出的五个推理任务“pose significant challenges to current models”（对当前模型构成重大挑战）。这不仅是实验结果，也是论文的核心诊断结论，明确了其作为“压力测试”基准的价值。 📌 核心摘要要解决什么问题：现有的文本-音频检索基准（如AudioCaps， Clotho）主要关注语义匹配，忽视了现实世界查询中常见的复杂逻辑推理需求（如否定、时序、并发、时长）。这导致当前检索模型的能力评估不全面。方法核心是什么：提出了首个推理密集型文本-音频检索基准ReasonAudio。通过从FSD50K和Freesound收集200种原子声音，程序化合成为10,000个具有精确时间关系的复合音频片段，并基于模板生成了1,000个涵盖五个推理任务（否定、排序、重叠、时长、混合）的文本查询。与已有方法相比新在哪里：不同于以往侧重于音频-文本描述对的检索数据集，ReasonAudio专注于评估模型对查询中逻辑和时间约束的理解与执行能力，是音频检索领域的首个推理专用基准。主要实验结果如何：在ReasonAudio上评测了三大范式十个模型，发现所有模型都表现不佳。两个阶段和CLIP式模型平均准确率低于10%。基于MLLM的嵌入模型表现最好，但最佳模型（OmniEmbed-7B）的平均准确率也仅为20.1%。具体而言，模型在“重叠”和“排序”任务上相对较好，但在“否定”和“时长”任务上严重失败，准确率极低。模型即使在只评估推理能力的多选题设置中，“否定”任务准确率也低于随机水平（27.5%）。实际意义是什么：本工作为社区提供了一个用于诊断和推进音频检索模型推理能力的标准化评测工具。实验结果明确指出了当前模型，特别是通过对比学习微调的MLLM，无法有效保留其骨干网络的推理能力，为未来的模型训练范式（如如何更好地对齐与约束嵌入空间）指明了改进方向。主要局限性是什么：基准完全基于合成音频构建，缺乏真实录音环境的声学复杂性和语义模糊性。评估的查询规模（1000条）虽满足实验需求，但与工业应用规模仍有差距。论文未提出新的模型方法，主要贡献在于诊断与评测。 🏗️ 模型架构本文是一篇基准测试与模型评估论文，并未提出一个新的检索模型架构。其核心“架构”是所提出的ReasonAudio基准的构建流程以及对现有模型范式的评测框架。 ...

Multi-Axis Speech Similarity via Factor-Partitioned Embeddings

📄 Multi-Axis Speech Similarity via Factor-Partitioned Embeddings #音频检索 #多任务学习 #对比学习 #说话人识别 ✅ 6.0/10 | 前50% | #音频检索 | #多任务学习 | #对比学习 #说话人识别 | arxiv 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 -1 | 置信度中 👥 作者与机构第一作者：Jim O‘Regan（KTH Royal Institute of Technology， Department of Speech, Music & Hearing）通讯作者：未说明（论文中仅列出两位作者的邮箱，未明确标注通讯作者）作者列表：Jim O’Regan（KTH Royal Institute of Technology， Department of Speech, Music & Hearing）、Jens Edlund（KTH Royal Institute of Technology， Department of Speech, Music & Hearing） 💡 毒舌点评亮点：概念非常新颖，首次提出用带符号的加权组合在语音嵌入的多个子空间中实现可控检索（如用负权重“讨厌”某个说话人），并通过精心设计的“偏好翻转”实验证实了这一机制的可行性。短板：最引人深思的发现——语义投影头在没有说话人监督时会完全“摆烂”——恰恰揭示了该方法目前最大的脆弱性，它更像是一个对训练技巧敏感的“特例”，而非一个稳健的通用框架，且极小的实验规模和完全缺失的开源信息让说服力大打折扣。 ...

Beyond Instance-Level Alignment: Dual-Level Optimal Transport for Audio-Text Retrieval

📄 Beyond Instance-Level Alignment: Dual-Level Optimal Transport for Audio-Text Retrieval #音频检索 #最优传输 #对比学习 #跨模态 #鲁棒性 ✅ 7.5/10 | 前25% | #音频检索 | #最优传输 | #对比学习 #跨模态学术质量 6.5/7 | 选题价值 1.0/2 | 复现加成 0.0 | 置信度高 👥 作者与机构第一作者：Wenqi Guo（上海交通大学）通讯作者：Shikui Tu（上海交通大学），Lei Xu（上海交通大学，广东省人工智能与数字经济实验室（深圳））作者列表：Wenqi Guo（上海交通大学）、Shikui Tu（上海交通大学）、Lei Xu（上海交通大学，广东省人工智能与数字经济实验室（深圳）） 💡 毒舌点评亮点：论文从“特征通道可靠性”这一细粒度视角切入，用最优传输的语言重新定义了跨模态对齐问题，理论推导（集中界分析）为小批次下的不稳定性提供了有说服力的解释，这比单纯堆砌模块更显功力。短板：虽然实验全面，但核心创新（双层对齐+可靠性边际）的物理直觉略显复杂，且声称“特征级OT计算开销可忽略”这一论断，在真实部署场景（如视频检索、超长音频）下的泛化能力值得商榷。 🔗 开源详情代码：论文中未提及代码链接。附录A提供了伪代码，但未指明完整实现代码的发布渠道。模型权重：未提及。数据集：使用了公开的AudioCaps、Clotho、ESC-50数据集，但论文中未提供获取链接或特殊处理说明。 Demo：未提及。复现材料：论文附录提供了极其详细的超参数设置（表6）、训练算法伪代码、理论证明、数据集统计、评估指标定义等，复现所需的信息非常充分。论文中引用的开源项目：未明确列出。提到了使用预训练的编码器（如ResNet38, BERT, Beats等），但未指定具体版本或来源。总体评估：论文具备高质量的复现指南，但缺少最直接的开源代码和权重链接，对快速复现构成障碍。论文中未提及明确的开源计划。 📌 核心摘要问题：现有的跨模态检索方法（如对比学习、逆最优传输IOT）主要进行实例级对齐，隐含假设所有嵌入维度同等重要。在小批次训练中，这种假设会放大噪声和偏差，导致对齐信号不稳定。方法核心：提出DART（双层对齐鲁棒传输）框架。它在实例级保留IOT目标以对齐样本对，同时引入特征级正则化。该正则化将每个特征维度视为一个分布，并使用非平衡Wasserstein距离（UWD）来对齐音频和文本的特征分布。此外，设计了可靠性感知边际（RAM），基于方差、峰度和跨模态相关性动态加权特征通道，抑制噪声通道。与已有方法相比新在哪里：1）超越单一的实例级对齐，增加特征级分布对齐，提供细粒度的正则化。2）RAM能自适应地识别并强调跨模态一致且稳定的语义通道。3）提供了理论分析，证明实例级损失受最大距离控制，而特征级损失受传输计划的Frobenius范数控制，后者在小批次下更鲁棒。主要实验结果：在AudioCaps和Clotho两个主要基准上，DART在多个编码器设置下均达到或超越SOTA。例如，在AudioCaps（ResNet38+BERT）上，相比最强基线Luong et al. (2024)，文本到音频检索R@1提升1.1个百分点，音频到文本提升4.5个百分点。在模拟小批次（k=8, 32）和噪声/半监督标签（20%，40%）的严苛条件下，DART展现出显著更强的鲁棒性。详见下表。条件方法文本->音频 (R@1) 音频->文本 (R@1) 标准设置 (Batch=256, AuC) Luong et al. (2024) 39.10 49.94 DART w/ RAM 41.67 55.27 小批次 (Batch=8, AuC) Luong et al. (2024) 20.44 32.91 DART (LIOT+LUWD) 24.24 35.21 40%噪声标签 (Batch=32, AuC) Luong et al. (2024) 26.20 34.37 DART 29.67 37.09 零样本声音事件检测 (ESC-50) IOT (Luong et al.) - 79.25 (R@1) DART - 80.75 (R@1) 实际意义：该方法为在资源受限（小批次、标注稀缺）或噪声数据环境下的跨模态检索提供了更鲁棒的解决方案，具有实际部署价值。其思想可推广至其他跨模态任务（如图文检索已验证）。主要局限性：特征级OT的计算复杂度随特征维度平方增长，虽在文中声称开销小，但在超高维嵌入或极大批次下可能成为瓶颈；理论分析基于一系列理想化假设，与实际情况可能有差距。 🏗️ 模型架构 DART是一个端到端的跨模态对齐框架，其核心在于联合优化两个损失：实例级损失（$\mathcal{L}{IOT}$）和特征级损失（$\mathcal{L}{UWD-R}$）。整体流程如下： ...

CustomDancer: Customized Dance Recommendation by Text-Dance Retrieval

📄 CustomDancer: Customized Dance Recommendation by Text-Dance Retrieval #音频检索 #音乐理解 #对比学习 #多模态模型 #数据集 ✅ 6.5/10 | 前50% | #音频检索 #音乐理解 | #对比学习 #多模态模型 | #音频检索 #音乐理解 | arxiv 学术质量 5.5/7 | 选题价值 1.0/2 | 复现加成 0.0 | 置信度中 👥 作者与机构第一作者：Yawen Qin（中南民族大学， South-Central Minzu University）通讯作者：未明确说明（根据作者列表，通讯作者可能是Qin Zhang或Ke Qiu，但论文中未明确标注）作者列表：Yawen Qin（中南民族大学）、Ke Qiu（未说明所属机构）、Qin Zhang（未说明所属机构） 💡 毒舌点评亮点是构建了首个针对文本-舞蹈检索的专用大规模数据集（TD-Data），并采用了严谨的专家标注流程，为后续研究奠定了重要基础。短板是主实验对比的基线过于简单（仅有两个通用的跨模态检索模型），未能与更相关的音频-文本或动作-文本检索方法进行比较，削弱了“State-of-the-Art”声称的说服力，且代码未开源。 🔗 开源详情代码：论文中未提及代码链接模型权重：论文中未提及数据集：论文中未提及数据集开源链接（论文介绍了自建的 TD-Data 数据集，但未提供任何可供下载的链接或开源仓库地址） Demo：论文中未提及复现材料：论文中未提及复现所需的具体代码仓库、训练脚本或检查点链接，但提供了详细的超参数和实现细节，可参考论文第4.8节。论文中引用的开源项目：论文引用了CLIP、Librosa、SMPL等工具，但未在正文中提供这些项目的具体GitHub或主页链接。补充信息 [细节详述] 补充：论文在实施细节（第4.8节）中明确了关键训练设置：文本编码器使用CLIP预训练权重初始化，其学习率设置得小于新初始化的MLP适配器以及音乐和运动编码器。此外，音乐和运动编码器是从零开始训练，因其输入分布与CLIP预训练数据差异大。论文未具体提及优化器类型、学习率数值、批次大小或训练硬件/时长。 [细节详述/实验结果] 补充：在主对比实验（表1）中，CustomDancer的Recall@1（10.23%）相较于最强基线XPool（9.46%）提升了0.77个百分点。用户研究（表4）具体说明为单盲研究，由10位参与者（包括业余舞者、编舞者和教师）进行。 [模型架构] 补充：文本编码器中的MLP适配器的作用是将CLIP嵌入投影到检索空间的维度 d（第4.3节）。 [创新点] 补充：论文在引言末尾明确总结了三点贡献，与分析中的核心创新点对应：1）为文本-舞蹈检索任务制定基准并引入TD-Data数据集；2）提出CustomDancer多模态框架；3）进行了广泛的实验、消融、用户研究和可视化分析。 [细节详述] 补充：TD-Data数据集的具体统计信息包括：由27位专业舞者表演，总时长14.6小时（第3.2节）。 [实验结果] 补充：论文在第5.2节强调，训练时采用单向（文本到舞蹈）的对齐作为主要目标，因为这符合用户交互场景。评估时使用整个测试集作为候选库进行排序，而非小子集，以模拟真实的大规模检索场景。 [核心摘要/模型架构] 补充：论文在摘要和引言中明确指出其核心任务定义与动机：现有方法（文本到动作生成、音乐到舞蹈、视频文本检索）存在不足，无法同时满足用户对音乐节奏和身体动态语义的自然语言检索需求，从而形成了本文的任务和方法。 [评分理由/毒舌点评] 补充：论文在摘要中明确声明“CustomDancer achieves state-of-the-art performance on TD-Data”，但其主实验对比的基线（仅两个通用的跨模态检索模型）的选择广度和领域相关性有限，这与该声明的说服力存在落差。 [核心摘要] 补充：论文在第5.6节详细讨论了三种失败案例：1）对高度专业化舞蹈术语的匹配不佳；2）当视觉运动与音乐情感冲突时的歧义；3）可能被表演者个人风格作为捷径所利用。这构成了其自我声明的局限性的一部分。 [核心摘要] 补充：论文在结论和未来工作部分提出，未来方向包括扩展TD-Data至多语言标注、更细粒度的编舞标签和交互式检索反馈，并探索将检索与生成耦合（先检索相关舞蹈，再适应新音乐/风格/表演者）。 [模型架构/评分理由] 补充：论文在第5.8节讨论中强调，文本-舞蹈检索不是文本-视频检索的更小变体，因为舞蹈中存在视觉相似但编舞含义不同的情况，反之亦然，这构成了独特的排名挑战。 [开源详情] 补充：论文在引用的开源项目（如CLIP、Librosa、SMPL）处也未提供具体的GitHub或主页链接（第2、4节）。 📌 核心摘要要解决什么问题：解决在线舞蹈内容爆炸式增长下的个性化发现难题，提出“文本-舞蹈检索”任务，即根据自然语言描述检索同时满足音乐节奏和身体动态语义的舞蹈片段。现有方法或忽视节奏，或缺乏自然语言接口。方法核心是什么：提出CustomDancer多模态检索框架。使用CLIP文本编码器处理查询，使用独立的Transformer编码器分别处理音乐（Librosa特征）和3D运动（SMPL参数）时序信息，然后通过一个同时包含加法和乘法交互的“音乐-运动混合模块”将二者融合为统一的舞蹈表征，最后通过对比学习对齐文本与舞蹈的嵌入空间。与已有方法相比新在哪里：1) 数据层面：构建并开放了首个大规模、高质量的文本-舞蹈检索数据集TD-Data，包含约4000个片段，由专家进行结构化标注并生成自然语言描述。2) 模型层面：专门针对舞蹈的音乐-运动同步特性设计了多模态融合架构，而非直接套用通用的视频-文本或音频-文本检索模型。主要实验结果如何：在自建TD-Data测试集上，CustomDancer的检索性能优于两个强基线（TABLE， XPool）。例如，在Recall@1上达到10.23%，比最强基线XPool（9.46%）高0.77个百分点。消融实验表明，Transformer优于RNN/LSTM，加法+乘法的融合策略优于单一策略。用户研究显示，其检索结果在文本-运动一致性（3.82）和文本-音乐相关性（3.68）上均优于基线。实际意义是什么：为舞蹈内容平台（如TikTok、B站舞蹈区）提供更精准的搜索和推荐技术，帮助用户、编舞者、学习者高效发现符合特定风格、节奏或动作描述的舞蹈内容，促进舞蹈文化的传播与学习。主要局限性是什么：1) 数据集：规模（约4k片段）和多样性（22种风格）对于通用舞蹈检索仍有限。2) 模型与对比：模型创新为有效整合而非突破；实验对比的基线与任务相关性不够强。3) 任务定义：未深入探讨用户查询的模糊性（如情绪描述 vs. 具体动作）和检索结果的多义性。4) 泛化性：依赖3D运动数据（SMPL），在真实2D视频场景中的应用需要额外转换。 🏗️ 模型架构 CustomDancer的整体架构如图3所示，是一个四模块的多模态对齐框架，旨在将文本查询与包含音乐和3D运动的舞蹈候选进行匹配。 ...

ICLR 2026 - 音频检索论文列表

ICLR 2026 - 音频检索共 4 篇论文 ← 返回 ICLR 2026 总览排名论文评分分档 🥇 WAVE: Learning Unified & Versatile Audio-Visual Embeddings w 8.0分前25% 🥈 Beyond Instance-Level Alignment: Dual-Level Optimal Transpor 7.5分前25% 🥉 OmniCVR: A Benchmark for Omni-Composed Video Retrieval with 7.0分前25% 4. SupCLAP: Controlling Optimization Trajectory Drift in Audio- 7.0分前25% 📋 论文详情 🥇 WAVE: Learning Unified & Versatile Audio-Visual Embeddings with Multimodal LLM 🔥 8.0/10 | 前25% | #音频检索 | #对比学习 | #多模态模型 #视频检索 ...

OmniCVR: A Benchmark for Omni-Composed Video Retrieval with Vision, Audio, and Text

📄 OmniCVR: A Benchmark for Omni-Composed Video Retrieval with Vision, Audio, and Text #音频检索 #多模态模型 #基准测试 #数据集 ✅ 7.0/10 | 前25% | #音频检索 | #多模态模型 | #基准测试 #数据集学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度高 👥 作者与机构第一作者：Junyang Ji（清华大学、南方科技大学、快手科技）通讯作者：Zhihai He（南方科技大学）、Wenming Yang（清华大学）作者列表：Junyang Ji（清华大学，南方科技大学，快手科技），Shengjun Zhang（快手科技），Da Li（快手科技，中国科学院大学），Yuxiao Luo（快手科技，北京大学），Yan Wang（快手科技），Di Xu（快手科技），Biao Yang（快手科技），Wei Yuan（快手科技，项目负责人），Fan Yang（快手科技，项目负责人），Zhihai He（南方科技大学，通讯作者），Wenming Yang（清华大学，通讯作者） 💡 毒舌点评亮点：论文一针见血地指出了当前多模态模型“视觉-文本”偏科、严重忽视音频信息的普遍问题，并通过一个高质量、大规模的诊断基准（OmniCVR）将其量化，这比提出一个改进模型更有价值。短板：提出的解决方案“AudioVLM2Vec”本质上是把音频先转录/描述成文本再喂给视觉语言模型，这种“音频-文本化”的工程化方案虽然有效，但显得不够优雅，且引入了额外的延迟和潜在信息损失，算不上是最根本的端到端解决方案。 🔗 开源详情代码：论文承诺将开源完整代码库，包括数据生成脚本、训练代码和评估协议。具体代码仓库链接在提供的论文全文中未直接显示，但提到数据将发布在HuggingFace（https://huggingface.co/datasets/Jun-Yang/OmniCVR），代码链接可能随发布同步公开。论文中未明确给出代码仓库的直接URL。模型权重：论文承诺将公开AudioVLM2Vec模型权重。未提及具体模型权重的发布链接。数据集：OmniCVR数据集（包括160K+片段、50K+三元组、5K测试集）将完全开源。获取方式为通过上述HuggingFace链接。 Demo：论文中未提及是否提供在线演示。复现材料：论文在附录（Appendix G）中提供了用于数据生成（如生成视频描述、修改指令）的完整提示词模板，以及详细的双重验证协议说明，这对于复现数据生成管线至关重要。然而，关于模型训练的具体细节（学习率、优化器、批次大小等）论文中未提及。论文中引用的开源项目/模型：论文明确使用了以下开源模型作为组件或基线： Qwen2.5-Omni：用于视频音频标注生成。 Gemini 2.5 Pro：用于数据验证。 Qwen2-Audio-7B-Instruct：用于AudioVLM2Vec中的音频描述生成。 Qwen2-VL：作为VLM2Vec和AudioVLM2Vec的视觉-语言骨干。 CLIP、BLIP、BLIP-2、ImageBind 等作为基线模型。 PySceneDetect：用于视频分割。所有使用的数据集（HowTo100M, MSR-VTT, VATEX, YouTube8M, YouCook2, VALOR）均为公开数据集。 📌 核心摘要本文旨在解决现有视频检索基准和模型普遍忽视音频模态的关键问题。论文提出了首个全模态组合视频检索基准OmniCVR，该基准将视觉、音频和文本视为同等重要的第一类模态。核心方法是构建了一个包含50,000个三元组（源视频、修改文本、目标视频）的大规模数据集，其中超过57%的查询需要同时修改视觉和音频（集成查询）。为此，作者设计了一个可扩展的自动化数据生成管线，并通过大模型与人类专家的双重验证确保数据质量。为验证基准，论文提出了AudioVLM2Vec模型，其核心创新是利用音频理解大模型（Qwen2-Audio）将音频转为细粒度描述文本，再与视觉信息一同输入VLM2Vec框架。主要实验结果表明，AudioVLM2Vec在OmniCVR基准上取得了最优性能，尤其是在音频中心查询上，相比基线VLM2Vec实现了巨大的性能提升（R@1从12.4提升到77.2）。这证明了显式注入音频语义对于跨模态检索的关键作用，并暴露了现有“全模态”模型在音频推理上的根本缺陷。该工作的实际意义在于为更真实的多模态视频理解设立了新标准，推动研究向听觉-视觉-语言融合迈进。主要局限性在于提出的“音频转文本”方案带来了额外的推理延迟（约1.77倍），且该方案可能无法完美捕捉音频的所有非语义信息（如音色、节奏等）。 ...

SupCLAP: Controlling Optimization Trajectory Drift in Audio-Text Contrastive Learning with Support Vector Regularization

📄 SupCLAP: Controlling Optimization Trajectory Drift in Audio-Text Contrastive Learning with Support Vector Regularization #对比学习 #音频检索 #多语言 #零样本 #预训练 ✅ 7.0/10 | 前25% | #音频检索 | #对比学习 | #多语言 #零样本学术质量 5.5/7 | 选题价值 1.0/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Jiehui Luo（中央音乐学院），Yuguo Yin（北京大学）（论文注明贡献相等）通讯作者：Yuguo Yin（北京大学）作者列表： Jiehui Luo（中央音乐学院） Yuguo Yin（北京大学） Yuxin Xie（北京大学） Jinghan Ru（北京大学） Xianwei Zhuang（北京大学） Minghua He（北京大学） Aofan Liu（北京大学） Zihan Xiong（电子科技大学） Dongchao Yang（香港中文大学） 💡 毒舌点评这篇论文的亮点在于将对比学习中的“力分解”具象化，并精准指出垂直分量是“双刃剑”，由此设计的SVR正则化方法理论自洽且实验增益稳定。短板则是其创新核心（一个可学习的正则化项）相对朴素，且论文未开源代码，使得这篇发表在顶会上的工作在社区传播和快速迭代上打了折扣。 🔗 开源详情代码：论文中未提及代码链接。模型权重：论文中未提及公开的预训练或微调后的模型权重。数据集：使用了公开的AudioCaps和Clotho数据集。多语言翻译版本的数据集未提及是否公开。 Demo：未提及。复现材料：论文提供了较为详细的实现细节（如编码器选择、优化器、学习率、批次大小、温度等），并在附录中补充了部分消融实验和统计显著性分析。论文中引用的开源项目：CED-Base（音频编码器）， SONAR-TE（文本编码器）， Deepseek V3（用于翻译和回译分析）。 📌 核心摘要本文针对音频-文本对比学习（CLAP）中标准InfoNCE损失存在的优化轨迹漂移问题展开研究。作者发现，来自负样本的推力可分解为与拉力方向平行和垂直的分量；其垂直分量虽包含丰富信息，但其不受控的特性会导致优化路径发生侧向偏移，影响训练稳定性和最终对齐质量。 ...

WAVE: Learning Unified & Versatile Audio-Visual Embeddings with Multimodal LLM

📄 WAVE: Learning Unified & Versatile Audio-Visual Embeddings with Multimodal LLM #多模态模型 #对比学习 #音频检索 #视频检索 #多任务学习 🔥 8.0/10 | 前25% | #音频检索 | #对比学习 | #多模态模型 #视频检索学术质量 7.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Changli Tang (清华大学) 通讯作者：Chao Zhang (清华大学) 作者列表：Changli Tang (清华大学), Qinfan Xiao (清华大学), Ke Mei (腾讯微信视觉), Tianyi Wang (腾讯微信视觉), Fengyun Rao (腾讯微信视觉), Chao Zhang (清华大学) 💡 毒舌点评这篇论文最大的亮点在于“敢为人先”，首次将文本、音频、视频统一到同一个LLM嵌入空间，打破了传统双编码器的限制，其联合训练策略带来的跨模态性能提升也令人印象深刻。然而，其创新性更多体现在对现有技术（LLM backbone，分层融合，多任务训练）的精巧集成与验证，而非提出颠覆性的新概念，因此对于追求“首个”或“全新范式”的读者而言可能略显不足。 🔗 开源详情代码：论文中提到代码和检查点将在 https://github.com/TCL606/WAVE 发布。但当前论文PDF中未提供该链接。模型权重：论文承诺将发布模型检查点（checkpoints）。数据集：论文使用了多个公开数据集（如Panda-70M, MSR-VTT, AudioCaps等），但未提及发布新的数据集。 Demo：论文中未提及在线演示。复现材料：论文在Section 3.1, 3.2, 4.1, 4.2中详细描述了模型架构、训练流程、训练数据和超参数，提供了足够的复现信息。论文中引用的开源项目：基础模型：Qwen2.5-Omni (Xu et al., 2025) 音频编码器：BEATs (Chen et al., 2022b) 训练数据：WavCaps, AudioCaps, Clotho, Panda-70M等。其他工具/模型：LoRA (Hu et al., 2022), InternVL-2.5-8B (Chen et al., 2024c) 用于重新标注。 📌 核心摘要要解决的问题：现有的多模态嵌入模型多基于独立编码器，缺乏一个能同时处理文本、音频、视频，并将它们统一到同一语义空间的通用模型。这对于需要动态模态（如音视频）深度理解的跨模态检索和生成任务是一个瓶颈。方法核心：提出了WAVE，一个基于Qwen2.5-Omni多模态大语言模型的统一音视频嵌入模型。其核心设计包括：1) 双音频编码器（语音+音频事件）全面捕获音频信息；2) 一种分层特征融合策略，聚合LLM多层隐藏状态以获得更鲁棒的表示；3) 联合多模态多任务训练策略，同时优化检索与问答任务。与已有方法相比新在哪里：WAVE是首个能够为文本、静音视频、音频以及同步音视频输入生成统一嵌入的LLM-based模型。与现有双编码器模型（如CLIP系列）或专注图像的LLM嵌入模型（如VLM2Vec）不同，WAVE真正实现了对动态音视频模态的统一建模，并具备生成提示感知（prompt-aware）嵌入的能力。主要实验结果：视频理解：在MMEB-v2视频基准整体得分59.9%，全面超越LamRA、GME等开源模型，甚至优于工业级模型Seed-1.6-Embedding（55.3%）。音频/音视频检索：在AudioCaps（文本到音频R@1: 44.2%）、Clotho（25.6%）、VGGSound（视频到音频R@1: 25.0%）等任务上达到SOTA。提示感知能力：在视频问答任务中，使用单独问题作为提示时平均准确率达72.5%，远超使用通用提示（51.8%），显著优于其他嵌入模型。消融实验：联合训练优于分别训练（7/8任务上提升）；分层特征融合（All-layer MLP）优于单层池化（如在MSR-VTT上，视频检索R@1从54.7%提升至56.1%）。主要实验结果见下表：任务类别基准指标 WAVE 7B 最强基线/参考模型参考值视频嵌入 MMEB-v2-Video Overall Acc% 59.9 Seed-1.6-Embedding 55.3 MMEB-v2-Video RET R@1 72.5 Seed-1.6-Embedding 60.9 LoVR (theme-to-clip) R@25 66.0 LamRA 7B 60.2 音频检索 AudioCaps R@1 44.2 Reference Model 42.2 Clotho R@1 25.6 Reference Model 21.5 音视频检索 VGGSound R@1 25.0 encoder-only 10.3 音频问答 MMAU Acc% 76.6 Qwen2.5-Omni 7B 71.5 视频问答 MMEB-v2-Video QA (w/ questions) Acc% 72.5 Seed-1.6-Embedding 60.9 实际意义：WAVE提供了一个强大的基线模型，使得在单一模型中处理任意模态组合的检索、分类和问答成为可能，极大地推动了跨模态应用（如通用多模态搜索、内容理解）的发展。主要局限性：论文未详细讨论模型在面对更复杂、更长或噪声更大的真实世界音视频场景下的鲁棒性。此外，其统一的嵌入空间是否能无缝支持所有下游生成任务（如图像生成）也未验证。 🏗️ 模型架构 WAVE的整体架构如图1所示，其核心是将多种模态的输入通过各自编码器转换为LLM可处理的token序列，再由LLM统一处理并生成统一的嵌入。 ...