Quality Audio Prototyping: a prototype system for unified sound retrieval and procedural generation

📄 Quality Audio Prototyping: a prototype system for unified sound retrieval and procedural generation #音频检索 6.9/10 | 创新 1.3/2 | 严谨 1.1/1.5 | 实验 1/1.5 | 清晰 1/1 | 影响 0.8/1.5 | 开源 0.2/1.5 | 复现 0.3/0.5 | 工程 1.2/1.5 ✅ 6.9/10 | 前50% | #音频检索 | #音频检索 | arxiv 👥 作者与机构 论文中未明确提及作者具体姓名及所属机构。 💡 毒舌点评 这篇论文好比在厨房里把现有的搅拌机、烤箱和菜谱App用一根网线连接起来,然后宣称解决了烹饪的所有痛点。系统集成做得扎实,但每个组件都非自研,创新主要体现在“把它们放在一起”这个动作上。MUSHRA评分普遍不高(最佳优化仅40-52分),用户评估样本小(16人)且方式不一,这让“实用性”的结论打了折扣。它像一篇优秀的工程项目报告,但距离NeurIPS/ICML/ICLR所期待的算法或理论创新还有显著距离。 📌 核心摘要 本文针对声音设计工作流中检索与程序化生成工具割裂的问题,提出了名为QuAP的原型系统。该系统集成了基于MobileNetV3的内容检索引擎、六个经优化的嵌入式程序化音频模型(物理/模态/减法合成),以及一个基于规则(非LLM)的感知参数引导助手。核心创新在于将检索与生成统一于一个迭代式的、以创作者为中心的界面中,旨在减少从叙事概念到声音实现的“程序距离”。评估包括三部分:1)MUSHRA主观测试显示六个模型中五个经特征驱动优化后质量显著提升;2)消融研究表明MobileNetV3在FSD50K数据集上的检索性能优于ResNet18-IBN基线;3)对16名从业者的小规模用户评估确认了工具的工作流效用,所有参与者认为参数助手降低了交互门槛并保留了创作自主权。 🔗 开源详情 代码:论文中未提及代码仓库链接(如GitHub)。 模型权重:论文中未提及模型权重的具体下载链接。 数据集: FSD50K:用于嵌入模型的微调和评估。论文中未提供特定链接,但该数据集为公开数据集。 6KSFX:用于程序化音频模型的特征优化。论文中未提供特定链接。 AudioSet:用于预训练音频嵌入模型。论文中未提供特定链接,但该数据集为公开数据集。 Demo:在线演示链接:论文中未提及。 复现材料: 项目网站:https://saop-project.netlify.app (提供优化细节)。 视频教程:https://quap.netlify.app (用户评估中提及)。 论文中提及一项相关研究正在审稿中 [25],但未提供具体链接。 论文中引用的开源项目: JUCE:用于开发QuAP原型系统。链接:https://juce.com FAISS:用于高效向量检索。链接:论文中引用了文献 [4],未提供直接URL。 Essentia:用于提取低级音频特征。链接:论文中引用了文献 [22],未提供直接URL。 Nemisindo:用于提供嵌入的程序化音频合成引擎。链接:https://nemisindo.com Splice:商业工具参考。链接:https://splice.com Krotos:商业工具参考。链接:https://krotos.com ElevenLabs:商业工具参考。链接:https://elevenlabs.com iZotope:商业工具参考。链接:https://www.izotope.com 🏗️ 方法概述和架构 QuAP系统旨在将声音检索与程序化生成统一于单一环境,其架构分为离线与在线两个主要阶段,并包含四个核心组件。如图1所示,系统架构清晰地展示了数据流与交互。 ...

2026-06-02 · 更新于 2026-06-12 · 1 min · 210 words

OmniRetriever: Any-to-Any Audio-Video-Text Retrieval via Fusion-as-Teacher Distillation

📄 OmniRetriever: Any-to-Any Audio-Video-Text Retrieval via Fusion-as-Teacher Distillation #音频检索 #对比学习 #知识蒸馏 #参数高效微调 🔥 9.2/10 | 前25% | #音频检索 | #对比学习 | #知识蒸馏 #参数高效微调 | arxiv 学术质量 6.1/7 | 影响力 1.5/2 | 可复现性 1.6/2 | 置信度 高 👥 作者与机构 作者: Yunze Liu, Chi-Hao Wu, Enmin Zhou, Junxiao Shen 机构: Memories.ai Research 💡 毒舌点评 优点:论文精准地指出了一个实际存在但被忽视的问题——统一AVT编码器的联合嵌入\(z_{TVA}\)在训练中未被监督。提出的“融合即教师蒸馏”方法简洁、直观且有效,尤其是\(\mathcal{L}_D\)损失贡献巨大。构建的OmniRetriever-Bench基准填补了评估多模态查询方向的关键空白,对社区有明确贡献。实验设计周密,包括了跨骨干验证、损失权重敏感性分析等,增强了结论的说服力。 缺点:论文在视频-文本任务上并未达到顶尖水平,其主要优势局限于音频相关的检索方向。方法的核心创新在于损失函数的设计,架构上是基于现有骨干(WAVE-7B)的适配器微调,新颖性更多体现在训练范式而非网络结构。提出的新基准测试(OmniRetriever-Bench)仅提供标识符和字幕,未公开媒体文件,限制了其广泛使用和独立验证。部分技术细节,如模态轮换硬负例的具体实现逻辑,描述可进一步清晰化。此外,虽然方法通用,但对语音/音乐领域的直接贡献(如理解语音内容、音乐情感)有限,其影响力更偏向于通用的多模态表示学习。 📌 核心摘要 本文针对现有统一音频-视频-文本(AVT)编码器训练中联合嵌入\(z_{TVA}\)未被监督的关键缺陷,提出了“融合即教师蒸馏”(Fusion-as-Teacher Distillation)训练范式。该方法利用模型自身前向传播产生的、经停止梯度处理的联合嵌入\(z_{TVA}\)作为教师信号,通过InfoNCE损失() \mathcal{L}_D \()指导单模态嵌入(\(z_T, z_V, z_A\))的学习。同时,引入Tuple-InfoNCE损失() \mathcal{L}_T \()配合模态轮换的硬负例,直接监督联合嵌入\(z_{TVA}\),防止其退化。该方法在开源WAVE-7B骨干上实例化为OmniRetriever-7B模型。在六个零样本检索基准测试中,OmniRetriever-7B在Clotho和SoundDescs音频-文本检索任务上显著超越闭源Gemini Embedding 2(R@1提升13.3-18.0),并接近专门音频-文本检索模型(CLAP家族)水平。论文同时发布了首个覆盖全部12个音频-视频-文本检索方向的评估基准OmniRetriever-Bench,并在该基准上取得了SOTA结果。 🔗 开源详情 代码:论文摘要和结论声明将发布代码,但未提供具体链接。 模型权重:论文摘要和结论声明将发布模型权重,但未提供具体链接(如HuggingFace, ModelScope)。 数据集: 训练数据集:论文提及训练数据由以下公开数据集采样构成,且不重新分发训练子集: InternVid (链接) InternVid-FLT (链接) Panda-70M (项目页面) PVD (链接) 另有一小部分内部收集数据。 评估基准:论文发布OmniRetriever-Bench,包含3,782个经人工校对的三元组。发布时将提供评估流程、字幕文本、源视频标识符和片段区间,但不重新分发底层媒体文件。 复现材料:论文在附录中提供了极其详尽的复现信息,包括但不限于: 附录A & B:骨干架构、LoRA配置、所有训练超参数。 附录C:端到端推理延迟。 附录D:损失权重敏感性分析。 附录E:训练语料描述与统计。 附录F & H:OmniRetriever-Bench构建方法、许可证与统计。 附录G:后处理压缩分析。 附录I:外部基准完整结果。 附录J:OmniRetriever-Bench方向消融分析。 附录L:Omni-Embed-Nemotron-3B跨骨干验证。 附录M:字幕改写鲁棒性分析。 附录N:\(\mathcal{L}_T\)种子稳定性分析。 论文中引用的关键开源项目:CLIP, ImageBind, LanguageBind, WAVE, Omni-Embed-Nemotron, SigLIP/SigLIP-2, Whisper, BEATs, CLAP (多种), InternVideo2, LoRA, DeepSpeed。 🏗️ 方法概述和架构 OmniRetriever的核心是一个统一的AVT嵌入器\(f_\theta\),它能够分别处理文本(T)、视频(V)、音频(A)单模态输入,生成对应嵌入\(z_T, z_V, z_A\),并能同时处理三元组输入,生成联合嵌入\(z_{TVA}\)。其训练目标由三个损失函数构成: ...

2026-05-28 · 更新于 2026-06-12 · 2 min · 296 words

MERIT: Learning Disentangled Music Representations for Audio Similarity

📄 MERIT: Learning Disentangled Music Representations for Audio Similarity #音频检索 #对比学习 #数据增强 #自监督学习 🔥 9/10 | 前25% | #音频检索 | #对比学习 | #数据增强 #自监督学习 | arxiv 学术质量 5.7/7 | 影响力 1.5/2 | 可复现性 1.8/2 | 置信度 高 👥 作者与机构 Abhinaba Roy, Junyi Liang, Dorien Herremans. 新加坡科技设计大学 (Singapore University of Technology and Design), 香港中文大学(深圳) (The Chinese University of Hong Kong, Shenzhen)。 💡 毒舌点评 这篇论文提出了一个解决音乐表示学习中因子纠缠问题的清晰框架。其核心思想(利用生成模型构建因子控制数据)新颖且技术上是可行的,实验结果也令人信服,特别是零样本探测部分。然而,它并非没有明显的弱点。论文对自身核心创新点(生成数据管道)的质量控制和潜在偏差分析不足,这本应是审稿人最关注的一点。对“音色”这一关键概念的定义过于粗糙,用乐器类别标签来近似,这严重限制了其声称的“解耦”在更细粒度上的意义。此外,相关工作部分未能充分定位其与更广泛解耦表示学习领域的联系,使其贡献显得有些孤立。整体而言,这是一篇扎实但有明确短板的工作,距离顶会完美论文尚有差距。 📌 核心摘要 MERIT 是一个用于学习音乐表示的解耦框架,旨在将旋律、节奏和音色这三个核心维度分离为独立的、可查询的相似性空间。它在冻结的预训练 MERT 模型之上,训练三个独立的轻量级投影头。关键挑战在于获取单因子变化的训练数据,论文通过一种新颖的数据构造策略解决了这一问题:利用 JASCO 条件生成模型构造旋律和节奏的正样本,利用源分离数据构造音色的正样本。在内部因子控制测试集上,每个投影头在其目标因子上达到接近 100% 的三元组准确率,并对其他因子表现出低敏感性。在三个独立的真实世界数据集(MUSDB18-HQ, Ballroom, Covers80)的零样本探测中,相应的专用投影头表现最佳或接近最佳,证明了因子特异性在合成分布之外也能有效泛化。 ...

2026-05-27 · 更新于 2026-06-12 · 2 min · 410 words

Audio-Image Cross-Modal Retrieval with Onomatopoeic Images

📄 Audio-Image Cross-Modal Retrieval with Onomatopoeic Images #音频检索 #迁移学习 #跨模态 #多模态模型 #数据集 ✅ 7/10 | 前50% | #音频检索 | #迁移学习 | #跨模态 #多模态模型 | arxiv 学术质量 5.8/8 | 影响力 0.6/1 | 可复现性 0.6/1 | 置信度 高 👥 作者与机构 第一作者:Keisuke Imoto(Kyoto University, Japan) 通讯作者:未说明 作者列表:Keisuke Imoto(Kyoto University, Japan)、Yamato Kojima(Doshisha University, Japan)、Takao Tsuchiya(Doshisha University, Japan) 💡 毒舌点评 本文的亮点在于首次定义了“拟声图像-声音检索”这一具体且有趣的小众问题,并构建了首个专用数据集MIAO,填补了该交叉领域的空白。然而,其技术贡献主要是在成熟的CLIP和CLAP之上“堆叠”了一个两层MLP投影头,方法的原创性和技术深度较为有限,更像是一个针对特定数据集的适配实验而非一个具有普遍启发性的方法论突破。审稿人可能会质疑,在缺乏更强大的基线对比和充分消融实验的情况下,该工作的说服力和对社区的贡献有限。 📌 核心摘要 这篇论文旨在解决多媒体创作(如漫画)中,创作者希望根据画面中拟声词的视觉表现(拟声图像)来检索匹配的声音,或根据声音检索合适拟声图像的实际需求。目前,拟声图像与声音之间的跨模态检索尚未被研究。论文提出了一种双向检索框架,其核心方法是在冻结的预训练CLIP图像编码器和CLAP音频编码器之上,为每个模态分别训练一个轻量的两层MLP投影头,将它们的特征重新对齐到一个共享的嵌入空间,而非直接比较原始嵌入。与直接使用预训练CLIP和CLAP嵌入的零样本基线相比,该方法在双向检索任务上取得了显著的性能提升。论文还构建了包含50个声音事件类别、850个配对样本的首个多模态拟声图像-音频数据集(MIAO)。主要实验结果表明,所提方法在图像到音频检索(I2A)上的mAP从基线的6.77%提升至61.45%,在音频到图像检索(A2I)上从7.82%提升至61.08%。这项工作的实际意义在于为多媒体创作提供了自动化的跨模态检索工具雏形。主要局限性在于所提方法相对简单,且数据集中拟声图像的视觉多样性(因插画师风格不同)是导致检索错误的主要原因,论文未提出更鲁棒的表征方法来应对此问题。 方法 任务 mAP (%) R@1 (%) R@5 (%) MRR 零样本基线 I2A 6.77 ± 0.00 2.00 ± 0.00 9.00 ± 0.00 0.076 ± 0.00 零样本基线 A2I 7.82 ± 0.00 6.00 ± 0.00 10.00 ± 0.00 0.116 ± 0.00 提出方法 I2A 61.45 ± 1.71 53.60 ± 2.41 68.90 ± 2.69 0.60 ± 0.02 提出方法 A2I 61.08 ± 1.84 64.60 ± 3.37 88.20 ± 2.66 0.75 ± 0.03 表1:零样本基线与提出方法在MIAO测试集上的双向检索性能对比 🔗 开源详情 代码:论文中未提及代码链接。 模型权重:论文中未提及模型权重链接。 数据集:Multimodal Image-Audio Onomatopoeia dataset (MIAO)。获取链接:https://huggingface.co/datasets/KeisukeImoto/MIAO。 Demo:论文中未提及。 复现材料:论文中提及了训练配置(超参数等),但未提供检查点或附录等详细复现材料。 论文中引用的开源项目: CLIP (Contrastive Language–Image Pre-training): https://github.com/openai/CLIP CLAP (Contrastive Language-Audio Pre-training): https://github.com/LAION-AI/CLAP AudioCLIP: https://github.com/shikkunchoi/AudioCLIP Wav2CLIP: https://github.com/seungheondoh/wav2clip ImageBind: https://github.com/facebookresearch/ImageBind FSD50K: https://zenodo.org/record/4060432 HTS-AT: 论文将其作为CLAP音频编码器的骨干网络引用,但未直接提供其独立开源链接。 🏗️ 方法概述和架构 ...

2026-05-19 · 更新于 2026-06-12 · 3 min · 508 words

FLARE: Full-Modality Long-Video Audiovisual Retrieval Benchmark with User-Simulated Queries

📄 FLARE: Full-Modality Long-Video Audiovisual Retrieval Benchmark with User-Simulated Queries #音频检索 #基准测试 #数据集 #音视频 #跨模态 ✅ 6.0/10 | 前25% | #音频检索 | #数据集 | #基准测试 #音视频 | arxiv 学术质量 6.0/8 | 影响力 1.5/2 | 可复现性 0.8/1 | 置信度 高 👥 作者与机构 第一作者:Qijie You(北京科技大学 University of Science and Technology Beijing) 通讯作者:Wentao Zhang(北京大学 Peking University、中关村学院 Zhongguancun Academy) 作者列表:Qijie You(北京科技大学)、Hao Liang(北京大学、中关村学院,同等贡献)、Mingrui Chen(中国科学院自动化研究所 Institute of Automation, Chinese Academy of Sciences)、Bohan Zeng(北京大学)、Meiyi Qiang(北京大学)、Zhenhao Wong(北京大学)、Wentao Zhang(北京大学、中关村学院,项目负责人,通讯作者) 💡 毒舌点评 这篇论文的亮点在于它精准地抓住了现有视频检索基准的“阿喀琉斯之踵”——过于依赖信息密集的字幕和短片段,完全无法模拟真实用户模糊、不完整、强依赖多模态线索的搜索意图;其提出的“硬双模态约束”过滤机制是一个非常聪明的设计,确保了跨模态查询不是简单的拼接。然而,其短板也明显:整个基准完全建立在 Qwen 系列等商用/闭源模型的自动生成和筛选之上,这虽保证了规模,却也引入了模型特有的偏见,且自动化流水线的“黑箱”特性使得最终数据集的“用户模拟”真实性存疑,更像是一场大规模的模型行为模拟而非真实人类查询的反映。 ...

2026-05-12 · 更新于 2026-06-12 · 4 min · 708 words

ReasonAudio: A Benchmark for Evaluating Reasoning Beyond Matching in Text-Audio Retrieval

📄 ReasonAudio: A Benchmark for Evaluating Reasoning Beyond Matching in Text-Audio Retrieval #音频检索 #基准测试 #多模态模型 #对比学习 #模型评估 ✅ 7.5/10 | 前25% | #音频检索 | #对比学习 | #基准测试 #多模态模型 | arxiv 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Honglei Zhang (南京大学软件学院) 通讯作者:未说明(论文未明确指定) 作者列表: Honglei Zhang (南京大学软件学院) Yuting Chen (西北工业大学软件学院) Chenpeng Hu (西北工业大学软件学院) Siyue Zhang (南洋理工大学计算与数据科学学院) Yilei Shi (西北工业大学软件学院) 💡 毒舌点评 本文最大的价值在于“撕开了一道口子”:用精心设计的合成基准,无情地揭示了当前多模态检索模型(即便是基于强大MLLM的)在“否定”、“时长”等基础推理任务上脆弱得可笑,最高平均准确率仅20.1%,这为后续研究划出了明确的“能力短板”地图。但硬伤也很明显:全靠合成数据得出的结论,多少有点“温室里的比武”,模型在真实世界嘈杂、语义模糊的查询中表现如何,这篇论文其实并没有给出答案。 🔗 开源详情 代码:论文中未提及代码链接。 模型权重:论文中未提及模型权重获取链接。 数据集:ReasonAudio。论文中在摘要部分的脚注提到“The dataset is available on HuggingFace”,但未提供具体URL。 Demo:论文中未提及在线演示链接。 复现材料:论文中未提及训练配置、检查点等复现材料。 论文中引用的开源项目: FSD50K (Fonseca et al., 2022):https://zenodo.org/record/4060432 Freesound (Jiang et al., 2025):https://freesound.org/ AudioCaps (Kim et al., 2019):https://www.kaggle.com/datasets/costacr/audio-caps Clotho (Drossos et al., 2020):https://zenodo.org/record/4783391 WavText5K (Deshmukh et al., 2022):https://github.com/Declare-lab/WavText5K SoundDescs (Koepke et al., 2023):https://zenodo.org/record/6990313 AudioSet (Sun et al., 2025):https://research.google.com/audioset/ SVQ (MSEB) (Google Research, 2025):https://github.com/google-research/google-research/tree/master/mseb Spoken SQuAD (Lee et al., 2018):https://github.com/raoyongming/Spoken-SQuAD Qwen2-Audio (Chu et al., 2024):https://github.com/QwenLM/Qwen2-Audio Step-Audio (Huang et al., 2025):https://github.com/step-function-ai/Step-Audio BGE-M3 (Chen et al., 2024):https://github.com/FlagOpen/FlagEmbedding Qwen3-Embedding (Zhang et al., 2025c):https://github.com/QwenLM/Qwen3-Embedding CLAP (Elizalde et al., 2023):https://github.com/LAION-AI/CLAP AudioCLIP (Guzhov et al., 2022):https://github.com/AndreyGuzhov/AudioCLIP Wav2CLIP (Wu et al., 2022):https://github.com/keunwoochoi/Wav2CLIP LCO-Embedding (Xiao et al., 2025):https://github.com/LCO-AI/LCO-Embedding e5-omni (Chen et al., 2026):https://github.com/microsoft/unilm/tree/master/e5-omni OmniEmbed (Xu et al., 2025):https://github.com/XuLab-Connect/OmniEmbed CLIP (Radford et al., 2021):https://github.com/openai/CLIP 补充信息 [模型架构] 补充:对于“基于MLLM的嵌入模型”这一范式,论文原文更具体地指出其设计动机和核心是“leverage pretrained multimodal large language models (MLLMs) to learn unified representations across modalities”(利用预训练的多模态大语言模型来学习跨模态的统一表示)。这明确了其架构创新点在于直接基于强大的多模态生成模型进行微调以获取检索嵌入,而非从头训练或使用纯编码器架构。 [实验结果] 补充:论文在第5节的分析中,对多选题测试和t-SNE可视化的结果有更深入和具体的解读。 关于多选题测试(图2),论文指出OmniEmbed-7B在Duration任务上的准确率(50.8%)是“marginally above random chance”(略高于随机水平),而在Negation任务上的准确率(27.5%)则“indicating a failure to capture negation semantics and a bias toward matching mentioned sounds”(表明未能捕捉否定语义,并存在匹配查询中提及声音的偏见)。这比“接近随机”和“低于随机”的概括更具体地揭示了模型的问题本质。 关于t-SNE可视化(图3),论文结论更明确地指出,嵌入空间的错位(misalignment)直接导致了“failing to encode logical constraints—particularly negation—into the shared embedding space”(未能将逻辑约束——尤其是否定——编码到共享嵌入空间)。这直接解释了模型在否定任务上表现低于随机水平的原因。 [核心摘要/毒舌点评] 补充:论文在摘要和结论中均强调了一个关键发现:所提出的五个推理任务“pose significant challenges to current models”(对当前模型构成重大挑战)。这不仅是实验结果,也是论文的核心诊断结论,明确了其作为“压力测试”基准的价值。 📌 核心摘要 要解决什么问题:现有的文本-音频检索基准(如AudioCaps, Clotho)主要关注语义匹配,忽视了现实世界查询中常见的复杂逻辑推理需求(如否定、时序、并发、时长)。这导致当前检索模型的能力评估不全面。 方法核心是什么:提出了首个推理密集型文本-音频检索基准ReasonAudio。通过从FSD50K和Freesound收集200种原子声音,程序化合成为10,000个具有精确时间关系的复合音频片段,并基于模板生成了1,000个涵盖五个推理任务(否定、排序、重叠、时长、混合)的文本查询。 与已有方法相比新在哪里:不同于以往侧重于音频-文本描述对的检索数据集,ReasonAudio专注于评估模型对查询中逻辑和时间约束的理解与执行能力,是音频检索领域的首个推理专用基准。 主要实验结果如何:在ReasonAudio上评测了三大范式十个模型,发现所有模型都表现不佳。两个阶段和CLIP式模型平均准确率低于10%。基于MLLM的嵌入模型表现最好,但最佳模型(OmniEmbed-7B)的平均准确率也仅为20.1%。具体而言,模型在“重叠”和“排序”任务上相对较好,但在“否定”和“时长”任务上严重失败,准确率极低。模型即使在只评估推理能力的多选题设置中,“否定”任务准确率也低于随机水平(27.5%)。 实际意义是什么:本工作为社区提供了一个用于诊断和推进音频检索模型推理能力的标准化评测工具。实验结果明确指出了当前模型,特别是通过对比学习微调的MLLM,无法有效保留其骨干网络的推理能力,为未来的模型训练范式(如如何更好地对齐与约束嵌入空间)指明了改进方向。 主要局限性是什么:基准完全基于合成音频构建,缺乏真实录音环境的声学复杂性和语义模糊性。评估的查询规模(1000条)虽满足实验需求,但与工业应用规模仍有差距。论文未提出新的模型方法,主要贡献在于诊断与评测。 🏗️ 模型架构 本文是一篇基准测试与模型评估论文,并未提出一个新的检索模型架构。其核心“架构”是所提出的ReasonAudio基准的构建流程以及对现有模型范式的评测框架。 ...

2026-05-06 · 更新于 2026-06-12 · 3 min · 429 words

Multi-Axis Speech Similarity via Factor-Partitioned Embeddings

📄 Multi-Axis Speech Similarity via Factor-Partitioned Embeddings #音频检索 #多任务学习 #对比学习 #说话人识别 ✅ 6.0/10 | 前50% | #音频检索 | #多任务学习 | #对比学习 #说话人识别 | arxiv 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 -1 | 置信度 中 👥 作者与机构 第一作者:Jim O‘Regan(KTH Royal Institute of Technology, Department of Speech, Music & Hearing) 通讯作者:未说明(论文中仅列出两位作者的邮箱,未明确标注通讯作者) 作者列表:Jim O’Regan(KTH Royal Institute of Technology, Department of Speech, Music & Hearing)、Jens Edlund(KTH Royal Institute of Technology, Department of Speech, Music & Hearing) 💡 毒舌点评 亮点:概念非常新颖,首次提出用带符号的加权组合在语音嵌入的多个子空间中实现可控检索(如用负权重“讨厌”某个说话人),并通过精心设计的“偏好翻转”实验证实了这一机制的可行性。短板:最引人深思的发现——语义投影头在没有说话人监督时会完全“摆烂”——恰恰揭示了该方法目前最大的脆弱性,它更像是一个对训练技巧敏感的“特例”,而非一个稳健的通用框架,且极小的实验规模和完全缺失的开源信息让说服力大打折扣。 ...

2026-05-05 · 更新于 2026-06-12 · 2 min · 405 words

Beyond Instance-Level Alignment: Dual-Level Optimal Transport for Audio-Text Retrieval

📄 Beyond Instance-Level Alignment: Dual-Level Optimal Transport for Audio-Text Retrieval #音频检索 #最优传输 #对比学习 #跨模态 #鲁棒性 ✅ 7.5/10 | 前25% | #音频检索 | #最优传输 | #对比学习 #跨模态 学术质量 6.5/7 | 选题价值 1.0/2 | 复现加成 0.0 | 置信度 高 👥 作者与机构 第一作者:Wenqi Guo(上海交通大学) 通讯作者:Shikui Tu(上海交通大学),Lei Xu(上海交通大学,广东省人工智能与数字经济实验室(深圳)) 作者列表:Wenqi Guo(上海交通大学)、Shikui Tu(上海交通大学)、Lei Xu(上海交通大学,广东省人工智能与数字经济实验室(深圳)) 💡 毒舌点评 亮点:论文从“特征通道可靠性”这一细粒度视角切入,用最优传输的语言重新定义了跨模态对齐问题,理论推导(集中界分析)为小批次下的不稳定性提供了有说服力的解释,这比单纯堆砌模块更显功力。短板:虽然实验全面,但核心创新(双层对齐+可靠性边际)的物理直觉略显复杂,且声称“特征级OT计算开销可忽略”这一论断,在真实部署场景(如视频检索、超长音频)下的泛化能力值得商榷。 🔗 开源详情 代码:论文中未提及代码链接。附录A提供了伪代码,但未指明完整实现代码的发布渠道。 模型权重:未提及。 数据集:使用了公开的AudioCaps、Clotho、ESC-50数据集,但论文中未提供获取链接或特殊处理说明。 Demo:未提及。 复现材料:论文附录提供了极其详细的超参数设置(表6)、训练算法伪代码、理论证明、数据集统计、评估指标定义等,复现所需的信息非常充分。 论文中引用的开源项目:未明确列出。提到了使用预训练的编码器(如ResNet38, BERT, Beats等),但未指定具体版本或来源。 总体评估:论文具备高质量的复现指南,但缺少最直接的开源代码和权重链接,对快速复现构成障碍。论文中未提及明确的开源计划。 📌 核心摘要 问题:现有的跨模态检索方法(如对比学习、逆最优传输IOT)主要进行实例级对齐,隐含假设所有嵌入维度同等重要。在小批次训练中,这种假设会放大噪声和偏差,导致对齐信号不稳定。 方法核心:提出DART(双层对齐鲁棒传输)框架。它在实例级保留IOT目标以对齐样本对,同时引入特征级正则化。该正则化将每个特征维度视为一个分布,并使用非平衡Wasserstein距离(UWD) 来对齐音频和文本的特征分布。此外,设计了可靠性感知边际(RAM),基于方差、峰度和跨模态相关性动态加权特征通道,抑制噪声通道。 与已有方法相比新在哪里:1)超越单一的实例级对齐,增加特征级分布对齐,提供细粒度的正则化。2)RAM能自适应地识别并强调跨模态一致且稳定的语义通道。3)提供了理论分析,证明实例级损失受最大距离控制,而特征级损失受传输计划的Frobenius范数控制,后者在小批次下更鲁棒。 主要实验结果:在AudioCaps和Clotho两个主要基准上,DART在多个编码器设置下均达到或超越SOTA。例如,在AudioCaps(ResNet38+BERT)上,相比最强基线Luong et al. (2024),文本到音频检索R@1提升1.1个百分点,音频到文本提升4.5个百分点。在模拟小批次(k=8, 32)和噪声/半监督标签(20%,40%)的严苛条件下,DART展现出显著更强的鲁棒性。详见下表。 条件 方法 文本->音频 (R@1) 音频->文本 (R@1) 标准设置 (Batch=256, AuC) Luong et al. (2024) 39.10 49.94 DART w/ RAM 41.67 55.27 小批次 (Batch=8, AuC) Luong et al. (2024) 20.44 32.91 DART (LIOT+LUWD) 24.24 35.21 40%噪声标签 (Batch=32, AuC) Luong et al. (2024) 26.20 34.37 DART 29.67 37.09 零样本声音事件检测 (ESC-50) IOT (Luong et al.) - 79.25 (R@1) DART - 80.75 (R@1) 实际意义:该方法为在资源受限(小批次、标注稀缺)或噪声数据环境下的跨模态检索提供了更鲁棒的解决方案,具有实际部署价值。其思想可推广至其他跨模态任务(如图文检索已验证)。 主要局限性:特征级OT的计算复杂度随特征维度平方增长,虽在文中声称开销小,但在超高维嵌入或极大批次下可能成为瓶颈;理论分析基于一系列理想化假设,与实际情况可能有差距。 🏗️ 模型架构 DART是一个端到端的跨模态对齐框架,其核心在于联合优化两个损失:实例级损失($\mathcal{L}{IOT}$)和特征级损失($\mathcal{L}{UWD-R}$)。整体流程如下: ...

2026-05-04 · 更新于 2026-06-12 · 2 min · 411 words

CustomDancer: Customized Dance Recommendation by Text-Dance Retrieval

📄 CustomDancer: Customized Dance Recommendation by Text-Dance Retrieval #音频检索 #音乐理解 #对比学习 #多模态模型 #数据集 ✅ 6.5/10 | 前50% | #音频检索 #音乐理解 | #对比学习 #多模态模型 | #音频检索 #音乐理解 | arxiv 学术质量 5.5/7 | 选题价值 1.0/2 | 复现加成 0.0 | 置信度 中 👥 作者与机构 第一作者:Yawen Qin(中南民族大学, South-Central Minzu University) 通讯作者:未明确说明(根据作者列表,通讯作者可能是Qin Zhang或Ke Qiu,但论文中未明确标注) 作者列表:Yawen Qin(中南民族大学)、Ke Qiu(未说明所属机构)、Qin Zhang(未说明所属机构) 💡 毒舌点评 亮点是构建了首个针对文本-舞蹈检索的专用大规模数据集(TD-Data),并采用了严谨的专家标注流程,为后续研究奠定了重要基础。短板是主实验对比的基线过于简单(仅有两个通用的跨模态检索模型),未能与更相关的音频-文本或动作-文本检索方法进行比较,削弱了“State-of-the-Art”声称的说服力,且代码未开源。 🔗 开源详情 代码:论文中未提及代码链接 模型权重:论文中未提及 数据集:论文中未提及数据集开源链接(论文介绍了自建的 TD-Data 数据集,但未提供任何可供下载的链接或开源仓库地址) Demo:论文中未提及 复现材料:论文中未提及复现所需的具体代码仓库、训练脚本或检查点链接,但提供了详细的超参数和实现细节,可参考论文第4.8节。 论文中引用的开源项目:论文引用了CLIP、Librosa、SMPL等工具,但未在正文中提供这些项目的具体GitHub或主页链接。 补充信息 [细节详述] 补充:论文在实施细节(第4.8节)中明确了关键训练设置:文本编码器使用CLIP预训练权重初始化,其学习率设置得小于新初始化的MLP适配器以及音乐和运动编码器。此外,音乐和运动编码器是从零开始训练,因其输入分布与CLIP预训练数据差异大。论文未具体提及优化器类型、学习率数值、批次大小或训练硬件/时长。 [细节详述/实验结果] 补充:在主对比实验(表1)中,CustomDancer的Recall@1(10.23%)相较于最强基线XPool(9.46%)提升了0.77个百分点。用户研究(表4)具体说明为单盲研究,由10位参与者(包括业余舞者、编舞者和教师) 进行。 [模型架构] 补充:文本编码器中的MLP适配器的作用是将CLIP嵌入投影到检索空间的维度 d(第4.3节)。 [创新点] 补充:论文在引言末尾明确总结了三点贡献,与分析中的核心创新点对应:1)为文本-舞蹈检索任务制定基准并引入TD-Data数据集;2)提出CustomDancer多模态框架;3)进行了广泛的实验、消融、用户研究和可视化分析。 [细节详述] 补充:TD-Data数据集的具体统计信息包括:由27位专业舞者表演,总时长14.6小时(第3.2节)。 [实验结果] 补充:论文在第5.2节强调,训练时采用单向(文本到舞蹈)的对齐作为主要目标,因为这符合用户交互场景。评估时使用整个测试集作为候选库进行排序,而非小子集,以模拟真实的大规模检索场景。 [核心摘要/模型架构] 补充:论文在摘要和引言中明确指出其核心任务定义与动机:现有方法(文本到动作生成、音乐到舞蹈、视频文本检索)存在不足,无法同时满足用户对音乐节奏和身体动态语义的自然语言检索需求,从而形成了本文的任务和方法。 [评分理由/毒舌点评] 补充:论文在摘要中明确声明“CustomDancer achieves state-of-the-art performance on TD-Data”,但其主实验对比的基线(仅两个通用的跨模态检索模型)的选择广度和领域相关性有限,这与该声明的说服力存在落差。 [核心摘要] 补充:论文在第5.6节详细讨论了三种失败案例:1)对高度专业化舞蹈术语的匹配不佳;2)当视觉运动与音乐情感冲突时的歧义;3)可能被表演者个人风格作为捷径所利用。这构成了其自我声明的局限性的一部分。 [核心摘要] 补充:论文在结论和未来工作部分提出,未来方向包括扩展TD-Data至多语言标注、更细粒度的编舞标签和交互式检索反馈,并探索将检索与生成耦合(先检索相关舞蹈,再适应新音乐/风格/表演者)。 [模型架构/评分理由] 补充:论文在第5.8节讨论中强调,文本-舞蹈检索不是文本-视频检索的更小变体,因为舞蹈中存在视觉相似但编舞含义不同的情况,反之亦然,这构成了独特的排名挑战。 [开源详情] 补充:论文在引用的开源项目(如CLIP、Librosa、SMPL)处也未提供具体的GitHub或主页链接(第2、4节)。 📌 核心摘要 要解决什么问题:解决在线舞蹈内容爆炸式增长下的个性化发现难题,提出“文本-舞蹈检索”任务,即根据自然语言描述检索同时满足音乐节奏和身体动态语义的舞蹈片段。现有方法或忽视节奏,或缺乏自然语言接口。 方法核心是什么:提出CustomDancer多模态检索框架。使用CLIP文本编码器处理查询,使用独立的Transformer编码器分别处理音乐(Librosa特征)和3D运动(SMPL参数)时序信息,然后通过一个同时包含加法和乘法交互的“音乐-运动混合模块”将二者融合为统一的舞蹈表征,最后通过对比学习对齐文本与舞蹈的嵌入空间。 与已有方法相比新在哪里:1) 数据层面:构建并开放了首个大规模、高质量的文本-舞蹈检索数据集TD-Data,包含约4000个片段,由专家进行结构化标注并生成自然语言描述。2) 模型层面:专门针对舞蹈的音乐-运动同步特性设计了多模态融合架构,而非直接套用通用的视频-文本或音频-文本检索模型。 主要实验结果如何:在自建TD-Data测试集上,CustomDancer的检索性能优于两个强基线(TABLE, XPool)。例如,在Recall@1上达到10.23%,比最强基线XPool(9.46%)高0.77个百分点。消融实验表明,Transformer优于RNN/LSTM,加法+乘法的融合策略优于单一策略。用户研究显示,其检索结果在文本-运动一致性(3.82)和文本-音乐相关性(3.68)上均优于基线。 实际意义是什么:为舞蹈内容平台(如TikTok、B站舞蹈区)提供更精准的搜索和推荐技术,帮助用户、编舞者、学习者高效发现符合特定风格、节奏或动作描述的舞蹈内容,促进舞蹈文化的传播与学习。 主要局限性是什么:1) 数据集:规模(约4k片段)和多样性(22种风格)对于通用舞蹈检索仍有限。2) 模型与对比:模型创新为有效整合而非突破;实验对比的基线与任务相关性不够强。3) 任务定义:未深入探讨用户查询的模糊性(如情绪描述 vs. 具体动作)和检索结果的多义性。4) 泛化性:依赖3D运动数据(SMPL),在真实2D视频场景中的应用需要额外转换。 🏗️ 模型架构 CustomDancer的整体架构如图3所示,是一个四模块的多模态对齐框架,旨在将文本查询与包含音乐和3D运动的舞蹈候选进行匹配。 ...

2026-05-04 · 更新于 2026-06-12 · 2 min · 296 words

ICLR 2026 - 音频检索 论文列表

ICLR 2026 - 音频检索 共 4 篇论文 ← 返回 ICLR 2026 总览 排名 论文 评分 分档 🥇 WAVE: Learning Unified & Versatile Audio-Visual Embeddings w 8.0分 前25% 🥈 Beyond Instance-Level Alignment: Dual-Level Optimal Transpor 7.5分 前25% 🥉 OmniCVR: A Benchmark for Omni-Composed Video Retrieval with 7.0分 前25% 4. SupCLAP: Controlling Optimization Trajectory Drift in Audio- 7.0分 前25% 📋 论文详情 🥇 WAVE: Learning Unified & Versatile Audio-Visual Embeddings with Multimodal LLM 🔥 8.0/10 | 前25% | #音频检索 | #对比学习 | #多模态模型 #视频检索 ...

2026-05-04 · 更新于 2026-06-12 · 3 min · 500 words