音乐检索 | 语音/音乐/音频论文速递

Controllable Embedding Transformation for Mood-Guided Music Retrieval

📄 Controllable Embedding Transformation for Mood-Guided Music Retrieval #音乐检索 #音乐理解 #对比学习 #嵌入变换 ✅ 7.5/10 | 前25% | #音乐检索 | #对比学习 | #音乐理解 #嵌入变换学术质量 6.5/7 | 选题价值 1.0/2 | 复现加成 0.0 | 置信度中 👥 作者与机构第一作者：Julia Wilkins（SiriusXM-Pandora, USA；New York University, New York, USA）通讯作者：未说明（论文中未明确标注通讯作者）作者列表： Julia Wilkins（SiriusXM-Pandora, USA；New York University, New York, USA） Jaehun Kim（SiriusXM-Pandora, USA） Matthew E. P. Davies（SiriusXM-Pandora, USA） Juan Pablo Bello（New York University, New York, USA） Matthew C. McCallum（SiriusXM-Pandora, USA） 💡 毒舌点评论文精准地抓住了音乐推荐系统从“千人千面”到“一键微调”的体验升级需求，并设计了一个工程上可行的嵌入变换框架，其“相似但不同情绪”的检索范式非常直观且实用。然而，整个方法高度依赖于高质量的MULE预训练嵌入和标签，在嵌入空间本身质量不高的情况下效果必然大打折扣，且“情绪”这一高度主观的属性用四个离散标签来定义和变换，其颗粒度和泛化能力值得怀疑。 ...

HarmoNet: Music Grounding by Short Video via Harmonic Resample and Dynamic Sparse Alignment

📄 HarmoNet: Music Grounding by Short Video via Harmonic Resample and Dynamic Sparse Alignment #音乐检索 #跨模态 #注意力机制 #对比学习 ✅ 7.0/10 | 前25% | #音乐检索 | #注意力机制 | #跨模态 #对比学习学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 -0.5 | 置信度高 👥 作者与机构第一作者：Yaomin Shen（浙江大学南昌研究院XR系统应用研究中心）通讯作者：未明确说明，但第一作者Y. Shen提供了邮箱 coolshennf@gmail.com。作者列表： Yaomin Shen（浙江大学南昌研究院XR系统应用研究中心） Wei Fan（独立研究员） Haichuan Hu（阿里云） Xinqi Liu（香港大学工程学院） Min Yang（浙江大学南昌研究院XR系统应用研究中心） Rui Jia（华东师范大学上海人工智能教育研究院） Junbiao Cai（独立研究员） 💡 毒舌点评亮点：论文针对“短视频配乐”这一具体场景的痛点分析透彻，HRM的多尺度音乐重采样与DSA的动态稀疏注意力机制设计巧妙，且实验消融做得非常扎实，充分验证了每个组件的贡献。短板：任务定义非常垂直，研究成果的普适性有待观察；更关键的是，作为一篇方法论论文，完全没有提供代码或模型开源计划，这在2026年的顶会上显得有些“古典”，严重制约了工作的影响力和可复现性。 🔗 开源详情代码：论文中未提及代码仓库链接。模型权重：未提及。数据集：使用了公开的MGSV-EC基准，但未提及是否对数据进行了额外处理或提供处理后的数据。 Demo：未提供在线演示。复现材料：论文给出了优化器、学习率、batch size、训练轮数、硬件配置等训练细节，以及关键超参数（如HRM尺度、DSA稀疏比例）。但缺少配置文件、训练脚本和模型定义代码。论文中引用的开源项目：引用了CLIP（ViT-B/32）、AST作为特征提取器，以及MaDe作为基线。未说明这些项目是否为复现提供了代码支持。总结：论文中未提及开源计划，可复现性信息不完整。 📌 核心摘要问题：本文致力于解决“短视频音乐定位”（MGSV）任务，即给定一个短视频，自动从候选音乐库中不仅匹配最合适的音乐曲目，还要定位出该曲目中最适合做背景音乐的时间片段。现有方法忽略了音乐旋律的多尺度特性和节奏变化导致的序列重要性动态变化。方法：提出了HarmoNet框架，包含两个核心模块：谐波重采样模块和动态稀疏对齐策略。创新点：HRM将音乐信号在多个时间尺度上重采样为不同层级的表征，以捕捉全局旋律、片段结构和细粒度节奏，并与视频特征进行层级匹配。DSA策略结合可学习的高斯偏置和TopK稀疏选择，动态地强调重要的跨模态对应关系，抑制噪声，提升定位精度。实验结果：在MGSV-EC基准上，HarmoNet在所有指标上超越了先前的SOTA方法MaDe。具体提升如下表所示：模型 mIoU↑ R1↑ R5↑ R10↑ MoR1↑ MoR10↑ MoR100↑ MaDe (基线) 0.725 8.9 16.7 18.9 8.3 17.5 30.9 HarmoNet (Ours) 0.735 10.7 19.5 22.8 9.6 19.7 32.8 表：HarmoNet与基线方法MaDe在MGSV-EC基准上的关键结果对比。消融实验（如表2所示）证明了HRM对音乐检索（MoR指标）至关重要，而DSA对片段定位（mIoU）有显著提升。实际意义：该方法有望提升短视频创作平台的自动化配乐效率，增强内容表达力和观众参与度。主要局限性：任务场景相对特定，对更广泛的音视频理解任务的迁移性未验证；未开源代码和模型，限制了其实际应用和学术复现。 🏗️ 模型架构 HarmoNet整体架构可分为三个阶段（参考图2）： ...

Hierarchical Tokenization of Multimodal Music Data for Generative Music Retrieval

📄 Hierarchical Tokenization of Multimodal Music Data for Generative Music Retrieval #音乐检索 #大语言模型 #多模态模型 #工业应用 #生成模型 ✅ 7.0/10 | 前25% | #音乐检索 | #大语言模型 | #多模态模型 #工业应用学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 -0.5 | 置信度中 👥 作者与机构第一作者：Wo Jae Lee（Amazon Music, San Francisco, USA）通讯作者：未说明作者列表：Wo Jae Lee（Amazon Music）、Rifat Joyee（Amazon Music）、Zhonghao Luo（Amazon Music）、Sudev Mukherjee（Amazon Music）、Emanuele Coviello（Amazon Music） 💡 毒舌点评亮点：论文提出的多模态分层tokenization框架思路清晰，将复杂的音乐元数据系统地转化为LLM可处理的离散序列，并在工业规模的数据集上验证了其有效性，为构建统一的多模态音乐推荐系统提供了一个不错的工程范例。短板：核心的RQ-VAE应用和LLM微调部分创新有限，更偏向于系统集成；而实验完全建立在无法公开的私有数据之上，如同“自说自话”，极大削弱了其学术价值和可复现性，使得其性能提升难以被外部独立验证。 🔗 开源详情代码：论文中未提及代码链接。模型权重：未提及公开权重。数据集：实验使用的Dc（160万歌曲元数据）、Dqt和Dr均为专有数据集，未公开。 Demo：未提及在线演示。复现材料：给出了部分模型架构细节（如RQ-VAE编码器/解码器为4层FFN）、训练超参数（学习率、batch size、epoch数、GPU数量），但未提供完整的训练脚本、配置文件或检查点。对于关键组件（如九种模态的具体编码器网络结构、每个模态RQ-VAE的码本大小K_mod,l的精确值）描述不够详细。论文中引用的开源项目：引用了Qwen2.5-1.5B-Instruct [23]作为基座LLM，Sentence-BERT [29]用于模态预测模型，CLAP [25]用于音频编码。但未说明是否基于这些项目的官方实现进行修改。总结：论文中未提及开源计划。 📌 核心摘要本文针对生成式音乐检索任务中如何让大语言模型（LLM）有效表示和理解多模态音乐数据的问题，提出了一种名为3MToken的多模态音乐分层离散化方法。该方法将音频、语义标签、艺术家传记等九种模态的音乐数据，通过模态特定的残差量化变分自编码器（RQ-VAE）转化为层次化的离散token序列。基于此，进一步提出了3MTokenRec，一个经过指令微调的LLM，它能够根据查询意图自适应地加权不同模态，并生成对应的3MToken序列来检索音乐。实验表明，3MToken在内容检索（CBR）任务上，Hit@5分别比最强多模态基线（K-means）高27%（CP数据集）和32%（CO数据集）；在文本到音乐检索（T2MR）任务上，3MTokenRec（带模态选择）的平均Precision@K比不带模态选择的版本高10.8%。该研究为工业级音乐推荐系统提供了新的技术路径，但其主要局限在于所有实验均在未公开的专有数据集上进行，且未开源代码与模型，可复现性差。 ...

ICASSP 2026 - 音乐检索论文列表

ICASSP 2026 - 音乐检索共 3 篇论文 ← 返回 ICASSP 2026 总览排名论文评分分档 🥇 Controllable Embedding Transformation for Mood-Guided Music 7.5分前25% 🥈 HarmoNet: Music Grounding by Short Video via Harmonic Resamp 7.0分前25% 🥉 Hierarchical Tokenization of Multimodal Music Data for Gener 7.0分前25% 📋 论文详情 🥇 Controllable Embedding Transformation for Mood-Guided Music Retrieval ✅ 7.5/10 | 前25% | #音乐检索 | #对比学习 | #音乐理解 #嵌入变换 👥 作者与机构 ...

Towards Effective Negation Modeling in Joint Audio-Text Models for Music

📄 Towards Effective Negation Modeling in Joint Audio-Text Models for Music #多模态模型 #对比学习 #音乐理解 #音乐检索 #数据增强 ✅ 7.5/10 | 前25% | #音乐理解 | #对比学习 | #多模态模型 #音乐检索学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Yannis Vasilakis（Queen Mary University of London）通讯作者：未说明作者列表：Yannis Vasilakis（Queen Mary University of London, UKRI Centre for Doctoral Training in AI and Music）、Rachel Bittner（Spotify）、Johan Pauwels（Queen Mary University of London） 💡 毒舌点评亮点：论文没有停留在指出“模型不懂否定”的现象上，而是设计了一套从训练方法到评估协议的系统性解决方案，尤其是提出将否定建模拆解为检索和二分类任务进行量化评估，这为社区未来研究类似问题提供了可借鉴的范式。短板：所提方法（文本增强与对比损失项）本质上是启发式的，未能深入探索语言模型中更复杂的否定语义结构；且所有实验基于合成增强的标签数据，其能否迁移到真实世界复杂多变的自然语言查询，文中未予验证，结论的普适性存疑。 ...