AUDIOCARDS: Structured Metadata Improves Audio Language Models for Sound Design

📄 AUDIOCARDS: Structured Metadata Improves Audio Language Models for Sound Design #音频检索 #对比学习 #音频分类 #数据集 ✅ 7.5/10 | 前50% | #音频检索 | #对比学习 | #音频分类 #数据集 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 中 👥 作者与机构 第一作者:Sripathi Sridhar(新泽西理工学院,Adobe Research) 通讯作者:未说明 作者列表:Sripathi Sridhar(新泽西理工学院,Adobe Research)、Prem Seetharaman(Adobe Research)、Oriol Nieto(Adobe Research)、Mark Cartwright(新泽西理工学院)、Justin Salamon(Adobe Research) 💡 毒舌点评 论文核心亮点是精准定位声音设计师的实际工作流,将通用大语言模型的知识“蒸馏”成针对性极强的结构化音频描述(AUDIOCARDS),而非追求通用的音频理解。短板在于其创新主要是任务适配与工程化整合,在模型架构和核心算法上缺乏根本性突破,且严重依赖一个未公开的、可能包含专有数据的大型内部数据集。 📌 核心摘要 解决的问题:专业音效库的元数据(如声音类别、声学属性、使用场景)通常缺失或不完整,而现有音频描述模型生成的单句描述无法满足声音设计师的精确检索需求。 方法核心:提出“音频卡”(AUDIOCARDS),一种结构化的多字段音频元数据。利用大语言模型(LLM)的世界知识,以音频的声学描述符(响度、音高等)和少量元数据为输入,通过少样本提示生成包含名词、动词、UCS分类、视觉上下文、描述性标题等字段的JSON格式输出。 与已有方法的新颖之处:不同于训练通用的单句音频描述模型,AUDIOCARDS首先设计了一种面向特定领域(声音设计)的、细粒度的结构化描述格式。随后,将音频描述和检索任务重新定义为基于这种结构化表示的生成和对比学习任务,使模型训练与下游应用更匹配。 主要实验结果:在自行构建的专业音效评估集(ASFx eval)和通用数据集(Clotho)上进行了实验。关键结果包括: 结构化元数据生成:在生成音频卡字段任务上,所训练的Whisper-Cards模型全面优于作为基线的Audio Flamingo 3(AF3)模型。 描述生成:在ASFx eval上,Whisper-Cards生成的描述在SPIDEr和FENSE指标上显著优于基线模型和AF3等大型音频语言模型(如SPIDEr为19.36 vs. 9.61)。 检索:Cards-CLAP模型在零样本检索任务上,在内部专业数据集(ID)和Clotho上的R@10均优于仅使用描述性标题训练的Captions-CLAP模型(如ID上为75.40 vs. 73.45)。 表 1. 音频描述生成评估结果 ...

2026-04-29

Auto-MatchCut: An Audio-Visual Retrieval Framework for Seamless Match Cutting

📄 Auto-MatchCut: An Audio-Visual Retrieval Framework for Seamless Match Cutting #音频检索 #视频检索 #跨模态 ✅ 7.0/10 | 前50% | #跨模态检索 | #音频检索 | #视频检索 #跨模态 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度 中 👥 作者与机构 第一作者:Hongjie Chen (Dolby Laboratories) 通讯作者:未说明 作者列表:Hongjie Chen (Dolby Laboratories), Hanyu Meng (The University of New South Wales), Gautam Bhattacharya (Dolby Laboratories), Lie Lu (Dolby Laboratories), Josh Kimball (Dolby Laboratories), Ryan Rossi (未说明) 💡 毒舌点评 亮点:框架设计巧妙,通过独立控制音频和视觉距离参数(τ_a, τ_v),为用户提供了在“平滑”与“创意对比”之间灵活调节的杠杆,这是对现有单一模态方法的一个有意义扩展。 短板:评估方法过于依赖主观打分(人类和LLM),缺乏如剪切点帧级精确度、跨视频语义连贯性等客观、可量化的指标,使得“超过60%平滑”的结论说服力打折扣;且整个系统严重依赖所选编码器(CLAP/CLIP)的性能,未探讨其边界与失效情况。 ...

2026-04-29

Automatic Music Sample Identification with Multi-Track Contrastive Learning

📄 Automatic Music Sample Identification with Multi-Track Contrastive Learning #音频检索 #对比学习 #自监督学习 #数据增强 #音乐信息检索 ✅ 7.5/10 | 前25% | #音频检索 | #对比学习 | #自监督学习 #数据增强 学术质量 6.0/7 | 选题价值 1.0/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Alain Riou (Sony AI) 通讯作者:未说明 作者列表:Alain Riou (Sony AI), Joan Serrà (Sony AI), Yuki Mitsufuji (Sony AI) 💡 毒舌点评 亮点在于用多轨数据“动态合成”正样本对的设计非常巧妙,比以往在单轨上做文章更贴近“采样后混音”的真实场景,且通过VQT域的增强操作在计算效率和效果之间取得了很好的平衡。短板是论文坦诚地指出了当前方法在理论上的一个根本局限(即单嵌入无法区分来自同一原曲的不同采样),但这恰恰暴露了对比学习在复杂关系建模上的天花板,后续工作若不能在此突破,则该领域的进步可能很快会触及瓶颈。 📌 核心摘要 问题:自动音乐采样识别(从新曲中检测并找到被采样的原曲)是一项重要但极具挑战的任务,面临训练数据匮乏、需抵抗复杂音频变换、以及在大库中高效检索等难题。 方法核心:提出一种基于自监督对比学习的框架。核心创新是利用多轨录音数据,在训练时动态创建“人工混合”正样本对(将不同轨道子集混合),模拟真实的采样混音过程。模型使用VQT(可变Q变换)时频表示作为输入,并采用ResNet-IBN编码器。 与已有方法相比新在哪里:(1) 数据创建范式革新:首次在采样识别任务中利用多轨数据创建混合正样本,而非仅从单轨中裁剪。(2) 对比损失设计:为匹配新的数据创建方式,设计了一种允许每个样本拥有两个正样本对的修改版对比损失。(3) 高效的频域增强:在VQT表示上进行随机裁剪和时间拉伸,以低成本实现对音高和时间偏移的鲁棒性。 主要实验结果:在标准的Sample100基准上,本方法取得了0.603的mAP,相较于之前最佳基线(0.442)提升了超过15%(绝对值),同时在HR@1、HR@10等指标上也大幅领先。消融实验证明了时间拉伸、音高偏移(VQT裁剪)等增强策略以及使用高质量ground-truth stems的必要性。实验结果关键表格如下: 表1:模型消融实验(在Sample100和SamplePairs数据集上) 模型 Sample100 mAP (↑) Sample100 HR@1 (↑) SamplePairs mAP (↑) SamplePairs HR@1 (↑) Ours (完整模型) 0.603 ± .098 0.587 ± .111 0.450 ± .095 0.430 ± .097 no time-stretch 0.463 ± .100 0.427 ± .112 0.301 ± .086 0.270 ± .087 no time-shift 0.598 ± .100 0.573 ± .112 0.376 ± .091 0.350 ± .093 no pitch-shift 0.422 ± .100 0.413 ± .094 0.355 ± .092 0.340 ± .093 Contrastive baseline 0.551 ± .101 0.533 ± .113 0.409 ± .092 0.380 ± .095 表2:与SOTA方法在Sample100上的性能对比 ...

2026-04-29

BEST-STD 2.0: Balanced and Efficient Speech Tokenizer for Spoken Term Detection

📄 BEST-STD 2.0: Balanced and Efficient Speech Tokenizer for Spoken Term Detection #音频检索 #自监督学习 #对比学习 #最优传输 #语音分词 ✅ 7.5/10 | 前25% | #音频检索 | #自监督学习 | #对比学习 #最优传输 学术质量 6.0/7 | 选题价值 1.0/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Anup Singh(IDLab, Department of Electronics and Information Systems, Ghent University, Belgium) 通讯作者:Vipul Arora(ESAT-PSI, KU Leuven, Belgium;标注有⋆表示equal advising) 作者列表:Anup Singh(IDLab, Department of Electronics and Information Systems, Ghent University, Belgium)、Vipul Arora(ESAT-PSI, KU Leuven, Belgium)、Kris Demuynck(IDLab, Department of Electronics and Information Systems, Ghent University, Belgium) 💡 毒舌点评 亮点在于将最优传输(OT)优雅地用于解决语音分词码本坍缩这一老大难问题,使得大码本训练稳定且高效,且在抗噪抗混响的鲁棒性上做到了超越同类基线(包括大模型WavLM的分词)的扎实水平。短板是研究的问题域(查询式语音术语检索)略显小众,且其核心的“稳健性”提升高度依赖于特定的任务和评价指标(Jaccard相似度、MTWV),对于通用语音理解或生成任务的直接启示有限。 ...

2026-04-29

CASTELLA: Long Audio Dataset with Captions and Temporal Boundaries

📄 CASTELLA: Long Audio Dataset with Captions and Temporal Boundaries #音频检索 #多模态模型 #预训练 #迁移学习 #数据集 🔥 8.5/10 | 前25% | #音频检索 | #迁移学习 | #多模态模型 #预训练 学术质量 6.2/7 | 选题价值 1.5/2 | 复现加成 0.8 | 置信度 高 👥 作者与机构 第一作者:Hokuto Munakata(LY Corporation) 通讯作者:未说明(论文中通讯作者符号*对应作者列表第二位Takehiro Imamura,但未明确其通讯作者身份) 作者列表:Hokuto Munakata(LY Corporation)、Takehiro Imamura(名古屋大学)、Taichi Nishimura(LY Corporation)、Tatsuya Komatsu(LY Corporation) 💡 毒舌点评 本文最大的贡献是为音频时刻检索任务“修桥铺路”,用一个规模空前(相比前作大24倍)且质量可控的真实世界数据集,终结了该任务依赖合成数据或极小测试集的尴尬历史,让后续研究得以立足于可靠地基之上。然而,它也清晰地揭示了一个残酷现实:即便有了优质数据,当前模型在检索短时刻(<10秒)时依然表现糟糕,这恐怕是未来比数据规模更难啃的骨头。 📌 核心摘要 要解决什么问题:音频时刻检索(AMR)任务长期缺乏大规模、真实世界的人工标注基准数据集,导致现有模型性能评估不可靠,且训练严重依赖合成数据。 方法核心是什么:构建了CASTELLA数据集。它包含1862个1-5分钟的YouTube音频,每个音频配有全局摘要描述、多个局部关键事件描述及其精确的起止时间边界。同时,基于该数据集,采用预训练音频-文本模型(CLAP)结合检测Transformer(DETR)架构建立了基线模型。 与已有方法相比新在哪里:CASTELLA是首个满足AMR任务三大核心需求(长音频、自由格式描述、时间边界)的大规模真实世界数据集。其标注规模(约1.9k音频)是此前人工标注数据集(UnAV-100子集)的24倍以上。此外,论文首次系统验证了“在合成数据上预训练,再在真实数据集上微调”的两阶段训练策略的有效性。 主要实验结果如何:实验证明,使用CASTELLA进行微调能显著提升性能。仅在合成数据集(Clotho-Moment)上训练的模型Recall1@0.7为5.8;仅在CASTELLA上训练为9.7;而在合成数据预训练后于CASTELLA微调的模型达到16.2,提升10.4点。不同架构对比中,UVCOM模型表现最优(Recall1@0.7: 20.3)。实验还发现,模型对短时刻(<10秒)的检索能力明显较弱(见图3)。 索引 DETR网络 训练数据 R1@0.5 R1@0.7 mAP@0.5 mAP@0.75 mAP@avg. 1 QD-DETR Clotho-Moment 10.3 5.8 9.9 4.7 5.3 2 - CASTELLA 19.8 9.7 17.6 5.9 7.7 3 - 两者 30.6 16.2 26.5 12.2 13.7 4 Moment-DETR 两者 19.3 10.8 17.2 7.0 8.2 5 UVCOM 两者 31.7 20.3 28.4 15.2 15.9 实际意义是什么:为音频理解领域,特别是音频时刻检索任务,提供了一个可靠的评估基准和训练资源,推动了该任务从合成数据走向真实应用。 主要局限性:1)数据集规模虽相对前作巨大,但对于深度学习而言仍属中等;2)音频均来自YouTube,可能存在领域偏差;3)短时刻检索仍是巨大挑战;4)论文未探索更先进的音频表示学习模型或更复杂的检索架构。 🏗️ 模型架构 论文中的基线模型基于 AM-DETR 架构,该架构受视频时刻检索(VMR)模型启发。 ...

2026-04-29

Contrastive Timbre Representations for Musical Instrument And Synthesizer Retrieval

📄 Contrastive Timbre Representations for Musical Instrument And Synthesizer Retrieval #音频检索 #对比学习 #预训练 #数据增强 ✅ 7.5/10 | 前25% | #音频检索 | #对比学习 | #预训练 #数据增强 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度 高 👥 作者与机构 第一作者:Gwendal Le Vaillant (Haute-École Bruxelles-Brabant, ISIB) 通讯作者:Yannick Molle (University of Mons, ISIA Lab, Impulsia) 作者列表:Gwendal Le Vaillant (Haute-École Bruxelles-Brabant, ISIB), Yannick Molle (University of Mons, ISIA Lab, Impulsia) 💡 毒舌点评 亮点:为虚拟乐器对比学习设计了“乐器自身生成正样本”的策略,巧妙规避了传统音频增强对音色本质的破坏;提出的单一模型同时处理单源和混合音源的检索框架,显著优于先分离再检索的复杂流水线。 短板:实验验证的混合场景局限于三种特定家族乐器的组合,对于更复杂、更真实的多乐器混合(如交响乐、摇滚乐队)缺乏探索;论文声称代码和模型将开源,但当前缺乏具体承诺,对于依赖该工作的后续研究是种障碍。 ...

2026-04-29

Do Speech LLMs Learn Crossmodal Embedding Spaces?

📄 Do Speech LLMs Learn Crossmodal Embedding Spaces? #语音大模型 #模型评估 #跨模态 #音频检索 ✅ 6.5/10 | 前50% | #音频检索 | #模型评估 | #语音大模型 #跨模态 学术质量 5.5/7 | 选题价值 0.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Carlos Escolano(TALP Research Center, Universitat Politècnica de Catalunya) 通讯作者:未说明 作者列表:Carlos Escolano(TALP Research Center, Universitat Politècnica de Catalunya)、Gerard Sant(University of Zurich)、José A.R. Fonollosa(TALP Research Center, Universitat Politècnica de Catalunya) 💡 毒舌点评 本文最大的亮点是提供了一个系统且可量化的框架来“解剖”语音大模型的黑箱内部,明确指出了当前主流架构在“让模型听懂语义”与“保留说话人特征”之间难以兼得的根本困境,为后续研究提供了清晰的“病历本”。短板在于,作为一篇诊断性工作,它揭示了问题却几乎没开药方,且仅对比了几个特定模型,结论的普适性有待更广泛模型的验证。 📌 核心摘要 要解决的问题:语音大模型(Speech LLMs)需要将语音信号映射到LLM的文本嵌入空间,但这一映射过程的性质(是否形成良好的跨模态嵌入空间)和代价(是否会丢失副语言信息)尚未被系统研究。 方法核心:提出一套评估指标(各向同性分数IsoScore、Hubness的Robin Hood分数、关系相似性RS),并结合跨模态检索、性别分类、口音分类等探针任务,对不同架构的语音大模型(保留连续语音编码器表示 vs. 从头学习离散语音单元)进行系统分析。 与已有方法相比新在哪里:首次从嵌入空间几何属性(各向同性、Hubness、同构性)的角度,定量对比了纯编码器模型(SONAR)与多种解码器架构的语音大模型(Spire, Qwen2-Audio, Phi4-Multimodal)。明确揭示了现有语音大模型在跨模态对齐质量上仍逊于专门的多模态编码器,并发现了两种主流设计范式(连续表示 vs. 离散表示)在语义对齐和副语言信息保留方面存在的根本性权衡。 主要实验结果: 跨模态映射属性:在FLEURS数据集上,所有语音大模型的IsoScore均低于0.05,远低于SONAR的0.0425;RH分数(越低越好)均高于0.35,差于SONAR的0.25;RS分数(越高越好)均低于0.55,远低于SONAR的0.94。 检索性能:在FLEURS(精确句对)和Spoken SQuAD(主题匹配)数据集上,语音大模型的Top-1检索准确率(FLEURS @1)在16-18%之间,与SONAR(19.19%)接近,但Spire稍弱(11.54%)。 副语言信息保留与权衡:使用连续编码器的模型(Phi4, Qwen2)在浅层能很好地区分性别(准确率~85%)和口音,但随着层深增加,性能显著下降(见图1)。而使用离散单元的Spire则能稳定保留性别信息(全层>82%),但在SD-QA数据集的口音分类上,对某些口音(如IND-S, NGA)的准确率下降近20%,显示鲁棒性不足(见表2)。 关键数据表格: 模型 IsoScore ↑ RH ↓ RS ↑ FLEURS @1 ↑ Spoken SQUAD @1 ↑ SONAR 0.0425 0.25 0.94 54.25% 19.19% Phi4-Multimodal 0.0004 0.35 0.53 54.04% 16.37% Qwen2-Audio 0.0002 0.41 0.55 53.55% 18.35% Spire 0.0001 0.43 0.16 50.17% 11.54% 实际意义:为语音大模型的设计提供了重要启示:1)当前基于LLM的架构在跨模态嵌入空间质量上仍有很大提升空间,可能需要更复杂的非线性映射。2)模型设计者必须在“保持语义对齐强度”与“保留丰富的副语言信息/对多样口音的鲁棒性”之间做出明确权衡。 主要局限性:研究局限于对4个特定模型的分析,结论的普适性需要在更多模型上验证;所提出的评估框架本身可能需要更多验证;论文主要进行诊断分析,未提出具体的改进模型或算法来解决所发现的权衡问题。 🏗️ 模型架构 本文是一篇分析性论文,核心是评估而非提出新模型。因此,模型架构部分主要描述所评估的四个模型�� ...

2026-04-29

EchoRAG: A Two-Stage Framework for Audio-Text Retrieval and Temporal Grounding

📄 EchoRAG: A Two-Stage Framework for Audio-Text Retrieval and Temporal Grounding #音频检索 #知识蒸馏 #对比学习 ✅ 7.5/10 | 前25% | #音频检索 | #知识蒸馏 | #对比学习 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.3 | 置信度 中 👥 作者与机构 第一作者:Zilin Wang(厦门大学电影系;厦门大学闽台文化遗产数字化保护与智能处理文化和旅游部重点实验室) 通讯作者:Liyan Chen(厦门大学电影系;厦门大学闽台文化遗产数字化保护与智能处理文化和旅游部重点实验室) 作者列表:Zilin Wang(厦门大学电影系;厦门大学闽台文化遗产数字化保护与智能处理文化和旅游部重点实验室), Zheng Huang(厦门大学电影系;厦门大学闽台文化遗产数字化保护与智能处理文化和旅游部重点实验室), Zibai Ou(厦门大学电影系;厦门大学闽台文化遗产数字化保护与智能处理文化和旅游部重点实验室), Yuchen Yang(厦门大学电影系), Liyan Chen(厦门大学电影系;厦门大学闽台文化遗产数字化保护与智能处理文化和旅游部重点实验室) 💡 毒舌点评 EchoRAG 的亮点在于其工程设计的巧妙,将稳定的全局检索(教师)与精确的细粒度对齐(学生)结合,形成了一个有效的“粗筛-精排”范式。然而,其“创新”更多体现在对现有技术(如ColBERT的后期交互、KL蒸馏)的组合与适配上,在理论深度上稍显不足;峰值平滑正则化虽有效,但其设计(熵+全变差)更像是一个启发式的“补丁”,缺乏更深入的理论分析。 📌 核心摘要 问题:现有的音频RAG方法通常将音频压缩为单一的全局嵌入(如CLS token),丢失了细粒度的帧级信息和时间线索,这限制了其在需要精确定位音频片段的任务中的性能。 方法核心:提出了EchoRAG,一个两阶段框架。第一阶段,使用预训练CLAP模型的CLS编码器作为教师,进行快速的全局句级检索。第二阶段,引入一个基于token-frame后期交互(LI)的学生模块,从教师分布进行知识蒸馏,对检索结果进行细粒度重排序并预测支持性音频片段的时间跨度。此外,设计了一个无监督的峰值-平滑正则化,以改善时间定位分布的质量。 新意:与已有方法相比,EchoRAG的新意在于:a) 架构上结合了全局检索的高效性和细粒度交互的精确性;b) 训练上采用了针对多查询-单音频场景的Multi-positive InfoNCE损失来缓解假阴性问题;c) 提出了无需帧级标注的peak-smooth正则化来优化时间定位。 主要实验结果:EchoRAG在音频-文本检索任务(SQuAD-Spoken, AudioCaps)上取得了具有竞争力的性能,R@10和NDCG@10常高于基线。在生成任务(HotpotQA, SLUE-SQA-5)上,EchoRAG在FactScore(忠实度)指标上显著优于基线,表明其检索到的证据更具支持性。具体关键数据见下表: 表1:音频-文本检索结果(摘选) ...

2026-04-29

GLAP: General Contrastive Audio-Text Pretraining Across Domains and Languages

📄 GLAP: General Contrastive Audio-Text Pretraining Across Domains and Languages #音频检索 #对比学习 #预训练 #多语言 #零样本 🔥 8.5/10 | 前25% | #音频检索 | #对比学习 #预训练 | #对比学习 #预训练 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.8 | 置信度 高 👥 作者与机构 第一作者:Heinrich Dinkel (MiLM Plus, Xiaomi Inc., China) 通讯作者:未说明 作者列表:Heinrich Dinkel (MiLM Plus, Xiaomi Inc., China)、Zhiyong Yan (MiLM Plus, Xiaomi Inc., China)、Tianzi Wang (MiLM Plus, Xiaomi Inc., China)、Yongqing Wang (MiLM Plus, Xiaomi Inc., China)、Xingwei Sun (MiLM Plus, Xiaomi Inc., China)、Yadong Niu (MiLM Plus, Xiaomi Inc., China)、Jizhong Liu (MiLM Plus, Xiaomi Inc., China)、Gang Li (MiLM Plus, Xiaomi Inc., China)、Junbo Zhang (MiLM Plus, Xiaomi Inc., China)、Jian Luan (MiLM Plus, Xiaomi Inc., China) 💡 毒舌点评 亮点:GLAP真正实现了将语音内容理解无缝整合进音频-文本对齐框架,并在多语言语音任务上取得了远超前辈模型(如L-CLAP, MSCLAP)的惊人效果,证明了“一个模型通吃所有音频类型”的可行性。短板:其语音理解能力的显著提升,很大程度上归功于选择了对语音建模能力强的Dasheng作为音频编码器,这更像是一个工程上的“正确组合”,而非方法论上的根本性突破,且其性能在非英语语言的零样本声音分类上仍有明显衰减。 ...

2026-04-29

Hashing-Baseline: Rethinking Hashing in the Age of Pretrained Models

📄 Hashing-Baseline: Rethinking Hashing in the Age of Pretrained Models #音频检索 #图像检索 #预训练 #基准测试 #模型评估 🔥 8.0/10 | 前25% | #音频检索 #音频分类 | #预训练 | #音频检索 #图像检索 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:未说明(论文作者列表顺序为并列贡献) 通讯作者:未说明 作者列表:Ilyass Moummad(INRIA, LIRMM, Université de Montpellier, France),Kawtar Zaher(INRIA, LIRMM, Université de Montpellier, France;Institut National de l’Audiovisuel, France),Lukas Rauch(University of Kassel, Germany),Alexis Joly(INRIA, LIRMM, Université de Montpellier, France) 💡 毒舌点评 亮点在于论文极其简洁地证明了“大力出奇迹”的道理:利用强大的预训练模型(如DINOv2、CLAP)的冻结嵌入,搭配几个无需训练的经典降维与二值化“零件”(PCA、随机正交投影),就能在图像和音频检索任务上达到与昂贵训练的深度哈希方法相竞争的性能,这为实际应用提供了一个极其简单且强大的基线。短板在于方法本身的创新性有限,本质上是现有技术的拼接,且虽然提出了音频哈希基准,但在更大规模、更贴近真实场景的跨域检索任务上的验证仍然不足。 ...

2026-04-29