Attention2Probability: Attention-Driven Terminology Probability Estimation for Robust Speech-to-text System

📄 Attention2Probability: Attention-Driven Terminology Probability Estimation for Robust Speech-to-text System #语音识别 #语音翻译 #语音大模型 #交叉注意力 #课程学习 #数据集 ✅ 7.0/10 | 前25% | #语音识别 | #交叉注意力 | #语音翻译 #语音大模型 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度 中 👥 作者与机构 第一作者:Yangfan Du(东北大学计算机科学与工程学院,字节跳动) 通讯作者:Tong Xiao†(东北大学计算机科学与工程学院,牛津翻译研究院) 作者列表: Yangfan Du(东北大学计算机科学与工程学院,字节跳动) Jun Zhang(字节跳动) Bin Wang(字节跳动) Jin Qiu(字节跳动) Lu Huang(字节跳动) Yuan Ge(东北大学计算机科学与工程学院) Xiaoqian Liu(东北大学计算机科学与工程学院) Tong Xiao†(东北大学计算机科学与工程学院,牛津翻译研究院) Jingbo Zhu(东北大学计算机科学与工程学院,牛津翻译研究院) 💡 毒舌点评 亮点在于提出了一个物理意义明确、轻量且有效的检索范式(将注意力权重解释为出现概率),实验上确实大幅提升了检索召回率。短板则是“术业有专攻”,检索模型的“高召回”并未完美传递给下游的语音大模型,论文在如何弥合这个“检索-生成”鸿沟上分析和解决方案略显不足,更像是抛出了一个漂亮的阶段性成果。 📌 核心摘要 问题:语音大模型在通用场景表现优异,但在医疗、游戏等专业领域准确生成领域术语或新词时存在困难。现有方法依赖耗时的微调或基于向量数据库的检索,后者存在训练成本高、检索准确率不足的问题。 方法核心:提出Attention2Probability方法。其核心是用一个轻量的交叉注意力检索器替代向量数据库,通过计算语音特征与候选术语之间的交叉注意力权重,并将该权重池化归一化后,直接作为每个术语在当前音频中“存在”的概率。基于此概率检索Top-k术语,与提示词拼接后输入语音大模型,引导其生成正确术语。 创新之处:与已有方法相比,A2P完全舍弃了向量数据库和模态对齐训练,转而利用交叉注意力机制显式优化“检测术语是否在音频中出现”这一目标。同时,引入了课程学习(从单词到短语再到真实术语)策略来缓解数据稀疏问题。 实验结果:在自建数据集上,A2P(使用Qwen2-Audio-Instruction编码器)的检索召回率显著优于VectorDB基线。例如,在Top-10检索中,英文召回率达75.55%,中文达83.31%。在下游任务中,术语干预使ASR的术语准确率提升约5-6%,ST提升12-13%,但术语准确率与召回率仍有差距,表明SLM对术语的利用率存在局限。 实际意义:为解决语音领域术语生成难题提供了一种轻量、准确且无需模态对齐训练的检索新范式,并公开了一个专用的术语干预语音数据集,有助于推动该领域研究。 主要局限性:检索到的术语在SLM(尤其在翻译任务)中未被充分利用,导致最终术语准确率远低于检索召回率;随着检索术语数量增加,SLM性能可能出现波动,反映了其上下文学习能力的不足。论文提出的挑战(如何提升ST术语准确率、如何保持基线性能)尚未完全解决。 🏗️ 模型架构 整体架构如图1所示,是一个典型的“检索增强生成”(RAG)流程,但检索器部分被替换。 ...

2026-04-29

Audio-Visual Deepfake Generation and Detection: An Exploratory Survey

📄 Audio-Visual Deepfake Generation and Detection: An Exploratory Survey #音频深度伪造检测 #语音伪造检测 #对比学习 #基准测试 #数据集 ✅ 6.5/10 | 前25% | #音频深度伪造检测 | #对比学习 | #语音伪造检测 #基准测试 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 -0.5 | 置信度 中 👥 作者与机构 第一作者:Hang Xu(哈尔滨工程大学计算机科学与技术学院) 通讯作者:Boquan Li(哈尔滨工程大学计算机科学与技术学院,liboquan@hrbeu.edu.cn),Min Yu(中国科学院信息工程研究所,yumin@iie.ac.cn) 作者列表:Hang Xu(哈尔滨工程大学计算机科学与技术学院)、Yuning An(哈尔滨工程大学计算机科学与技术学院)、Pengrui Fu(哈尔滨工程大学计算机科学与技术学院)、Zhiyu Fan(中国科学院信息工程研究所)、Boquan Li(哈尔滨工程大学计算机科学与技术学院)、Jiakun Liu(哈尔滨工业大学计算学部)、Yachao Liang(中国科学院信息工程研究所)、Min Yu(中国科学院信息工程研究所) 💡 毒舌点评 这篇综述及时填补了音视频深度伪造这一新兴交叉领域综述的空白,系统梳理了生成技术、检测方法和关键数据集,并指出了现有检测器在泛化性和鲁棒性上的普遍短板。然而,其实验部分虽有价值,但复现条件苛刻(需对大量检测器重新实现/训练),且综述本身未提出新的检测算法,结论的普适性受限于所选的有限数据集和检测器。 📌 核心摘要 这篇论文旨在应对音视频深度伪造(Audio-Visual Deepfake)日益增长的威胁,通过系统综述和实验评估,深入分析当前生成技术、检测方法及挑战。方法核心是:1)梳理了音视频深度伪造的生成方法(唇形同步和说话人脸生成)和相关数据集(完全伪造与部分伪造);2)将检测方法分为基于模态融合和基于模态不一致性两大类进行综述;3)通过泛化性实验和鲁棒性实验,评估了代表性检测器在多个数据集和多种失真下的可靠性。 与已有综述相比,本文新在首次专注于“音视频”这一具体伪造类型,并提供了针对该类型检测器的系统性可靠性评估。主要实验结果显示,大多数检测器泛化能力不足(表1),例如LIPINC在LAV-DF数据集上AUC仅为50.55%;同时抗干扰能力较弱(图3),高斯噪声和时间拉伸对多数检测器性能有显著破坏。本文的实际意义在于明确了当前检测技术的瓶颈,并为未来研究指明了方向,如发展基于内容相关性的检测策略、构建更具挑战性的测试基准等。主要局限性在于其评估覆盖的检测器和数据集有限,且未提供可直接复现的代码或模型。 主要实验结果表格: 表1. 泛化性实验结果 (AUC, %) 检测器 FakeAVCeleb IDForge AVLips LAV-DF Yu et al. [17] 99.12* 83.46 88.07 65.13 LIPINC [30] 71.27 78.82 70.54 50.55 LipFD [14] 72.42 69.97 84.98* 41.95 VFD [31] 76.43* 43.34 65.10 55.94 SpeechForensics [32] 99.29 95.67 99.46 85.37 Feng et al. [33] 80.86 75.49 74.39 57.53 AVH-Align [34] 95.29* 14.72 86.61 88.70 注:星号()表示该结果基于监督学习设置(测试集与训练集有重叠),不反映泛化能力。* ...

2026-04-29

AUDIOCARDS: Structured Metadata Improves Audio Language Models for Sound Design

📄 AUDIOCARDS: Structured Metadata Improves Audio Language Models for Sound Design #音频检索 #对比学习 #音频分类 #数据集 ✅ 7.5/10 | 前50% | #音频检索 | #对比学习 | #音频分类 #数据集 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 中 👥 作者与机构 第一作者:Sripathi Sridhar(新泽西理工学院,Adobe Research) 通讯作者:未说明 作者列表:Sripathi Sridhar(新泽西理工学院,Adobe Research)、Prem Seetharaman(Adobe Research)、Oriol Nieto(Adobe Research)、Mark Cartwright(新泽西理工学院)、Justin Salamon(Adobe Research) 💡 毒舌点评 论文核心亮点是精准定位声音设计师的实际工作流,将通用大语言模型的知识“蒸馏”成针对性极强的结构化音频描述(AUDIOCARDS),而非追求通用的音频理解。短板在于其创新主要是任务适配与工程化整合,在模型架构和核心算法上缺乏根本性突破,且严重依赖一个未公开的、可能包含专有数据的大型内部数据集。 📌 核心摘要 解决的问题:专业音效库的元数据(如声音类别、声学属性、使用场景)通常缺失或不完整,而现有音频描述模型生成的单句描述无法满足声音设计师的精确检索需求。 方法核心:提出“音频卡”(AUDIOCARDS),一种结构化的多字段音频元数据。利用大语言模型(LLM)的世界知识,以音频的声学描述符(响度、音高等)和少量元数据为输入,通过少样本提示生成包含名词、动词、UCS分类、视觉上下文、描述性标题等字段的JSON格式输出。 与已有方法的新颖之处:不同于训练通用的单句音频描述模型,AUDIOCARDS首先设计了一种面向特定领域(声音设计)的、细粒度的结构化描述格式。随后,将音频描述和检索任务重新定义为基于这种结构化表示的生成和对比学习任务,使模型训练与下游应用更匹配。 主要实验结果:在自行构建的专业音效评估集(ASFx eval)和通用数据集(Clotho)上进行了实验。关键结果包括: 结构化元数据生成:在生成音频卡字段任务上,所训练的Whisper-Cards模型全面优于作为基线的Audio Flamingo 3(AF3)模型。 描述生成:在ASFx eval上,Whisper-Cards生成的描述在SPIDEr和FENSE指标上显著优于基线模型和AF3等大型音频语言模型(如SPIDEr为19.36 vs. 9.61)。 检索:Cards-CLAP模型在零样本检索任务上,在内部专业数据集(ID)和Clotho上的R@10均优于仅使用描述性标题训练的Captions-CLAP模型(如ID上为75.40 vs. 73.45)。 表 1. 音频描述生成评估结果 ...

2026-04-29

AVO-65: A Large-Scale Hierarchical Audio-Visual Object Dataset

📄 AVO-65: A Large-Scale Hierarchical Audio-Visual Object Dataset #音视频 #数据集 #多模态模型 #模型评估 ✅ 7.0/10 | 前50% | #音视频 | #数据集 | #多模态模型 #模型评估 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:未说明(论文中注明“† These authors contributed equally”,但未明确排序) 通讯作者:Dongchen Zhu12, (注有号) 作者列表:Zehao Yao1,2,†; Guanghui Zhang1,†; Lei Wang1,2; Dongchen Zhu1,2,* (注1:1为Bio-Vision System Laboratory, Science and Technology on Micro-system Laboratory, Shanghai Institute of Microsystem and Information Technology, Chinese Academy of Sciences; 2为University of Chinese Academy of Sciences) 💡 毒舌点评 这篇论文的亮点在于提出了一套严谨、系统化的多模态数据集构建流程,并特别强调了音视频“多重一致性”和层次化标注,填补了现有数据集的空白。然而,其短板也十分明显:论文的核心贡献本质上是一个高质量的“工程产物”(数据集),而在算法、模型或理论层面几乎没有提出新的方法,实验部分主要使用现成的模型进行基线测试,创新性不足。 ...

2026-04-29

BACHI: Boundary-Aware Symbolic Chord Recognition Through Masked Iterative Decoding on POP and Classical Music

📄 BACHI: Boundary-Aware Symbolic Chord Recognition Through Masked Iterative Decoding on POP and Classical Music #音乐信息检索 #符号音乐 #迭代解码 #Transformer #数据集 ✅ 7.5/10 | 前25% | #音乐信息检索 | #迭代解码 | #符号音乐 #Transformer 学术质量 7.0/7 | 选题价值 7.5/2 | 复现加成 8.0 | 置信度 高 👥 作者与机构 第一作者:Mingyang Yao(加州大学圣地亚哥分校) 通讯作者:未说明 作者列表:Mingyang Yao(加州大学圣地亚哥分校)、Ke Chen(加州大学圣地亚哥分校)、Shlomo Dubnov(加州大学圣地亚哥分校)、Taylor Berg-Kirkpatrick(加州大学圣地亚哥分校) 💡 毒舌点评 亮点:模型设计精巧地融合了“边界检测”与“模仿人类耳练的置信度排序解码”两个直觉,在提升性能的同时也为模型决策提供了可解释性(如古典与流行音乐预测顺序的差异)。短板:研究高度聚焦于符号音乐的钢琴编曲场景,对更复杂的乐队总谱或电子音乐等格式的适用性未做探讨,限制了其普适性。此外,在流行音乐上相比SOTA提升微乎其微,创新带来的边际效益在该风格上不明显。 📌 核心摘要 问题:现有符号(乐谱)和弦识别(ACR)研究面临两大挑战:一是缺乏高质量、大规模标注的符号音乐数据集;二是现有模型方法未充分考虑并模拟人类音乐分析的渐进过程。 方法核心:提出BACHI模型,将和弦识别分解为两步:(1) 边界检测:使用Transformer编码器预测和弦变化点,并通过特征线性调制(FiLM)将边界信息注入到上下文表示中;(2) 置信度引导的迭代解码:使用一个Transformer解码器,迭代地填充被遮蔽的和弦元素(根音、性质、低音),每一步都优先选择当前置信度最高的元素进行预测。 创新点:与先前方法(如直接预测完整和弦标签或使用固定顺序解码)相比,BACHI引入了显式的边界感知模块和灵活的、数据驱动的迭代解码顺序,更贴合人类和弦分析的思维方式。 主要实验结果:在古典音乐(DCML+WiR)和新发布的流行音乐(POP909-CL)数据集上,BACHI在全和弦准确率(Full Chord Accuracy)上均取得了最佳性能。古典音乐:BACHI(68.1%)相比最佳基线(Harmony Transformer v2的62.1%)提升了6.0个百分点。流行音乐:BACHI(82.4%)与Harmony Transformer v2(82.2%)相当,但优于其他基线。消融实验证明了边界检测(BD)和迭代解码(ID)模块的贡献。 实际意义:提供了更可靠的流行音乐和弦标注数据集(POP909-CL),并为符号MIR任务(如音乐分析、和弦条件音乐生成、音乐教育)提供了更强的基础模型。 主要局限性:模型目前仅在钢琴编曲的符号音乐上验证,对更复杂的多声部、多乐器总谱的适用性未知;在流行音乐上相对SOTA的提升有限;其性能上限仍受制于符号音乐数据总量和标注一致性。 🏗️ 模型架构 BACHI是一个两阶段的深度学习模型,整体流程如图1所示。 ...

2026-04-29

Beyond Face Swapping: A Diffusion-Based Digital Human Benchmark for Multimodal Deepfake Detection

📄 Beyond Face Swapping: A Diffusion-Based Digital Human Benchmark for Multimodal Deepfake Detection #音频深度伪造检测 #多模态模型 #基准测试 #扩散模型 #数据集 🔥 8.1/10 | 前25% | #音频深度伪造检测 | #多模态模型 | #基准测试 #扩散模型 学术质量 6.0/7 | 选题价值 1.8/2 | 复现加成 0.3 | 置信度 高 👥 作者与机构 第一作者:未说明(论文标注Jiaxin Liu†和Jia Wang†贡献相等,未明确谁为第一) 通讯作者:Saihui Hou⋆, Zhaofeng He⋆ 作者列表:Jiaxin Liu(北京邮电大学,BUPT)、Jia Wang(北京师范大学,BNU)、Saihui Hou(未说明具体机构,可能来自BUPT或BNU)、Min Ren(滴滴出行,Didi Chuxing)、Huijia Wu(滴滴出行,Didi Chuxing)、Long Ma(未说明)、Renwang Pei(未说明)、Zhaofeng He(未说明具体机构,可能来自BUPT或BNU) 💡 毒舌点评 亮点在于构建了第一个专门为评估“扩散模型驱动的数字人”伪造而设计的大规模多模态数据集(DigiFakeAV),数据生成流程严谨,有效暴露了现有检测器的脆弱性,为领域提供了急需的试金石。短板则是提出的检测方法DigiShield虽然有效,但更像一个验证多模态融合有效性的“基线”而非一个具有颠覆性的新架构,且其在DigiFakeAV上80.1%的AUC也说明“道高一尺,魔高一丈”,真正的安全挑战远未解决。 📌 核心摘要 要解决什么问题:现有深度伪造检测数据集和技术主要针对过时的面交换方法,无法有效评估和应对由扩散模型生成的、具有高度真实性和多模态一致性的新一代数字人伪造,导致现有检测器性能在现实威胁面前大幅下降。 方法核心是什么:本文提出两个核心贡献:a) 构建DigiFakeAV,一个包含6万视频的大规模多模态数据集,由5种前沿扩散模型生成,注重多样性、场景真实性和音视频同步质量。b) 提出DigiShield检测框架,采用双流网络分别提取视觉和音频的时空特征,并通过跨模态注意力和自注意力机制进行融合,以捕获微妙的跨模态不一致性。 与已有方法相比新在哪里:a) 数据集是第一个基于扩散模型、强调多模态一致性和场景多样性的伪造检测基准。b) 检测方法显式地建模了视频与音频在时空维度上的对齐关系,旨在应对扩散伪造的高一致性挑战。 ...

2026-04-29

Beyond Global Emotion: Fine-Grained Emotional Speech Synthesis with Dynamic Word-Level Modulation

📄 Beyond Global Emotion: Fine-Grained Emotional Speech Synthesis with Dynamic Word-Level Modulation #语音合成 #情感语音合成 #特征调制 #流匹配 #多任务学习 #数据集 ✅ 7.5/10 | 前25% | #语音合成 | #特征调制 | #情感语音合成 #流匹配 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0 | 置信度 高 👥 作者与机构 第一作者:Sirui Wang(哈尔滨工业大学) 通讯作者:Tiejun Zhao*(哈尔滨工业大学) 作者列表:Sirui Wang(哈尔滨工业大学)、Andong Chen(哈尔滨工业大学)、Tiejun Zhao(哈尔滨工业大学) 💡 毒舌点评 亮点:论文首次在LLM-TTS框架中实现了单词级的情感动态控制,概念清晰,并通过构建专用的FEDD数据集和详实的消融实验,有力地证明了其方法的有效性,实验设计相当规范。短板:然而,整个框架严重依赖于一个未完全公开细节的预训练模型(CosyVoice2),且代码和模型均未开源,这使得其“可复现性”大打折扣,更像是在现有强大基座上添加了一个精巧的模块,而非一个能独立复现和推广的完整解决方案。 📌 核心摘要 本文针对现有情感语音合成(E-TTS)方法大多依赖句子级全局情感控制(如标签、参考音频或提示)无法捕捉句内情感动态变化的问题,提出了Emo-FiLM框架。该方法的核心是:1)利用预训练的emotion2vec模型提取帧级情感特征,并通过一个轻量级Transformer模型将其对齐到单词,生成单词级的情感类别和强度标注;2)在预训练的LLM-TTS(CosyVoice2)框架中引入一个情感特征线性调制(E-FiLM)模块,将单词级的情感信息映射为文本嵌入的缩放和偏移参数,从而实现对语音生成过程的细粒度调制。为评估动态情感合成能力,论文构建了首个包含情感转折标注的Fine-grained Emotion Dynamics Dataset (FEDD)。实验表明,在FEDD数据集上,Emo-FiLM在情感动态匹配(DTW)指标上比最强基线(CosyVoice2)提升了9.1%(从54.57降至49.62),在主观情感相似度(EMOS)和自然度(NMOS)上也取得最佳成绩(4.19和4.23)。消融实验证实,单词级数据监督、情感损失和FiLM调制层均为关键组件。该工作为生成更自然、更具表现力的合成语音提供了新的方向,其主要局限在于依赖特定预训练模型且未开源代码,限制了复现与推广。 🏗️ 模型架构 Emo-FiLM框架整体分为两个核心阶段(如图2所示): 细粒度情感标注模块: 输入:语音波形及其对应的转录文本。 核心组件: Emotion2Vec特征提取器:一个预训练的自监督模型,用于从语音中提取高维的帧级情感特征序列。 Montreal Forced Aligner (MFA):用于获取文本单词与语音帧的精确对齐。 轻量级Transformer模型:接收对齐后的帧级特征序列,通过多头自注意力机制建模上下文依赖,输出增强的帧级表示。 掩码平均池化层:将每个单词对应的可变长度帧级特征序列聚合为一个固定维度的单词级情感向量。 双输出头:一个分类头预测离散情感类别(如快乐、悲伤),一个回归头预测连续情感强度(归一化到[0,1])。 输出:每个单词对应的动态情感注释(类别和强度)。 关键设计:此模块将传统句子级标签“提升”到单词级,为生成模块提供了精细的控制信号。 情感调制生成模块: ...

2026-04-29

BioSEN: A Bio-Acoustic Signal Enhancement Network for Animal Vocalizations

📄 BioSEN: A Bio-Acoustic Signal Enhancement Network for Animal Vocalizations #生物声学 #时频分析 #模型比较 #数据集 ✅ 7.5/10 | 前25% | #生物声学 | #时频分析 | #模型比较 #数据集 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0 | 置信度 高 👥 作者与机构 基于当前提供的论文内容: 第一作者:Tianyu Song (九州大学 生物资源与生物环境科学研究生院) 通讯作者:Ton Viet Ta (九州大学 农学院) 作者列表:Tianyu Song (九州大学 生物资源与生物环境科学研究生院),Ton Viet Ta (九州大学 农学院),Ngamta Thamwattana (纽卡斯尔大学 信息与物理科学学院),Hisako Nomura (九州大学 农学院),Linh Thi Hoai Nguyen (九州大学 国际碳中和能源研究所) 💡 毒舌点评 本文精准地瞄准了生物声学信号增强这一“蓝海”问题,并通过三个针对性设计的模块(MSDA, BHME, EAGC)有效提升了性能,其计算效率优势显著,体现了扎实的工程优化能力。然而,论文中的消融实验结果存在明显的指标矛盾(如CSCConv-AE+MSDA的SNR为负),且核心贡献主要是在现有语音增强框架上的适配与组合创新,缺乏根本性的理论或架构突破,代码和模型权重的缺失也削弱了其即时影响力。 ...

2026-04-29

Bleed No More: Generative Interference Reduction for Musical Recordings

📄 Bleed No More: Generative Interference Reduction for Musical Recordings #音乐源分离 #生成模型 #对抗学习 #数据集 ✅ 7.0/10 | 前25% | #音乐源分离 | #生成模型 | #对抗学习 #数据集 学术质量 5.5/7 | 选题价值 1.0/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Rajesh R (University of Illinois Chicago) 通讯作者:未说明 作者列表:Rajesh R (University of Illinois Chicago)、Rashen Fernando (University of Illinois Chicago)、Padmanabhan Rajan (Indian Institute of Technology Mandi)、Ryan M. Corey (University of Illinois Chicago) 💡 毒舌点评 本文精准地切入“干扰消除”而非“源分离”这一细分赛道,用条件生成对抗网络给出了一个干净利落的技术方案,在跨风格测试(印度古典音乐)上展现出不错的泛化能力,是“小题大做”的典范。然而,核心生成器工作在幅度谱上并复用输入相位,这几乎是音频增强领域的“经典妥协”,导致SAR指标普遍偏低,论文对此的讨论止于局限性陈述,未能提出更优的相位处理方案,略显保守。 ...

2026-04-29

CASTELLA: Long Audio Dataset with Captions and Temporal Boundaries

📄 CASTELLA: Long Audio Dataset with Captions and Temporal Boundaries #音频检索 #多模态模型 #预训练 #迁移学习 #数据集 🔥 8.5/10 | 前25% | #音频检索 | #迁移学习 | #多模态模型 #预训练 学术质量 6.2/7 | 选题价值 1.5/2 | 复现加成 0.8 | 置信度 高 👥 作者与机构 第一作者:Hokuto Munakata(LY Corporation) 通讯作者:未说明(论文中通讯作者符号*对应作者列表第二位Takehiro Imamura,但未明确其通讯作者身份) 作者列表:Hokuto Munakata(LY Corporation)、Takehiro Imamura(名古屋大学)、Taichi Nishimura(LY Corporation)、Tatsuya Komatsu(LY Corporation) 💡 毒舌点评 本文最大的贡献是为音频时刻检索任务“修桥铺路”,用一个规模空前(相比前作大24倍)且质量可控的真实世界数据集,终结了该任务依赖合成数据或极小测试集的尴尬历史,让后续研究得以立足于可靠地基之上。然而,它也清晰地揭示了一个残酷现实:即便有了优质数据,当前模型在检索短时刻(<10秒)时依然表现糟糕,这恐怕是未来比数据规模更难啃的骨头。 📌 核心摘要 要解决什么问题:音频时刻检索(AMR)任务长期缺乏大规模、真实世界的人工标注基准数据集,导致现有模型性能评估不可靠,且训练严重依赖合成数据。 方法核心是什么:构建了CASTELLA数据集。它包含1862个1-5分钟的YouTube音频,每个音频配有全局摘要描述、多个局部关键事件描述及其精确的起止时间边界。同时,基于该数据集,采用预训练音频-文本模型(CLAP)结合检测Transformer(DETR)架构建立了基线模型。 与已有方法相比新在哪里:CASTELLA是首个满足AMR任务三大核心需求(长音频、自由格式描述、时间边界)的大规模真实世界数据集。其标注规模(约1.9k音频)是此前人工标注数据集(UnAV-100子集)的24倍以上。此外,论文首次系统验证了“在合成数据上预训练,再在真实数据集上微调”的两阶段训练策略的有效性。 主要实验结果如何:实验证明,使用CASTELLA进行微调能显著提升性能。仅在合成数据集(Clotho-Moment)上训练的模型Recall1@0.7为5.8;仅在CASTELLA上训练为9.7;而在合成数据预训练后于CASTELLA微调的模型达到16.2,提升10.4点。不同架构对比中,UVCOM模型表现最优(Recall1@0.7: 20.3)。实验还发现,模型对短时刻(<10秒)的检索能力明显较弱(见图3)。 索引 DETR网络 训练数据 R1@0.5 R1@0.7 mAP@0.5 mAP@0.75 mAP@avg. 1 QD-DETR Clotho-Moment 10.3 5.8 9.9 4.7 5.3 2 - CASTELLA 19.8 9.7 17.6 5.9 7.7 3 - 两者 30.6 16.2 26.5 12.2 13.7 4 Moment-DETR 两者 19.3 10.8 17.2 7.0 8.2 5 UVCOM 两者 31.7 20.3 28.4 15.2 15.9 实际意义是什么:为音频理解领域,特别是音频时刻检索任务,提供了一个可靠的评估基准和训练资源,推动了该任务从合成数据走向真实应用。 主要局限性:1)数据集规模虽相对前作巨大,但对于深度学习而言仍属中等;2)音频均来自YouTube,可能存在领域偏差;3)短时刻检索仍是巨大挑战;4)论文未探索更先进的音频表示学习模型或更复杂的检索架构。 🏗️ 模型架构 论文中的基线模型基于 AM-DETR 架构,该架构受视频时刻检索(VMR)模型启发。 ...

2026-04-29