Audience-Aware Co-speech Gesture Generation in Public Speaking via Anticipation Tokens

📄 Audience-Aware Co-speech Gesture Generation in Public Speaking via Anticipation Tokens #跨模态 #扩散模型 #多模态模型 #音频生成 🔥 8.0/10 | 前50% | #音频生成 | #扩散模型 | #跨模态 #多模态模型 学术质量 6.3/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度 高 👥 作者与机构 第一作者:Huan-Yu Chen (台湾新竹清华大学电机系) 通讯作者:Chi-Chun Lee (台湾新竹清华大学电机系) 作者列表:Huan-Yu Chen (台湾新竹清华大学电机系), Woan-Shiuan Chien (台湾新竹交通大学电机与计算机工程研究所), Chi-Chun Lee (台湾新竹清华大学电机系) 💡 毒舌点评 这篇论文的亮点在于其问题重构的视角——将公共演讲手势生成从“单向语音到手势”的映射,转变为包含观众预期的“互动式”生成,这为该领域注入了新的思考维度。然而,其短板也较为明显:一是性能提升主要体现在FGD和BC上,但牺牲了手势多样性(Diversity指标下降),且面部表情生成效果改善有限;二是作为一篇顶会论文,完全没有提供任何代码或模型资源,这在强调可复现性的今天,无疑削弱了其学术贡献的落地价值和社区影响力。 🔗 开源详情 代码:论文中未提及代码仓库链接。 模型权重:未提及公开权重。 数据集:论文描述了如何从公开来源(TED Talks, The Daily Show)构建数据集,但未提及是否会发布处理后的、带有笑声锚点标注和特征提取的专用数据集。 Demo:未提供在线演示。 复现材料:论文提供了较为详细的训练细节,包括:数据集规模、视频帧率(15fps)、片段长度(5秒:1秒前缀+4秒预测)、笑声检测阈值(0.5)、优化步数(400k)、batch size(64)、学习率(1e-4)、硬件(单卡A100 80GB,训练2天)。这些信息对复现有较大帮助。 论文中引用的开源项目:主要依赖预训练模型WavLM(未指明具体版本或链接)、身体/面部姿态估计工具PyMAF-X和SmoothNet、以及笑声检测器(引用[9]但未具体说明)。 开源计划:论文中未提及任何开源计划。 📌 核心摘要 问题:现有的协同语音手势生成方法大多将公共演讲视为单说话人任务,忽略了观众的存在及其与演讲者之间的动态交互。这种简化视图无法捕捉公共演讲中演讲者主动预期并引发观众反应的关键特征。 方法核心:提出一个观众感知的协同语音手势生成框架。核心是引入“观众响应预期令牌”,该令牌编码了即将发生的观众反应(如笑声)的符号化信息。该令牌与语音特征在预训练的语音编码器中进行早期融合,融合后的条件嵌入通过跨注意力机制指导一个基于扩散的生成器合成手势。 新意:与已有方法相比,新在三个方面:(1) 理论上,将单说话人手势生成重新定义为演讲者与观众预期的联合建模问题;(2) 方法上,通过符号化的预期令牌和早期融合策略,显式地建模了演讲者的“预期”心理状态;(3) 实验上,构建了一个包含正负样本(反应前/非反应)的对比数据集用于训练预期令牌。 实验结果:在TED Talks和The Daily Show两个数据集上的实验表明,该方法在手势真实度(FGD)和语音-手势同步性(BC)指标上优于多数基线方法。消融实验表明,将预期令牌在语音表征阶段进行早期融合或作为控制信号的中期融合,效果优于在扩散生成阶段进行后期融合。具体数值见下表: 模型 数据集 FGD ↓ BC ↑ Diversity ↑ MSE ↓ LVD ↓ DiP (最强基线) TED Talks 0.646 0.613 62.35 11.58 10.77 本文方法 TED Talks 0.633 0.617 61.29 11.85 10.55 DiffSHEG (最强基线) The Daily Show 0.726 0.633 60.24 10.25 9.256 本文方法 The Daily Show 0.721 0.662 60.12 10.56 9.741 实际意义:为公共演讲、在线教育、虚拟主播等场景下的手势生成提供了更符合社交互动本质的建模思路,有望提升虚拟人或机器人的表现力和自然度。 主要局限:模型在提升真实度和同步性的同时,可能限制了生成手势的多样性;对更细微的面部表情生成效果提升有限;实验仅基于观众笑声这一种预期信号,且依赖预先检测,未在闭环或更动态的交互中验证。 🏗️ 模型架构 模型整体架构(如图1所示)是一个基于扩散的、条件生成的框架,主要包含三个部分:语音与预期编码器、条件融合模块、扩散手势生成器。 ...

2026-04-29 · 更新于 2026-05-20 · 2 min · 274 words

Audio Classification Models are Vulnerable to Filter Perturbations

📄 Audio Classification Models are Vulnerable to Filter Perturbations #音频分类 #对抗样本 #鲁棒性 #信号处理 ✅ 7.5/10 | 前25% | #音频分类 | #对抗样本 | #鲁棒性 #信号处理 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Justin Dettmer(RWTH Aachen University, Chair for Artificial Intelligence Methodology) 通讯作者:未说明 作者列表: Justin Dettmer(RWTH Aachen University, Chair for Artificial Intelligence Methodology) Annelot Bosman(Leiden University, Leiden Institute of Advanced Computer Science) Igor Vatolkin(RWTH Aachen University, Chair for Artificial Intelligence Methodology) Holger Hoos(RWTH Aachen University, Chair for Artificial Intelligence Methodology; Leiden University, Leiden Institute of Advanced Computer Science) 💡 毒舌点评 本文最大的亮点在于将对抗扰动从“像素/采样点级噪声”升维到更具物理和语义意义的“频域滤波器”,使得攻击更贴近真实世界中录音设备差异造成的频谱失真,这种更现实的威胁建模思路值得肯定。然而,论文虽然证明了当前模型对此脆弱,但提出的对抗训练解决方案计算成本高达10倍,且缺乏与现有多样性音频增强(如FilterAugment)方法的直接鲁棒性对比,使得“防御有效性”的结论稍显单薄。 ...

2026-04-29 · 更新于 2026-05-20 · 1 min · 199 words

Audio Deepfake Detection at the First Greeting: "Hi!"

📄 Audio Deepfake Detection at the First Greeting: “Hi!” #音频深度伪造检测 #时频分析 #端到端 #鲁棒性 #实时处理 ✅ 7.5/10 | 前25% | #音频深度伪造检测 | #时频分析 | #端到端 #鲁棒性 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Haohan Shi(拉夫堡大学伦敦分校数字技术研究所) 通讯作者:Yunxiao Zhang(埃克塞特大学计算机科学系) 作者列表:Haohan Shi(拉夫堡大学伦敦分校数字技术研究所)、Xiyu Shi(拉夫堡大学伦敦分校数字技术研究所)、Safak Dogan(拉夫堡大学伦敦分校数字技术研究所)、Tianjin Huang(埃克塞特大学计算机科学系)、Yunxiao Zhang(埃克塞特大学计算机科学系) 💡 毒舌点评 这篇论文精准地切入了音频伪造检测中一个极具现实意义的细分场景——“第一句话”检测,并为此设计了针对性的轻量化框架,实验对比充分且结果显著,工程化考量(效率、部署)也值得肯定。不过,其核心模块(PCEM, FCEM)的命名虽显“豪华”,但内部算子(如卷积、池化、GELU)的组合更像是一个精心调优的“乐高”拼装,原创的理论洞察稍显薄弱,更像是一个扎实的工程优化案例。 🔗 开源详情 代码:论文在结论部分声明“Codes are available.”,表明代码已公开,但未在文中提供具体的仓库链接(如GitHub URL)。 模型权重:未提及是否公开预训练模型权重。 数据集:训练数据集Dcom由多个公开数据集构建,论文未提供独立的下载链接,但指明了来源语料库。评测数据集ADD-C也已公开使用。 Demo:未提供在线演示。 复现材料:提供了较为详细的训练配置信息(损失函数、优化器、调度策略、Batch Size、早停设置等),以及模型架构的主要组件和关键超参数。未提及是否提供配置文件、环境依赖或更详细的附录。 论文中引用的开源项目:提到了依赖的基线模型实现(LCNN, RawNet2, AASIST等)和数据集(Fake-or-Real, Wavefake, ASVspoof等)。 论文中未提及开源计划:除了声明代码可用外,未提及是否在特定平台维护、是否持续更新或提供issue支持等详细开源计划。 📌 核心摘要 本文旨在解决在真实世界通信降质(如编解码、丢包)条件下,对超短音频(0.5-2秒)进行深度伪造检测的挑战,典型场景是通话开头的“Hi”。作者提出了S-MGAA框架,这是对MGAA的轻量化扩展。其核心方法包括两个新模块:像素-通道增强模块(PCEM)和频率补偿增强模块(FCEM),前者从时频像素和通道维度增强伪造线索的显著性,后者通过多尺度频率分析来补偿时间信息的不足。与已有方法相比,本文首次联合关注了超短输入和通信降质鲁棒性两个方面,并设计了轻量高效的模型。主要实验结果表明:在ADD-C测试集上,S-MGAA-MFCC在0.5秒输入下的平均等错误率(EER)为3.44%,相比次优基线(RawGAT-ST)的4.52%降低了23.89%;在所有时长和降质条件下均取得最优或次优性能;同时,模型在实时因子(RTF)、浮点运算量(GFLOPs)和训练时间上展现出显著优势。该研究为实时部署在资源受限设备(如智能手机)上的早期语音欺骗检测提供了可行方案。主要局限性在于,实验评估均在合成降质数据集上进行,未在真实部署的实时通信系统中验证其端到端性能。 ...

2026-04-29 · 更新于 2026-05-20 · 2 min · 315 words

Audio Effect Estimation with DNN-Based Prediction and Search Algorithm

📄 Audio Effect Estimation with DNN-Based Prediction and Search Algorithm #音频效果估计 #音乐信息检索 #深度神经网络 #优化算法 #音频效果移除 ✅ 7.0/10 | 前25% | #音频效果估计 | #深度神经网络 #优化算法 | #音乐信息检索 #深度神经网络 学术质量 7.0/7 | 选题价值 1.0/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Youichi Okita(关西学院大学 理工学研究科) 通讯作者:Haruhiro Katayose(关西学院大学 工学部) 作者列表:Youichi Okita(关西学院大学 理工学研究科)、Haruhiro Katayose(关西学院大学 工学部) 💡 毒舌点评 这篇论文的亮点在于它优雅地模拟了人类音频工程师“先猜后调”的工作流程,将数据驱动的预测与基于信号相似度的搜索有机结合,实验证明这种“两阶段法”确实优于纯预测方法。短板在于其研究的问题场景(吉他效果链)相对垂直窄众,虽然方法论扎实,但能否推广到更复杂、更多样的现实音频处理场景(如流行音乐、混音工程)还有待验证,且未与该领域所有可能的最新方法进行对比。 🔗 开源详情 代码:论文中未提及代码仓库链接。 模型权重:未提及公开的模型权重。 数据集:论文中提及使用了公开的吉他数据集(IDMT-SMT-Guitar, GuitarSet, EGDB, Guitar-TECHS),但用于生成湿信号的效果参数和生成脚本未提及是否公开。 Demo:提供了一个在线演示网站:https://okitayouichi.github.io/afx-pred-sch-demo/ 复现材料:论文提供了较为详细的训练超参数、网络架构描述和损失函数公式,但缺乏硬件配置、训练时长、以及完整的配置文件或检查点信息。 论文中引用的开源项目:使用了pedalboard库(由Spotify开源)来生成数据,使用了Optuna框架来进行搜索算法实现。 📌 核心摘要 解决的问题:解决“音频效果估计”任务,即从经过效果处理的湿信号中,推断出所应用的效果器类型、顺序及其参数设置。 方法核心:提出一种两阶段方法。第一阶段,使用DNN预测干信号和/或效果配置的部分信息(如类型组合);第二阶段,以预测的干信号为基础,通过优化算法(如CMA-ES)搜索最佳参数,使得应用预测效果链后重建的信号与原始湿信号的相似度最大化。 与已有方法相比新在何处:突破了现有方法要么纯预测(依赖大量标注数据,可能不准)、要么纯搜索(需要已知干信号)的局限。通过先预测干信号,为搜索阶段提供了关键输入,从而能够利用重建相似度这一客观目标来优化预测结果,实现了两类方法的互补。 主要实验结果:在吉他效果链数据集上,该两阶段方法在湿信号重建任务上显著优于纯预测基线(例如,SI-SDR从18.18提升至23.07)。同时,研究发现将“预测效果类型组合”与“搜索估计顺序和参数”结合的任务划分策略,在多项指标(类型分类F1、重建SI-SDR等)上表现最佳。关键结果表格如下: 任务 方法 核心指标 数值 单效果类型分类 Bypass-Type-Iter Macro F1 0.919 Bypass-Config-Iter Macro F1 0.917 效果链类型分类 Dry-Type-Direct + Search Macro F1 0.958 Bypass-Type-Iter Macro F1 0.949 Bypass-Config-Iter Macro F1 0.942 单效果移除 Bypass-Type-Iter SI-SDR 26.32 效果链移除 Dry-Type-Direct SI-SDR 13.96 Bypass-Type-Iter SI-SDR 14.95 湿信号重建 Bypass-Config-Iter (基线) SI-SDR 18.18 Dry-Type-Direct + Search SI-SDR 23.07 Bypass-Type-Iter + Search SI-SDR 22.68 实际意义:为自动化音频效果复制与分析提供了新思路,有望帮助音乐初学者学习音色设计,或辅助音频工程师快速复现复杂效果。 主要局限性:实验仅覆盖三种吉他效果(合唱、失真、混响)和较短的效果链,未涉及更多样化的效果类型和更长的链,其实用性和泛化能力有待进一步验证。 🏗️ 模型架构 论文的核心模型架构(预测阶段)如图2所示,其整体是一个包含“效果移除器”和“效果配置估计器”的深度神经网络。 ...

2026-04-29 · 更新于 2026-05-20 · 2 min · 319 words

Audio-Conditioned Diffusion LLMs for ASR and Deliberation Processing

📄 Audio-Conditioned Diffusion LLMs for ASR and Deliberation Processing #语音识别 #扩散模型 #语音大模型 #预训练 ✅ 7.0/10 | 前50% | #语音识别 | #扩散模型 | #语音大模型 #预训练 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0 | 置信度 中 👥 作者与机构 第一作者:Mengqi Wang (University of Illinois at Urbana-Champaign) 与 Zhan Liu (Tsinghua University) 共同贡献 通讯作者:未说明 作者列表:Mengqi Wang (University of Illinois at Urbana-Champaign), Zhan Liu (Tsinghua University), Zengrui Jin (Tsinghua University), Guangzhi Sun (University of Cambridge), Chao Zhang (Tsinghua University), Philip C. Woodland (University of Cambridge) 💡 毒舌点评 亮点:论文系统性地将新兴的扩散LLM(LLaDA)引入语音识别的“审思”环节和直接解码,证明了在引入音频条件后,扩散模型的双向注意力能有效修正自回归模型的错误,且部分配置下推理速度更快。短板:所有实验仅在LibriSpeech上进行,与最强的Whisper-Large v3基线相比仍有明显性能差距,且关键复现细节(如训练GPU型号、总时长)和开源材料均未提供,限制了工作的说服力和可验证性。 ...

2026-04-29 · 更新于 2026-05-20 · 2 min · 298 words

Audio-Guided Multimodal Approach for Fine-Grained Alignment and Boundary Modeling in Active Speaker Detection

📄 Audio-Guided Multimodal Approach for Fine-Grained Alignment and Boundary Modeling in Active Speaker Detection #说话人检测 #多模态模型 #对比学习 #预训练 ✅ 7.5/10 | 前25% | #说话人检测 | #多模态模型 | #对比学习 #预训练 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Yongkang Yin(北京大学深圳研究生院,广东省超高沉浸感媒体技术重点实验室;ADSPLAB,北京大学电子与计算机工程学院) 通讯作者:Yuexian Zou(北京大学深圳研究生院,广东省超高沉浸感媒体技术重点实验室;ADSPLAB,北京大学电子与计算机工程学院) 作者列表:Yongkang Yin(同上),Yukun Zhuang(同上),Zeyu Xie(同上;腾讯AI Lab),Chenxing Li(腾讯AI Lab),Le Xu(腾讯AI Lab),Yuexian Zou(同上) 💡 毒舌点评 亮点在于巧妙地利用预训练的语音活动检测(VAD)和说话人编码器提供的外部监督信号,来构建更精细的边界标签并引导视觉特征对齐,这为解决ASD数据集标注粗糙问题提供了可行的思路。短板是创新点较为分散,边界建模网络(滑动窗口+差分)的设计略显拼凑,且整体框架的“音频引导”更多体现在引入预训练特征,而非在融合架构上有根本性革新。 🔗 开源详情 代码:论文中未提及代码链接。 模型权重:未提及。 数据集:论文提及基于AVA数据集增强了语音活动标签,但未说明是否公开发布此增强数据集。 Demo:未提及。 复现材料:提供了较为详细的训练细节(优化器、学习率、轮数、损失权重等),有助于复现。 论文中引用的开源项目:引用了Silero VAD、ECAPA-TDNN(来自WeSpeaker)以及TalkNet的视觉编码器结构。 论文中未提及开源计划。 📌 核心摘要 本文针对主动说话人检测(ASD)任务中现有方法存在的音频-视觉语义对齐不精细、缺乏对语音和说话人转换边界显式建模的问题,提出了一种音频引导的多模态方法。该方法首先利用预训练的VAD和说话人模型为AVA数据集生成更精确的语音活动标签,解决了原有视觉标签不准确的问题;其次,通过监督对比学习策略,实现视觉特征与预训练语音活动特征之间的帧级语义对齐;最后,设计了一个边界建模网络,融合语音、说话人和视觉特征,并采用滑动窗口和帧差分策略捕捉语音起止和说话人转换的动态变化。在AVA-Active Speaker数据集上,该方法在单参与者建模方法中取得了最优的mAP(94.9%),显著提升了在语义边界处的预测准确率(边界帧准确率提升至80.6%),并在Columbia ASD数据集上展现了良好的泛化能力(平均F1-Score达82.0%)。该工作的实际意义在于提升了ASD系统在复杂多说话人场景下的准确性和鲁棒性。主要局限性在于模型创新点相对分散,且依赖多个外部预训练模型。 ...

2026-04-29 · 更新于 2026-05-20 · 2 min · 270 words

Audio-Text Jailbreak Attack on Large Audio-Language Models: Towards Generality and Stealthiness

📄 Audio-Text Jailbreak Attack on Large Audio-Language Models: Towards Generality and Stealthiness #音频安全 #对抗样本 #多模态模型 #跨模态 ✅ 7.0/10 | 前25% | #音频安全 | #对抗样本 | #多模态模型 #跨模态 学术质量 5.5/7 | 选题价值 1.0/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Yuhong Li(太原工业大学工业互联网安全山西省重点实验室 & 计算机科学与技术学院) 通讯作者:Jianhua Wang(太原工业大学工业互联网安全山西省重点实验室 & 计算机科学与技术学院,邮箱:wangjianhua02@tyut.edu.cn) 作者列表:Yuhong Li(太原工业大学工业互联网安全山西省重点实验室 & 计算机科学与技术学院)、Jiabao Zhang(太原工业大学工业互联网安全山西省重点实验室 & 计算机科学与技术学院)、Yan Chen(太原工业大学计算机科学与技术学院)、Zhihui Zhao(太原工业大学工业互联网安全山西省重点实验室 & 计算机科学与技术学院)、Jianhua Wang(太原工业大学工业互联网安全山西省重点实验室 & 计算机科学与技术学院) 💡 毒舌点评 亮点在于首次开辟了“音频+文本”联合优化的多模态越狱攻击赛道,并在实验上取得了90%以上的攻击成功率,有力证明了当前LALM在多模态融合下的脆弱性,为安全研究提供了新方向。短板是论文对“隐身性”的论证略显单薄,仅通过提升成功率来间接证明,并未深入评估攻击音频在人类听觉或音频检测系统中的隐蔽程度,削弱了“Stealthiness”这一主张的力度。 🔗 开源详情 代码:是,论文提供了GitHub仓库链接:https://github.com/SKLIIS-AIS/AudioTextJailbreak。 模型权重:未提及。论文未说明是否公开攻击者使用的模型或攻击目标模型的权重获取方式。 数据集:是,但获取方式不明确。论文提到使用TTS技术创建了音频版AdvBench数据集,但未提供公开下载链接或详细生成脚本。 Demo:未提及。 复现材料:论文中提及了代码,但未提供完整的训练配置、检查点或附录说明。对于攻击优化中的关键超参数细节未充分披露。 论文中引用的开源项目:TTS工具 Coqui;目标模型 Qwen2-Audio-7B-Instruct, Qwen2.5-Omni-3B;文本攻击基线 GCG;数据集 AdvBench。 📌 核心摘要 问题:现有的针对大型音频语言模型(LALM)的越狱攻击多局限于单模态(纯文本或纯音频),且通用性和隐蔽性不足。 方法核心:提出“音频-文本越狱攻击”(Audio-Text Jailbreak),首次联合优化微小的对抗音频扰动和恶意的文本后缀,共同诱导模型生成有害回应。同时设计了环境噪声添加和语速调整等隐身策略。 与已有方法相比新在哪里:a) 首次实现音频和文本模态的深度融合攻击;b) 设计的单个对抗音频/文本后缀可泛化应用于不同用户指令;c) 引入针对性的音频层隐身策略。 主要实验结果:在Qwen2-Audio和Qwen2.5-Omni两个模型上,攻击成功率(ASR)分别达到91.00% 和 92.73%,显著优于GCG、VoiceJailbreak、SpeechGuard等基线方法。关键实验结果如下表所示: 方法 非法活动 仇恨言论 人身伤害 欺诈 色情 隐私侵犯 平均 Base (无攻击) 0 0 0 0 0 0 0 GCG (文本攻击) 0.67 0.72 0.73 0.79 0.80 0.75 0.74 VoiceJailbreak 0 0.40 0.20 0.20 0.30 0 0.21 SpeechGuard 0.20 0.40 0.40 0.20 0.30 0 0.25 Audio-Text JailBreak (本文) 0.95 0.90 0.90 0.88 0.90 0.90 0.91 模型 Noise Rate Rate + Noise Ours Qwen2-Audio 84.00 83.30 86.61 91.00 Qwen2.5-Omni 82.50 85.65 73.91 92.73 平均 83.25 84.48 80.26 91.86 实际意义:揭示了当前LALM在处理跨模态输入时存在的严重安全漏洞,为模型安全加固(如多模态对齐安全训练)提供了明确的攻击测试基准和方向。 主要局限性:通用性验证实验仅在一个条件(K=10)下进行,泛化能力论证不够充分;隐身策略的实际效果(如是否易于被人耳察觉或被音频检测器识别)未通过直接的用户研究或客观度量进行评估。 🏗️ 模型架构 本文并未提出一个新的端到端语音大模型架构,而是针对现有的LALM(如Qwen2-Audio, Qwen2.5-Omni)设计了一个攻击框架。其核心是音频-文本联合越狱攻击流程。 ...

2026-04-29 · 更新于 2026-05-20 · 2 min · 264 words

Audio-to-Score Jazz Solo Transcription with the Rhythm Perceiver

📄 Audio-to-Score Jazz Solo Transcription with the Rhythm Perceiver #音乐信息检索 #爵士乐 #音频转录 #端到端 #节奏感知 ✅ 7.5/10 | 前25% | #音乐信息检索 | #端到端 | #爵士乐 #音频转录 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.3 | 置信度 中 👥 作者与机构 第一作者:未说明(论文标题页列出三位作者,但未明确标注第一作者) 通讯作者:未说明 作者列表:Ivan Shanin(Queen Mary University of London, Centre for Digital Music), Xavier Riley(Sound Patrol Inc.), Simon Dixon(Queen Mary University of London, Centre for Digital Music) 💡 毒舌点评 论文巧妙地将爵士乐转录问题拆解为“节奏优先,音高后补”的二阶段任务,并用一个统一的Transformer架构优雅地实现,这确实是模仿人类专家工作流程的聪明做法,在特定数据集上也取得了显著进步。然而,这种高度垂直的“爵士萨克斯独奏”任务定位,加上对高质量标注数据(如Omnibook)的强依赖,使其通用性和影响力打了个折扣;论文里对模型为何能有效泛化到节奏风格更复杂的帕克作品解释得也不够深入。 🔗 开源详情 代码:论文中未提及代码链接。 模型权重:未提及公开权重。 数据集:Filosax和Omnibook是公开数据集(论文引用了相关文献),WJD部分音轨似乎也被使用。但论文未提供处理后的数据或特定子集的直接下载链接。 Demo:未提供在线演示。 复现材料:提供了详细的模型架构描述、数据集划分、部分训练超参数(嵌入维度、层数、学习率、dropout)和损失函数。未提供完整的训练脚本或配置文件。 论文中引用的开源项目:引用了Ultimate Vocal Remover (UVR) [19]用于声源分离, Madmom [20]用于节拍跟踪, music21 [21]用于将预测序列转换为MusicXML格式。 总结:论文中未提及开源计划。 📌 核心摘要 这篇论文旨在解决即兴爵士独奏的音频到乐谱自动转录任务,特别是克服传统模块化流水线中错误累积的问题。其核心方法是提出一个名为“节奏感知器”(Rhythm Perceiver)的端到端神经网络模型。与先前方法不同,它逆向了处理逻辑:首先,模型预测每个小节中每个拍子的节奏结构(称为“节拍特征”),然后基于预测的节奏结构,在指定的起始点预测音高。模型采用了一种带有跨注意力机制的感知器(Perceiver)风格Transformer架构,将音频帧特征与节拍同步的节奏嵌入进行联合对齐。主要实验结果在极具挑战性的Charlie Parker“Omnibook”数据集上显示,该方法在多项指标上(如钢琴卷帘准确率、节奏准确率)显著优于现有的基线系统(CRNN+qparse),证明了显式建模节拍级节奏单元的有效性。其实际意义在于能为音乐分析和教育提供更准确的乐谱标注工具。主要局限性在于模型针对主流爵士乐节奏范式(如Bebop)进行训练,可能难以完美处理更复杂或前卫的节奏风格,且存在训练数据(Filosax)与测试数据(Omnibook)之间的领域差距。 ...

2026-04-29 · 更新于 2026-05-20 · 2 min · 282 words

Audio-Visual Deepfake Generation and Detection: An Exploratory Survey

📄 Audio-Visual Deepfake Generation and Detection: An Exploratory Survey #音频深度伪造检测 #语音伪造检测 #对比学习 #基准测试 #数据集 ✅ 6.5/10 | 前25% | #音频深度伪造检测 | #对比学习 | #语音伪造检测 #基准测试 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 -0.5 | 置信度 中 👥 作者与机构 第一作者:Hang Xu(哈尔滨工程大学计算机科学与技术学院) 通讯作者:Boquan Li(哈尔滨工程大学计算机科学与技术学院,liboquan@hrbeu.edu.cn),Min Yu(中国科学院信息工程研究所,yumin@iie.ac.cn) 作者列表:Hang Xu(哈尔滨工程大学计算机科学与技术学院)、Yuning An(哈尔滨工程大学计算机科学与技术学院)、Pengrui Fu(哈尔滨工程大学计算机科学与技术学院)、Zhiyu Fan(中国科学院信息工程研究所)、Boquan Li(哈尔滨工程大学计算机科学与技术学院)、Jiakun Liu(哈尔滨工业大学计算学部)、Yachao Liang(中国科学院信息工程研究所)、Min Yu(中国科学院信息工程研究所) 💡 毒舌点评 这篇综述及时填补了音视频深度伪造这一新兴交叉领域综述的空白,系统梳理了生成技术、检测方法和关键数据集,并指出了现有检测器在泛化性和鲁棒性上的普遍短板。然而,其实验部分虽有价值,但复现条件苛刻(需对大量检测器重新实现/训练),且综述本身未提出新的检测算法,结论的普适性受限于所选的有限数据集和检测器。 🔗 开源详情 代码:论文中未提及提供本文相关的代码仓库链接。论文指出,许多被评估的检测器“要么没有开放其实现代码,要么发布的代码或模型不完整”,因此论文作者对这些检测器进行了重新实现或训练。 模型权重:未提及。 数据集:论文评估所用的数据集(FakeAVCeleb, IDForge, AVLips, LAV-DF)是已公开的,但论文未提供获取方式或整理脚本。 Demo:未提及。 复现材料:论文为每个检测器标注了参考文献,并说明了重新训练/评估的总体原则,但未提供详细的复现配置文件、超参数列表或检查点。 论文中引用的开源项目:论文作为综述,引用了大量生成与检测的原始工作(如Wav2Lip, SadTalker, SpeechForensics等),这些工作本身大多有公开代码,但论文并未将其整合为一个可运行的工具包。 📌 核心摘要 这篇论文旨在应对音视频深度伪造(Audio-Visual Deepfake)日益增长的威胁,通过系统综述和实验评估,深入分析当前生成技术、检测方法及挑战。方法核心是:1)梳理了音视频深度伪造的生成方法(唇形同步和说话人脸生成)和相关数据集(完全伪造与部分伪造);2)将检测方法分为基于模态融合和基于模态不一致性两大类进行综述;3)通过泛化性实验和鲁棒性实验,评估了代表性检测器在多个数据集和多种失真下的可靠性。 ...

2026-04-29 · 更新于 2026-05-20 · 1 min · 176 words

Audio-Visual Feature Fusion for Calibrating Relevance Scores of Video Moment Retrieval

📄 Audio-Visual Feature Fusion for Calibrating Relevance Scores of Video Moment Retrieval #视频片段检索 #晚期融合 #重评分 #音视频 #多任务学习 ✅ 7.0/10 | 前25% | #视频片段检索 | #晚期融合 | #重评分 #音视频 学术质量 5.5/7 | 选题价值 1.0/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Takehiro Imamura(名古屋大学,LY Corporation) 通讯作者:未说明(论文中未明确标注通讯作者) 作者列表:Takehiro Imamura(名古屋大学, LY Corporation)、Tatsuya Komatsu(LY Corporation)、Hokuto Munakata(LY Corporation)、Tomoki Toda(名古屋大学) 💡 毒舌点评 这篇论文的亮点在于它精准地识别并试图解决DETR类模型在VMR中“定位准但排序乱”的痛点,提出的LARS模块设计清晰且与主流的早期融合形成完美互补。然而,其短板也相当明显:作为一项融合工作,创新性略显平淡(本质是一个轻量级的重评分网络),且未能与近年来可能更强的SOTA基线(如基于大型视频-语言模型的方法)进行对比,削弱了结论的冲击力。 🔗 开源详情 代码:论文中提及实验基于开源的lighthouse仓库 [27]。但未提供作者自身LARS模块的代码仓库链接。 模型权重:未提及是否公开预训练的LARS模型权重。 数据集:使用的是公开数据集(QVHighlights, HiREST, Charades-Audiomatter),论文中未提供数据集获取方式,但这些数据集通常可从原论文链接获取。 Demo:未提及。 复现材料:论文中说明了使用lighthouse库、与QD-DETR相同的超参数,但未给出具体的超参数配置(如学习率、batch size等)、训练配置文件或检查点。 引用的开源项目: lighthouse [27]:用于VMR-HD的复现性工具库。 QD-DETR [9]:基线VMR模型。 CLIP [21]:视觉和文本编码器。 SlowFast [22]:视觉编码器骨干网络。 PANNs [23]:音频编码器。 Whisper [25]:用于生成ASR文本。 Sentence-BERT [26]:用于编码ASR文本。 总结:论文在实验复现性上部分依赖于已有的开源工具和基线模型,但未提供其自身贡献部分(LARS)的开源实现,这限制了论文的可复现性。 📌 核心摘要 要解决什么问题:现有的DETR类视频片段检索(VMR)模型存在两个主要问题:(1)突变的视觉场景容易导致片段边界误检;(2)由于DETR的条件独立输出和sigmoid分数校准问题,模型输出的片段相关性分数不可靠,导致排序不佳。 方法核心是什么:提出“晚期融合重评分模块”(LARS)。它在VMR模型(如QD-DETR)输出候选片段后介入,提取每个候选片段对应的音视觉融合特征,计算这些特征与文本查询的对齐分数(基于余弦相似度),然后将该分数与VMR模型原始的前景/背景分类分数拼接,通过一个MLP进行最终的分数重校准。 与已有方法相比新在哪里:传统方法多采用“早期特征融合”(EFF),在模型输入阶段就拼接音视觉特征,这有助于改善片段定位,但无法解决DETR固有的分数校准问题。LARS则是一种“晚期特征融合”策略,在输出端对分数进行精炼,与EFF作用于模型的不同阶段,互为补充。 主要实验结果如何: 在QVHighlights、HiREST和Charades-Audiomatter三个基准上,单独使用LARS或单独使用EFF均能提升性能(如mAP avg.和R1@0.7)。 两者结合(EFF+LARS)能取得最佳性能,证实了互补性。例如在QVHighlights上,CLIP+Slowfast+PANNs特征下,仅EFF的mAP avg.为41.83,仅LARS为42.44,结合后为42.57。 消融实验显示,即使不使用音频特征,LARS也能提升性能,证明其对DETR分数的校准能力。 定性分析表明,EFF主要改进了定位精度(图2),而LARS主要提升了分数可靠性(图3)。 实际意义是什么:为VMR系统提供了一个即插即用的后处理模块,能有效利用音频信息来提升检索结果的排序质量,对于构建更精准的视频搜索、推荐和编辑工具有实用价值。 主要局限性是什么:创新相对有限,是一个针对性很强的工程化改进。实验中未与当前最前沿(如基于大型多模态语言模型)的VMR方法进行对比。LARS的计算开销和其带来的性能提升之间的权衡未被充分讨论。 🏗️ 模型架构 整体架构包含两个主要阶段:基线VMR模型和提出的LARS模块。基线模型通常采用带有早期特征融合(EFF)的QD-DETR。 ...

2026-04-29 · 更新于 2026-05-20 · 2 min · 346 words