FoleyBench: A Benchmark for Video-to-Audio Models

📄 FoleyBench: A Benchmark for Video-to-Audio Models #音频生成 #基准测试 #音视频 #多模态模型 ✅ 7.5/10 | 前25% | #音频生成 | #基准测试 | #音视频 #多模态模型 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Satvik Dixit(Carnegie Mellon University) 通讯作者:未说明 作者列表:Satvik Dixit (Carnegie Mellon University), Koichi Saito (Sony AI), Zhi Zhong (Sony AI), Yuki Mitsufuji (Sony AI, Sony Group Corporation), Chris Donahue (Carnegie Mellon University) 💡 毒舌点评 论文精准地指出了现有V2A评估基准(如VGGSound)在Foley场景下的核心缺陷(74%样本音画对应差),并针对性地提出了首个专用基准,分析深入且实用。然而,其数据集构建管道严重依赖商业模型(Gemini 2.5 Pro)进行质量过滤,这不仅增加了复现成本,也使得“可扩展自动化”的宣称打了一定折扣。 🔗 开源详情 代码:论文中未提及公开的代码仓库链接(如用于数据集构建的管道代码)。 模型权重:未提及。本文是基准论文,不提出自有模型。 数据集:论文提供了数据集样本网站(https://gclef-cmu.org/foleybench),并描述了数据来源和构建方法,但未明确说明完整数据集是否公开下载及具体获取方式。 Demo:未提及。 复现材料:论文详细描述了数据集构建的多阶段管道、使用的工具(YAMNet, Gemini 2.5 Pro)和过滤参数,为复现其数据集创建过程提供了清晰指南。评测指标使用了公开的AV-benchmark工具包。 论文中引用的开源项目:YAMNet, AV-benchmark toolkit, PANNs, LAION-CLAP, ImageBind等。 📌 核心摘要 要解决什么问题:现有的视频到音频(V2A)生成模型评估基准(如VGGSound)与Foley(音效)等实际下游应用严重脱节。分析发现,VGGSound中74%的视频音画对应关系差,且内容被语音和音乐主导,无法有效评估专为视觉事件生成同步音效的模型。 方法核心是什么:提出FoleyBench,首个大规模、专门针对Foley场景的V2A评估基准。它包含5000个经过自动筛选的高质量(视频、真实音频、文本描述)三元组。其核心是一个自动化的多阶段数据集构建管道:收集网络视频 -> 场景检测与裁剪 -> 通过YAMNet过滤语音/音乐 -> 使用Gemini 2.5 Pro筛选确保音画因果关系。 与已有方法相比新在哪里:(1)定义并专注于Foley场景(非语音、非音乐、音源可见且同步),填补了专用基准的空白;(2)设计了包含AudioSet和UCS标签、声源复杂度、声音包络类型等丰富元数据的标注体系,支持细粒度分析;(3)提供了包含650个30秒长视频的子集FoleyBench-Long,以评估长音频生成能力。 主要实验结果如何: 基准对比:与VGGSound相比,FoleyBench的Foley类别覆盖更广(Shannon熵5.35 vs 4.73),且评估结果相关性在音频保真度指标上较弱,说明其能提供不同的评估视角。 模型评估:在对11个SotA V2A模型的评估中,MMAudio在多数指标上表现最佳,Seeing & Hearing在语义对齐(IB)上最优,V-AURA在时序同步(DS)上次优。主要发现包括:模型在生成离散事件音时,同步变好但质量变差;在处理背景音和多源声音时性能显著下降;文本条件能提供关键的语义先验。 长视频评估:在FoleyBench-Long上,所有模型性能普遍下降,MMAudio仍保持同步优势,但音频质量大幅下滑;而专为长视频设计的LOVA在音频质量上表现相对较好。 关键数据表格: 方法 VGGSound IB↑ FoleyBench IB↑ FoleyBench DS↓ FoleyBench FAD↓ FoleyBench IS↑ V-AURA 0.276 0.237 0.716 27.2 6.44 Seeing&Hearing 0.339 0.371 1.08 25.0 4.80 MMAudio^T 0.332 0.306 0.447 8.76 11.2 实际意义是什么:为V2A研究社区,特别是Foley合成方向,提供了一个更可靠、更贴近应用的评估标准,有助于更准确地衡量模型进展,并指明未来改进方向(如提升离散事件音保真度、处理多源/背景音、长时生成)。 主要局限性是什么:(1)数据集构建核心环节依赖商业黑箱模型(Gemini),可复现性和透明度受限;(2)虽然分析了失败模式,但并未提出解决这些核心挑战(如多源声音混合、长时一致性)的新模型或算法。 🏗️ 模型架构 本文并未提出一个新的V2A生成模型,而是提出了一个用于评估现有模型的基准测试框架。因此,其核心“架构”是数据集构建管道与评估体系。 ...

2026-04-29 · 更新于 2026-05-20 · 2 min · 297 words

GMS-CAVP: Improving Audio-Video Correspondence with Multi-Scale Constrative and Generative Pretraining

📄 GMS-CAVP: Improving Audio-Video Correspondence with Multi-Scale Constrative and Generative Pretraining #音视频 #对比学习 #扩散模型 #音频生成 #多尺度模型 ✅ 7.5/10 | 前25% | #音频生成 | #扩散模型 | #音视频 #对比学习 学术质量 7.0/7 | 选题价值 1.5/2 | 复现加成 -0.5 | 置信度 中 👥 作者与机构 第一作者:未说明(论文作者列表为“Shentong Mo1,2,3, Zehua Chen3, Jun Zhu3”,未明确标注第一作者) 通讯作者:未说明 作者列表:Shentong Mo(卡内基梅隆大学,MBZUAI,清华大学),Zehua Chen(清华大学),Jun Zhu(清华大学) 💡 毒舌点评 亮点在于将多尺度对比学习和多尺度扩散生成统一在一个框架内,为音视频预训练提供了新范式,实验结果在多个指标上刷新了SOTA;短板是论文对于模型具体架构细节(如扩散模型中噪声预测网络的具体设计)、训练硬件和完整超参数列表描述不足,且未提及开源计划,这使得严格的复现存在挑战。 🔗 开源详情 代码:论文中未提及代码链接。 模型权重:未提及公开权重。 数据集:使用了公开数据集VGGSound、AudioSet和Panda70M,但未说明是否提供了特定的预处理脚本。 Demo:未提及在线演示。 复现材料:给出了部分训练细节(优化器、学习率、批次大小、训练轮数),并参考了Diff-Foley的扩散设置。但模型架构的具体实现细节、完整的超参数列表和训练日志/检查点未提供。 论文中引用的开源项目:引用并基于Diff-Foley [6]的生成器设置;使用Adam优化器。 开源计划:论文中未提及开源计划。 📌 核心摘要 本文旨在解决现有对比音视频预训练方法在捕捉细粒度、多层次跨模态对应关系以及直接支持生成任务方面的不足。方法核心是提出GMS-CAVP框架,它统一了多尺度视频-音频对齐(MSA)的对比学习目标与多尺度空间-时间扩散(MSD)的生成预训练目标。与之前仅使用单尺度全局对比学习的方法相比,GMS-CAVP能捕获从细到粗的时空依赖关系,并直接建模模态间的转换映射。主要实验结果表明,在VGGSound等数据集上,GMS-CAVP在视频到音频生成任务(KLD: 1.63, FAD: 0.75, Align Acc: 95.87)和检索任务(如视频到音频R@1: 28.90)上均大幅超越了现有方法。其实际意义是为音视频理解与生成提供了更强大、统一的预训练基础。主要局限性可能包括模型复杂度增加带来的计算开销,以及对扩散模型采样速度的潜在影响(论文未深入讨论)。 ...

2026-04-29 · 更新于 2026-05-20 · 2 min · 354 words

ICASSP 2026 - 音视频 论文列表

ICASSP 2026 - 音视频 共 6 篇论文 ← 返回 ICASSP 2026 总览 排名 论文 评分 分档 🥇 Uncertainty-Aware 3D Emotional Talking Face Synthesis with E 8.0分 前25% 🥈 RAP: Real-Time Audio-Driven Portrait Animation with Video Di 7.0分 前25% 🥉 Attentive AV-Fusionnet: Audio-Visual Quality Prediction with 7.0分 前25% 4. Look, Listen and Segment: Towards Weakly Supervised Audio-Vi 7.0分 前25% 5. Teacher-Guided Pseudo Supervision and Cross-Modal Alignment 7.0分 前25% 6. AVO-65: A Large-Scale Hierarchical Audio-Visual Object Datas 7.0分 前50% 📋 论文详情 🥇 Uncertainty-Aware 3D Emotional Talking Face Synthesis with Emotion Prior Distillation 🔥 8.0/10 | 前25% | #音视频 | #生成模型 | #不确定性估计 #多模态模型 ...

2026-04-29 · 更新于 2026-05-20 · 5 min · 1042 words

Meanflow-Accelerated Multimodal Video-to-Audio Synthesis Via One-Step Generation

📄 Meanflow-Accelerated Multimodal Video-to-Audio Synthesis Via One-Step Generation #音频生成 #流匹配 #音视频 #实时处理 ✅ 7.5/10 | 前25% | #音频生成 | #流匹配 | #音视频 #实时处理 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度 高 👥 作者与机构 第一作者:Xiaoran Yang(武汉大学电子信息学院) 通讯作者:Gongping Huang(武汉大学电子信息学院) 作者列表:Xiaoran Yang(武汉大学电子信息学院)、Jianxuan Yang(小米MiLM Plus,武汉)、Xinyue Guo(小米MiLM Plus,武汉)、Haoyu Wang(西南财经大学计算机与人工智能学院)、Ningning Pan(西南财经大学计算机与人工智能学院)、Gongping Huang(武汉大学电子信息学院) 💡 毒舌点评 这篇论文的核心亮点是将MeanFlow的一步生成能力成功“移植”到多模态VTA合成任务上,实现了推理速度的数量级提升,这在实际应用中极具吸引力。然而,其短板也相当明显:核心创新组件(MeanFlow和CFG-scaled)均非作者首次提出,论文更偏向于一项有价值的工程集成与任务适配,且消融实验仅探讨了CFG强度和训练配对比例,对于MeanFlow框架如何具体适配多模态条件融合的机制剖析不够深入。 🔗 开源详情 代码:论文中未提及代码链接。 模型权重:未提及。 数据集:训练和评估所用数据集(VGGSound, Kling-Audio-Eval, AudioCaps, WavCaps)均为公开数据集,但论文未说明是否提供其处理后的版本。 Demo:未提及。 复现材料:论文提供了详细的训练配置(优化器、学习率、batch size、训练步数)、超参数设置(模型层数、采样率、时间步采样分布)、硬件环境(8x H800 GPU)和评估指标说明,为复现提供了较好的基础。 引用的开源项目/模型:CLIP、Synchformer、VAE(具体模型未说明)、MMAudio、MeanFlow、CFG-Zero。 总结:论文中未提及开源计划。 📌 核心摘要 要解决什么问题:现有的基于流匹配的视频到音频(VTA)合成方法依赖多步迭代采样,导致推理速度慢,难以满足实时应用需求。同时,一步生成场景下应用分类器引导(CFG)容易因缺乏迭代修正而产生过冲和失真。 方法核心是什么:提出MeanFlow加速的多模态联合训练框架(MF-MJT)。核心是在多模态联合训练的骨干网络(基于MMAudio)上,采用MeanFlow公式建模平均速度场,从而支持原生一步生成。为稳定CFG,引入标量缩放机制(CFG-scaled),动态调整无条件预测的权重。 ...

2026-04-29 · 更新于 2026-05-20 · 2 min · 357 words

Mitigating Attention Sinks and Massive Activations in Audio-Visual Speech Recognition with LLMs

📄 Mitigating Attention Sinks and Massive Activations in Audio-Visual Speech Recognition with LLMs #语音识别 #语音大模型 #多模态模型 #音视频 #预训练 ✅ 7.0/10 | 前25% | #语音识别 | #语音大模型 | #多模态模型 #音视频 学术质量 7.0/7 | 选题价值 6.0/2 | 复现加成 0.0 | 置信度 中 👥 作者与机构 第一作者:Anand(不列颠哥伦比亚大学) 通讯作者:未说明 作者列表:Anand(不列颠哥伦比亚大学,加拿大)、Umberto Cappellazzo(伦敦帝国学院,英国)、Stavros Petridis(伦敦帝国学院,英国)、Maja Pantic(伦敦帝国学院,英国) 💡 毒舌点评 亮点在于从现象观察到机理分析(余弦相似度对齐)再到解决方法(去相关损失)形成了一个完整闭环,且控制旋转实验的验证相当漂亮。短板则是实验仅在单一的Llama 3.2-3B模型和有限的设置下进行,对于“该现象是否普遍存在于所有音视频LLM”以及“去相关损失是否会对模型其他能力产生副作用”这两个关键问题,论文缺乏更深入的探讨。 🔗 开源详情 代码:论文中未提及提供本研究的代码仓库链接。 模型权重:未提及公开微调后的模型权重。 数据集:未提及本研究使用的具体数据集及其获取方式。 Demo:未提及提供在线演示。 复现材料:未提供详细的训练配置、检查点或附录说明。论文提到实验细节可参考[8],但自身贡献部分的复现信息缺失。 论文中引用的开源项目: [8] Llama-AVSR:作为基础架构和实验细节的参考。 [17] LoRA:作为参数高效微调方法。 [28] AV-HuBERT:作为视频编码器。 [29] Whisper:作为音频编码器。 [31] LLaMA 3:作为基础LLM。 论文中未提及本研究的开源计划。 📌 核心摘要 本文首次研究了音视频语音识别(AVSR)大型语言模型(LLM)中存在的“注意力沉降”和“大规模激活”现象。论文发现,在微调过程中,除BOS token外,一些语义信息弱的中间token也会成为注意力沉降点,并且与BOS token在隐层空间中具有高余弦相似度,这导致了特征索引相同的大规模激活。基于此发现,作者提出了一种简单的去相关损失,通过惩罚BOS与其他token的余弦相似度来缓解这些问题。实验表明,该方法在Llama-AVSR模型上,在高音频-视频特征下采样率下能有效降低词错率(WER),例如在AVSR(16,5)设置下WER从4.15降至3.72。该方法的贡献在于为理解多模态LLM内部机制提供了新视角,并提供了一种轻量、有效的训练技巧以提升模型在压缩场景下的鲁棒性。局限性在于实验验证的LLM模型较为单一。 ...

2026-04-29 · 更新于 2026-05-20 · 2 min · 229 words

Motionbeat: Motion-Aligned Music Representation via Embodied Contrastive Learning and Bar-Equivariant Contact-Aware Encoding

📄 Motionbeat: Motion-Aligned Music Representation via Embodied Contrastive Learning and Bar-Equivariant Contact-Aware Encoding #音频表征学习 #对比学习 #音乐生成 #音视频 #跨模态 ✅ 7.5/10 | 前25% | #舞蹈生成 | #对比学习 | #音频表征学习 #音乐生成 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度 高 👥 作者与机构 第一作者:Xuanchen Wang(悉尼大学计算机科学学院) 通讯作者:未说明 作者列表:Xuanchen Wang(悉尼大学计算机科学学院)、Heng Wang(悉尼大学计算机科学学院)、Weidong Cai(悉尼大学计算机科学学院) 💡 毒舌点评 亮点: 论文巧妙地将“运动”作为监督信号引入音乐表征学习,提出的ECL和SRAL损失函数以及相位旋转、接触注意力等架构模块,从理论和实践上系统地弥补了现有音频模型在节奏感知上的短板,思路新颖且有效。 短板: 核心验证任务(舞蹈生成)的数据集(AIST++)风格相对单一,论文未探讨该表征在更广泛、更多样的音乐风格或非舞蹈类动作(如手势、体育)中的泛化能力,其“具身”的普适性有待进一步验证。 🔗 开源详情 代码:论文中未提及代码链接。 模型权重:未提及。 数据集:论文使用AIST++数据集,但未说明是否提供该数据集或相关处理脚本。 Demo:未提及。 复现材料:论文提供了详细的超参数设置(模型大小、学习率、批量大小等)和训练细节(GPU型号、优化器),但未提供完整的训练配置或检查点说明。 引用的开源项目:论文引用了多个开源工作作为基线或工具,如EDGE(舞蹈生成)、wav2vec 2.0、CLAP、Wav2CLIP、Jukebox、Soft-DTW等。 总体情况:论文中未提及开源计划。 📌 核心摘要 要解决什么问题: 现有音频表征学习模型(如基于音频-文本或音频-视觉)忽略了音乐与人类动作(尤其是舞蹈)之间内在的、本能的“具身”联系,导致学到的表征在节奏和结构信息上与运动脱节,限制了其在音乐到舞蹈生成等任务上的效果。 方法核心是什么: 提出MotionBeat框架,通过两个新训练目标和两个新架构模块来学习运动对齐的音乐表征。训练目标是:具身对比损失(ECL),通过引入“节奏相似但不同步”的困难负样本来增强对比学习的细粒度辨别能力;结构节奏对齐损失(SRAL),通过Soft-DTW和最优传输分别在节拍和小节级别强制对齐音频事件与运动事件。架构模块是:小节等变相位旋转,使模型对节奏的周期性变化具有等变性;接触引导注意力,让模型关注与音乐重音同步的运动瞬间。 与已有方法相比新在哪里: 首次将“人类运动”作为关键监督信号用于通用音乐表征学习,并针对性地设计了能捕捉周期性节奏(相位旋转)和强调关键动作(接触注意力)的架构。ECL损失也超越了标准对比学习,引入了任务相关的困难负样本。 主要实验结果如何: 在AIST++数据集上,MotionBeat在音乐到舞蹈生成任务上全面超越wav2vec 2.0, CLAP, Wav2CLIP, Jukebox等基线。例如,在舞蹈生成任务上,其物理合理性得分(PFC)为1.545(越低越好),节拍对齐得分(BAS)为0.27(越高越好),均优于最强基线Jukebox(PFC=1.598, BAS=0.24)。在下游任务如节拍跟踪、音乐标记、分类、情感识别和跨模态检索中也均取得最佳或具有竞争力的性能。消融实验证实了ECL、SRAL、相位旋转和接触注意力各组件的有效性。 实际意义是什么: 为音乐信息检索、舞蹈自动生成、音乐驱动的人机交互、音乐理解(尤其是节奏和情感层面)等领域提供了更高质量、更具“动作感”的基础音频表征,可能催生更自然、更同步的多媒体应用。 主要局限性是什么: 论文未讨论该框架在非舞蹈动作(如日常手势、体育运动)或更多样化音乐风格(如古典、爵士)上的泛化能力;训练依赖于高质量的配对音乐-运动数据(AIST++),数据获取门槛较高。 🏗️ 模型架构 MotionBeat是一个双流编码器框架,旨在学习与人类运动对齐的音乐嵌入表示。其整体架构如图1所示。 ...

2026-04-29 · 更新于 2026-05-20 · 2 min · 263 words

MSCT: Differential Cross-Modal Attention for Deepfake Detection

📄 MSCT: Differential Cross-Modal Attention for Deepfake Detection #音频深度伪造检测 #注意力机制 #音视频 #多模态模型 ✅ 6.5/10 | 前10% | #音频深度伪造检测 | #注意力机制 | #音视频 #多模态模型 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 -1.0 | 置信度 高 👥 作者与机构 第一作者:Fangda Wei(北京理工大学) 通讯作者:Shenghui Zhao(北京理工大学,有星号标记) 作者列表:Fangda Wei(北京理工大学),Miao Liu(北京理工大学),Yingxue Wang(中国电子技术标准化研究院),Jing Wang(北京理工大学),Shenghui Zhao(北京理工大学),Nan Li(中国电子技术标准化研究院) 💡 毒舌点评 论文提出的“差分跨模态注意力”(DCA)模块设计巧妙,其通过注意力矩阵相减来增强模型对伪造内容敏感性的思路,确实指出了传统注意力机制在伪造检测任务中可能存在的目标冲突问题,是一个不错的洞察。然而,如此强调性能提升的论文,却在开源复现信息上“一毛不拔”,连基础的代码仓库或超参数都不公开,这无异于在沙滩上画出宏伟蓝图却不提供任何工具,对推动整个领域的可复现进步毫无贡献。 🔗 开源详情 代码:论文中未提及代码仓库链接。 模型权重:未提及公开模型权重。 数据集:使用公开数据集FakeAVCeleb,但论文中未说明获取方式(通常可公开获取)。 Demo:未提供在线演示。 复现材料:未提供详细的训练配置、超参数、检查点或附录说明。 论文中引用的开源项目:引用了DLIB(用于人脸检测)、Res2Net、CBAM、Wavelet Convolution等工具或模型,但未说明是否基于其开源代码。 总体开源计划:论文中未提及任何开源计划。 📌 核心摘要 要解决的问题:现有音频-视觉深度伪造检测方法主要依赖跨模态对齐,但传统的跨模态注意力机制可能与对齐损失目标冲突(对伪造内容不敏感),且缺乏有效的多尺度时间特征提取。 方法核心:提出多尺度跨模态Transformer编码器(MSCT),包含两个核心模块:差分跨模态注意力(DCA) 和 多尺度自注意力(MSSA)。DCA通过计算自注意力矩阵与跨模态注意力矩阵的差值,增强对伪造线索的关注。MSSA使用不同尺度的卷积处理Key矩阵,以整合相邻嵌入的多尺度时间信息。 与已有方法相比新在哪里:与传统跨模态注意力相比,DCA能更好地适配基于对齐损失的伪造检测任务;与标准自注意力相比,MSSA提供了更丰富的时间尺度感知能力,弥补了帧级特征提取的不足。 主要实验结果:在FakeAVCeleb数据集上,该方法取得了98.75%的准确率(ACC) 和 98.83%的AUC,显著优于表1中列出的所有基线方法,包括ACC为94.05%的MRDF-CE和96.30%的BusterX。消融实验(表2)表明,DCA模块(+1.25% ACC)比MSSA模块(+0.25% ACC)带来更大的性能增益。T-SNE可视化(图5)显示,本方法能更好地区分类别。 实际意义:提升了音视频深度伪造检测的准确性和鲁棒性,为多媒体内容安全提供了更强大的技术工具。 主要局限性:实验仅在单一数据集FakeAVCeleb上进行,缺乏跨数据集泛化性验证;未提供代码和详细复现参数,可复现性极差;与最新方法BusterX的对比缺少AUC指标。 🏗️ 模型架构 本文提出的多尺度跨模态Transformer编码器(MSCT)框架如图2所示,包含单模态特征提取和多模态特征融合两大模块。 ...

2026-04-29 · 更新于 2026-05-20 · 2 min · 220 words

Multimodal Self-Attention Network with Temporal Alignment for Audio-Visual Emotion Recognition

📄 Multimodal Self-Attention Network with Temporal Alignment for Audio-Visual Emotion Recognition #语音情感识别 #多模态模型 #跨模态 #音视频 🔥 8.0/10 | 前25% | #语音情感识别 | #多模态模型 | #跨模态 #音视频 学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0 | 置信度 高 👥 作者与机构 第一作者:Inyong Koo(韩国科学技术院 电气工程学院) 通讯作者:未说明 作者列表:Inyong Koo(韩国科学技术院 电气工程学院)、Yeeun Seong(韩国科学技术院 绿色增长与可持续发展研究生院)、Minseok Son(韩国科学技术院 电气工程学院)、Jaehyuk Jang(韩国科学技术院 电气工程学院)、Changick Kim(韩国科学技术院 电气工程学院) 💡 毒舌点评 本文巧妙地将多模态融合中的“帧率错位”这一棘手工程问题,转化为位置编码设计问题(TaRoPE)并辅以一个显式的跨时间匹配损失(CTM),思路清晰且有效;但实验仅在CREMA-D和RAVDESS这两个规模相对有限且场景较“干净”的数据集上验证,其泛化能力至更复杂、更“野生”的场景尚待考察。 🔗 开源详情 代码:论文中未提及代码仓库链接。 模型权重:未提及公开发布的模型权重。 数据集:使用了CREMA-D和RAVDESS公开数据集,论文中提供了获取指引(参考文献[14][15])。 Demo:未提及在线演示。 复现材料:论文详细给出了优化器、学习率、batch size、epoch数、损失函数权重(λ_ctm)以及关键模型维度(d_model, d_emb)等超参数,为复现提供了较好的基础。 论文中引用的开源项目:论文依赖并提到了两个主要开源工具/模型:xlsr-Wav2Vec 2.0 [16](用于音频特征提取)和OpenFace [18](用于视频AU特征提取)。 整体开源计划:论文中未提及开源计划。 📌 核心摘要 问题:现有的音视频情感识别(AVER)方法在融合多模态特征时,常忽略音频与视频信号固有的帧率差异(如50FPS vs 30FPS),导致时间上对齐的特征未能同步,影响细粒度情感线索的捕捉和跨模态融合效果。 方法核心:提出一个基于Transformer的统一框架,其核心是“时间对齐”。具体包括:a) TaRoPE:一种改进的旋转位置编码,通过为不同模态设置与其帧率相关的旋转角度,隐式地在注意力计算中同步异步的音频-视频序列;b) CTM损失:一种跨时间匹配损失,利用时间高斯亲和度显式地鼓励在物理时间上邻近的音频和视频帧拥有相似的表示。 创新点:与之前仅依赖帧级注意力或忽略帧率问题的融合方法相比,本文首次系统性地在Transformer架构中,通过改进位置编码和引入辅助损失,直接且显式地建模和解决了多模态间的帧率不匹配问题,实现了更精准的时间对齐。 实验结果:在CREMA-D和RAVDESS两个基准数据集上,该方法分别取得了89.49%和89.25%的准确率,超越了所有近期强基线方法,树立了新的SOTA。消融实验表明,统一的多模态自注意力(MSA)块比堆叠的单模态/跨模态注意力更高效,且TaRoPE和CTM损失均带来了显著且一致的性能提升。 实际意义:该工作通过提升音视频情感识别的准确性,对改善人机交互体验(如智能客服、虚拟助手)和情感智能分析具有积极意义。其提出的时间对齐思路对其他需要融合异步多模态信号的任务(如语音-动作识别)也有启发。 主要局限性:1) 实验仅在受控实验室环境下录制的数据集上进行,对复杂真实场景的鲁棒性未知;2) 视频特征依赖于预计算的AU特征,可能无法充分利用原始视频中的高级视觉信息;3) 论文未提供代码和模型权重。 🏗️ 模型架构 如图1所示,整体框架是一个端到端的Transformer编码器,用于音视频情感分类。其完整流程如下: ...

2026-04-29 · 更新于 2026-05-20 · 2 min · 295 words

Noise-Robust AV-ASR Using Visual Features both in the Whisper Encoder and Decoder

📄 Noise-Robust AV-ASR Using Visual Features both in the Whisper Encoder and Decoder #语音识别 #预训练 #音视频 #鲁棒性 🔥 8.0/10 | 前25% | #语音识别 | #预训练 | #音视频 #鲁棒性 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Zhengyang Li(Technische Universität Braunschweig, Institute for Communications Technology) 通讯作者:未说明 作者列表:Zhengyang Li(Technische Universität Braunschweig, Institute for Communications Technology),Thomas Graave(Technische Universität Braunschweig, Institute for Communications Technology),Björn Möller(Technische Universität Braunschweig, Institute for Communications Technology),Zehang Wu(Technische Universität Braunschweig, Institute for Communications Technology),Matthias Franz(Technische Universität Braunschweig, Institute for Communications Technology),Tim Fingscheidt(Technische Universität Braunschweig, Institute for Communications Technology) 💡 毒舌点评 亮点:在LRS3基准的噪声测试(MUSAN babble, 0dB SNR)中,基于Whisper medium的“双用”方法相比强力的中间融合基线(Flamingo)取得了高达57%的相对错误率降低(4.07% vs. 9.53%),噪声鲁棒性提升非常显著且可复现。短板:方法的性能高度依赖于一个独立的、参数量庞大的预训练视觉编码器(AV-HuBERT large, 325M参数),这使得整个AV-ASR系统的总参数量远大于音频单模态Whisper,为实际部署(尤其是资源受限场景)带来了显著的计算开销。 ...

2026-04-29 · 更新于 2026-05-20 · 3 min · 435 words

OMNI-AVSR: Towards Unified Multimodal Speech Recognition With Large Language Models

📄 OMNI-AVSR: Towards Unified Multimodal Speech Recognition With Large Language Models #语音识别 #多任务学习 #多模态模型 #大语言模型 #音视频 🔥 8.5/10 | 前10% | #语音识别 | #多任务学习 | #多模态模型 #大语言模型 学术质量 6.0/7 | 选题价值 1.8/2 | 复现加成 0.8 | 置信度 高 👥 作者与机构 第一作者:Umberto Cappellazzo(Imperial College London, UK) 通讯作者:未说明 作者列表:Umberto Cappellazzo(Imperial College London, UK)、Xubo Liu(University of Surrey, UK)、Pingchuan Ma(Imperial College London, UK)、Stavros Petridis(Imperial College London, UK)、Maja Pantic(Imperial College London, UK) 💡 毒舌点评 这篇论文的亮点在于其“统一”和“弹性”的工程设计思想——用一个模型搞定三种语音识别任务,并在推理时按需调整计算量,这比训练一堆专用模型要高明得多,且实验数据扎实。但短板在于,其“统一”建立在对现有LLM(Llama/Qwen)的微调之上,核心创新更多是训练范式和适配策略的巧妙组合,而非提出一个新的基础架构,因此其天花板可能受限于基础LLM的能力。 🔗 开源详情 代码:论文提供了代码仓库链接:https://github.com/umbertocappellazzo/Omni-AVSR。 模型权重:论文中未提及是否公开预训练或微调后的完整模型权重。 数据集:使用公开的LRS2和LRS3数据集,论文中未说明是否提供额外数据。 Demo:论文中未提及在线演示。 复现材料:论文详细说明了模型架构、训练细节(优化器、学习率、轮数、增强策略)、关键超参数(LoRA秩、压缩率、束搜索设置)等,复现信息较为充分。 论文中引用的开源项目:主要依赖预训练模型:Whisper(音频编码器)、AV-HuBERT(视频编码器)、Llama 3.2(LLM骨干)。 📌 核心摘要 问题:现有的基于大语言模型(LLM)的语音识别方法通常为听觉语音识别(ASR)、视觉语音识别(VSR)和音视频语音识别(AVSR)分别训练独立的模型,这导致了高昂的计算和部署成本,且忽略了任务间的潜在协同。此外,它们依赖固定的令牌压缩率,限制了在准确率和效率之间灵活权衡的能力。 方法核心:本文提出Omni-AVSR,一个统一的音视频LLM框架,能在单一模型中支持ASR、VSR和AVSR,并支持弹性推理。其核心技术包括:a) 优化后的“套娃表示学习”训练范式,通过在训练时随机采样音频和视频压缩率,将训练成本从与压缩率组合数成正比降低到仅与任务数成正比;b) 探索了三种基于LoRA的参数高效微调策略(Omni-LoRA-S/T/ST),以平衡共享与任务特异性。 创新点:与先前工作相比,Omni-AVSR首次在单一模型中同时实现了:i) 对ASR、VSR和AVSR三种任务的统一支持;ii) 支持弹性推理的多粒度训练。这使其训练和部署资源需求显著低于需要为每个任务和压缩率组合训练单独模型的方法(如Llama-AVSR)。 实验结果:在LRS2和LRS3数据集上,Omni-AVSR在三种任务和多种压缩率下均达到与或优于独立SOTA模型(如Llama-AVSR, Llama-MTSK)的性能。例如,在LRS3上,Omni-AVSR-T的平均WER达到7.9%。模型在噪声环境下表现出鲁棒性。通过缩放实验发现,1-3B参数的LLM在性能与效率间取得了良好平衡。关键结果如下表所示: 表I:LRS2与LRS3数据集上不同压缩率的ASR/VSR/AVSR结果(WER%) ...

2026-04-29 · 更新于 2026-05-20 · 2 min · 395 words