音视频 | 语音/音乐/音频论文速递

Can Hierarchical Cross-Modal Fusion Predict Human Perception of AI Dubbed Content?

📄 Can Hierarchical Cross-Modal Fusion Predict Human Perception of AI Dubbed Content? #模型评估 #多模态模型 #音频分类 #音视频 ✅ 6.0/10 | 前25% | #模型评估 | #多模态模型 | #音频分类 #音视频学术质量 5.0/7 | 选题价值 1.5/2 | 复现加成 -0.5 | 置信度高 👥 作者与机构第一作者：未说明（论文作者列表中未明确标注顺序）通讯作者：未说明作者列表：Ashwini Dasare（Sony Research India）、Nirmesh Shah（Sony Research India，邮箱已提供）、Ashishkumar Gudmalwar（Sony Research India，邮箱已提供）、Pankaj Wasnik（Sony Research India，邮箱已提供） 💡 毒舌点评亮点：论文提出的“代理MOS+主动学习”框架，巧妙地将多种客观指标融合成弱监督标签，为解决昂贵的人工标注瓶颈提供了一个实用且可扩展的工程化方案。短板：其核心的“层级多模态融合”架构本质上是几种成熟模块（预训练编码器、LoRA、注意力门控、Transformer）的拼装，创新深度有限；且所有实验仅基于Hindi-English双向配音的特定数据集，结论的普适性有待验证。 🔗 开源详情代码：论文中未提及代码链接。模型权重：未提及公开的模型权重。数据集：实验使用了公开数据集MELD和M2H2，但论文中未提供其定制化配音数据（12k片段）的获取方式。 Demo：未提供在线演示。复现材料：提供了模型架构描述、超参数设置（LoRA rank, learning rate, batch size等）和训练流程概述，但缺乏完整的配置文件、检查点或详细的实验代码。引用的开源项目：论文引用了多个作为编码器基础的预训练模型（TimeSformer, Wav2Vec2.0, ECAPA-TDNN, Emo2Vec, Sentence-BERT, LoRA），以及用于生成数据的Gemini-9B, F5-TTS等，但未明确说明是否计划开源其贡献的部分。 📌 核心摘要要解决的问题：评估AI配音质量高度依赖昂贵且难以规模化的人工评分（MOS），现有的单一维度客观指标无法全面反映人类的整体感知。方法核心：提出一种层级化多模态融合架构，分别提取音频（说话人、韵律、情感）、视频（全局上下文、面部表情）和文本（语义）的特征，并通过模态内融合和跨模态融合层进行整合，最终预测一个综合的“配音分数”（DubScore）。为解决训练数据不足，设计了一个两阶段训练流程：先使用由多个客观指标加权聚合而成的“代理MOS”进行弱监督预训练（权重通过主动学习优化），再用少量人工MOS数据进行微调。新意：新意在于将主动学习应用于优化代理MOS的权重，并将该弱监督策略与参数高效（LoRA）的多模态层级融合网络相结合，形成一个从弱监督到强监督的完整训练pipeline。主要实验结果：在12k Hindi-English配音片段上训练后，最终模型预测的DubScore与人工MOS的皮尔逊相关系数（PCC）达到0.76，斯皮尔曼秩相关系数（SRCC）为0.77。消融实验表明，全模态（A+V+T）性能显著优于单模态或双模态；主动学习策略在权重学习上全面优于随机采样；“代理MOS+微调”的组合效果最佳（PCC从0.68提升到0.76）。关键实验数据见表2、表4、表5。实际意义：提供了一种可扩展的AI配音质量自动化评估方案，可用于指导配音系统优化、内容批量质检，降低对人工评估的依赖。主要局限性：1）模型和评估完全依赖于预训练特征提取器的质量；2）实验数据集规模（12k）和语言对（仅Hindi-English）有限，未在更多语言、更复杂的配音场景中验证；3）缺乏与最新配音评估方法（如基于LLM的评估）的直接对比；4）开源性不足，难以复现和扩展。 🏗️ 模型架构论文提出的架构如图1所示，其核心思想是模拟人类对配音质量的多层次感知过程，采用“先模态内融合，再跨模态融合”的层级设计。 ...

CoVA: Text-Guided Composed Video Retrieval for Audio-Visual Content

📄 CoVA: Text-Guided Composed Video Retrieval for Audio-Visual Content #跨模态检索 #音视频 #多模态模型 #对比学习 #数据集 #基准测试 ✅ 6.5/10 | 前25% | #跨模态检索 | #多模态模型 | #音视频 #对比学习学术质量 5.0/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度高 👥 作者与机构第一作者：Gyuwon Han (Chung-Ang University) 通讯作者：Chanho Eom (Chung-Ang University) 作者列表：Gyuwon Han (Chung-Ang University)、Young Kyun Jang (Google DeepMind)、Chanho Eom (Chung-Ang University) 💡 毒舌点评论文最大的亮点是提出了一个非常实际且被忽视的问题——用户可能因为音频不同而对视觉相似的视频有不同需求，并为此构建了首个音视频组合变化的检索基准，填补了领域空白。短板在于其提出的AVT融合模块本质上是为多模态特征学习一个加权平均，技术复杂度较低，核心模型架构创新有限。 🔗 开源详情代码：论文中提供了代码仓库链接：https://github.com/perceptualai-lab/CoVA/ 模型权重：论文中未明确提及是否公开预训练或微调后的模型权重。数据集：论文中构建了AV-Comp基准数据集，并提供了在线演示页面，但未明确说明数据集的公开下载方式。数据集地址：https://perceptualai-lab.github.io/CoVA/ Demo：提供了在线演示：https://perceptualai-lab.github.io/CoVA/ 复现材料：论文提供了实验设置、关键超参数（学习率、批大小、轮数）和训练硬件信息。未提供训练日志、配置文件或检查点。论文中引用的开源项目： CLIP（视觉和文本编码器） AST（音频编码器） Qwen2.5-VL-32B-Instruct（用于生成视频描述） Gemini（用于生成修改文本） AudioCaps 2.0（提供人工标注的音频描述） 📌 核心摘要要解决什么问题：现有的组合视频检索（CoVR）方法仅考虑视觉内容的修改，忽略了音频对用户检索意图的关键影响，导致视觉相似但音频不同的视频被错误地视为语义等价。方法核心是什么：提出了CoVA任务和AV-Comp数据集。方法上，提出了AVT Compositional Fusion模块，该模块通过一个简单的MLP为来自参考视频、修改文本（拆分为对象、动作、属性、音频四个方面）的每个特征分量预测一个权重，然后进行加权融合，以动态适应查询语义。与已有方法相比新在哪里：首次将音频模态的变化作为组合检索的核心考量因素。构建了首个支持音视频对齐变化查询的数据集AV-Comp。提出的AVT模块相比简单的平均融合，能更有效地利用多模态信息。主要实验结果如何：在AV-Comp测试集上，CoVA（使用CLIP-L编码器）达到了35.9% R@1，显著优于LanguageBind（27.17%）和ImageBind（20.2%）。消融实验证明移除任何文本组件（对象、动作、属性、音频）都会导致性能下降，证实了四个组件的必要性。主要结果对比如下表：方法 R@1↑ R@5↑ R@10↑ MnR↓ ImageBind 20.2 50.5 65.4 14.6 LanguageBind 27.17 61.44 77.12 8.7 CoVA (Ours) 35.9 73.7 86.4 6.2 实际意义是什么：为音视频内容的精细检索提供了新的范式和评估基准，推动多模态检索模型更全面地理解人类的多感官意图。主要局限性是什么：AVT模块设计相对简单，其性能提升部分依赖于更换了更强的文本编码器（CLIP-L）。数据集构建过程依赖于现成的视觉/音频描述生成模型（Qwen2.5-VL, Gemini），可能引入偏差。方法的可扩展性和在更复杂场景下的鲁棒性有待验证。 🏗️ 模型架构 CoVA框架整体分为三个模块：特征提取、门控融合Transformer（GFT）和AVT组合融合。其完整流程如下： ...

Cross-Modal Bottleneck Fusion for Noise Robust Audio-Visual Speech Recognition

📄 Cross-Modal Bottleneck Fusion for Noise Robust Audio-Visual Speech Recognition #语音识别 #多模态模型 #跨模态 #鲁棒性 #音视频 ✅ 7.5/10 | 前25% | #语音识别 | #多模态模型 | #跨模态 #鲁棒性学术质量 6.0/7 | 选题价值 7.5/2 | 复现加成 0.5 | 置信度中 👥 作者与机构第一作者：Seaone Ok（首尔大学IPAI、首尔大学智能信息学系）通讯作者：Kyogu Lee（首尔大学IPAI、首尔大学智能信息学系、首尔大学AIIS）作者列表：Seaone Ok（首尔大学IPAI、首尔大学智能信息学系）、Min Jun Choi（首尔大学IPAI、首尔大学智能信息学系）、Eungbeom Kim（首尔大学IPAI）、Seungu Han（首尔大学智能信息学系）、Kyogu Lee（首尔大学IPAI、首尔大学智能信息学系、首尔大学AIIS） 💡 毒舌点评该工作的核心亮点在于将“注意力瓶颈”这一高效范式巧妙移植到音视频语音识别中，通过一组可学习的紧凑令牌来调节跨模态信息流，在数据效率和噪声鲁棒性上展现出明显优势，尤其是在极端噪声（-7.5dB）下性能提升显著。然而，其最终性能天花板仍被使用海量数据预训练的模型（如Auto-AVSR）牢牢压制，表明瓶颈融合本身并不能解决AVSR对大规模数据的根本依赖，创新性更多体现在工程优化而非原理突破。 🔗 开源详情代码：论文中未提及代码链接。模型权重：未提及公开权重。数据集：使用公开的LRS2和LRS3数据集。 Demo：未提及在线演示。复现材料：提供了非常详细的训练配置、超参数和数据增强策略，为复现提供了良好的基础。论文中引用的开源项目：NOISEX-92噪声库、Speech Commands数据集。总体而言，论文中未提及开源计划，但提供了详实的复现细节。 📌 核心摘要要解决的问题：传统的音频语音识别在噪声下性能严重下降。现有的音频-视觉语音识别融合方法要么融合效果不佳，要么计算开销过大。核心挑战是如何设计一种机制，让模型在音频信号退化时能有效利用视觉信息，同时在干净语音下保持高性能。方法核心：提出CoBRA框架，采用双流（音频/视频）Conformer编码器，并在其中层引入一组紧凑的可学习“瓶颈令牌”。音频和视频流不直接交互，而是通过这组令牌进行信息交换，从而高效且可控地融合跨模态信息。与已有方法相比新在哪里：与传统的拼接或全注意力交叉融合相比，CoBRA通过瓶颈令牌严格调节信息流，减少了冗余和计算量。与应用于视频分类的MBT不同，本文专门针对AVSR的时序和解码特性进行了适配和深入研究，特别是系统地探索了融合层位置的影响。主要实验结果：在LRS3数据集上，使用664小时训练数据，干净语音WER为1.6%，在-7.5dB的babble噪声下WER为11.79%，相比基线（18.58%）相对提升约36.6%。在LRS2上取得2.8% WER。消融实验表明，中层融合（第4层）和32个瓶颈令牌是最优配置。注意力分析显示，随着噪声增强，模型更多地依赖视觉线索。数据集方法训练小时数干净WER (%) -7.5dB Babble WER (%) LRS3 CM-seq2seq (基线) 596 2.30 18.58 LRS3 CoBRA (Ours) 664 1.6 (主结果表) / 1.96 (消融表) 11.79 LRS2 CM-seq2seq (基线) 381 3.7 未提供 LRS2 CoBRA (Ours) 664 2.8 未提供注：主结果表与消融表中的基线和CoBRA数值存在细微差异，可能源于不同的实验设置或数据子集，此处一并列出。 ...

DepthTalk: Few-Shot Talking Head Generation with Depth-Aware 3D Gaussian Field Motion

📄 DepthTalk: Few-Shot Talking Head Generation with Depth-Aware 3D Gaussian Field Motion #说话人生成 #3D高斯溅射 #少样本学习 #音视频 ✅ 7.0/10 | 前25% | #说话人生成 | #3D高斯溅射 | #少样本学习 #音视频学术质量 5.8/7 | 选题价值 1.2/2 | 复现加成 0.0 | 置信度高 👥 作者与机构第一作者：Shucheng Ji（澳门理工大学应用科学学院）通讯作者：Xiaochen Yuan（澳门理工大学应用科学学院）作者列表：Shucheng Ji（澳门理工大学应用科学学院）、Junqing Huang（澳门理工大学应用科学学院）、Yang Lian（澳门理工大学应用科学学院）、Xiaochen Yuan（澳门理工大学应用科学学院） 💡 毒舌点评亮点在于其“深度梯度损失”设计很巧妙，通过监督深度图的梯度而非绝对值来防止尺度不一致导致的深度崩塌，这是一个对实际工程问题有深刻洞察的解决方案。短板是其整体框架建立在强大的预训练深度先验模型（Sapiens）之上，这在一定程度上限制了方法的通用性和在无此类先验场景下的可用性，且论文未提供代码，复现门槛较高。 🔗 开源详情代码：论文中未提及代码链接。模型权重：未提及公开模型权重。数据集：使用了HDTF和公开数据集，但未说明这些数据集是否在本工作专属发布或如何获取。 Demo：未提及在线演示。复现材料：提供了训练时长（预训练2小时）、优化器、学习率、损失权重等关键超参数，但缺乏batch size、数据预处理细节等，复现信息不够充分。论文中引用的开源项目：引用了InsTaG（[2]）、SyncTalk（[10]）、GeneFace（[14]）、MimicTalk（[15]）等开源工作作为基线或技术参考。总体：论文中未提及开源计划。 📌 核心摘要问题：基于3D高斯溅射（3DGS）的说话人生成模型在优化时存在深度歧义，导致在渲染新视角（尤其是大角度偏转）时产生模糊、暗区等视觉伪影。现有方法仅在训练阶段引入深度监督，缺乏重建时的深度感知机制。方法核心：提出DepthTalk框架。其核心是深度感知高斯运动网络（DAGM），采用双管道架构：一个“深度感知管道”整合深度先验、表情和音频特征预测深度相关的高斯场变换；另一个“几何感知管道”专注于利用表情和音频预测面部运动变换。两者通过自适应运动融合（MF）模块结合。此外，提出了深度梯度损失（DGL），通过Sobel算子计算并比较渲染深度图与先验深度图的梯度幅度来施加监督，避免因绝对尺度差异造成的深度崩塌。新意：将深度感知直接嵌入到高斯场的重建（变换预测）过程中，而非仅用于训练正则化；解耦了深度对齐与面部运动建模；提出基于梯度的深度损失函数。实验：在仅5秒视频的少样本设定下进行实验。定量结果：DepthTalk在图像质量指标（PSNR: 29.8974, LPIPS: 0.0530, SSIM: 0.9226）上优于所有对比方法（包括InsTaG），唇部运动精度（LMD: 3.0836）也达到最佳。消融研究表明，DAGM、MF和DGL三个组件共同作用才能达到最佳性能。定性结果（图3）显示，DepthTalk在生成新视角面部时，光照更真实，伪影更少。意义：在数据受限（少样本）场景下，实现了更高质量、更几何一致的说话人头部视频合成，对数字人、虚拟现实等应用有潜在价值。局限性：依赖外部预训练的深度先验模型（Sapiens）；实验数据集（HDTF等）的规模和多样性有限；推理速度（32.66 FPS）虽实时但略低于InsTaG。 🏗️ 模型架构论文的整体架构如图2所示。输入是音频特征、上半脸表情控制信号和头部姿态（相机位姿）。核心流程如下： ...

Efficient Audio-Visual Inference Via Token Clustering And Modality Fusion

📄 Efficient Audio-Visual Inference Via Token Clustering And Modality Fusion #音频问答 #音视频 #多模态模型 #预训练 #模型评估 ✅ 7.5/10 | 前25% | #音频问答 | #音频大模型 #多模态模型 | #音视频 #多模态模型学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0 | 置信度高 👥 作者与机构第一作者：Chenjie Pan（华南师范大学）通讯作者：Chenyou Fan（华南师范大学）作者列表：Chenjie Pan（华南师范大学）、Yi Zhu（华南师范大学）、Songkai Ning（华南师范大学）、Xiangyang Liu（华南师范大学）、Weiping Zheng（华南师范大学）、Chenyou Fan（华南师范大学） 💡 毒舌点评亮点：论文精准地抓住了当前音视频LLM中音频模态token冗余这一关键痛点，提出的无参动态聚类压缩策略（ATCC）在大幅削减token数量（96%）和计算量（54%）的同时，性能不降反升，这证明其压缩确实保留了有效信息，而非简单丢弃。短板：创新性更多体现在“组合”与“针对特定场景的优化”上，其核心的聚类算法和双向交叉注意力融合均为成熟技术的直接应用；此外，论文声称的性能提升幅度（0.6%-3.7%）相对有限，且绝对数值并未显著超越表中列出的所有最强基线（如PAVE在Music-AVQA上仍略高）。 🔗 开源详情代码：论文中未提及代码仓库链接。模型权重：未提及是否公开训练好的模型权重。数据集：论文中使用了多个公开数据集（Music-AVQA， VGGSound， AVSD等），但未提供额外的数据处理或获取方式。 Demo：未提供在线演示。复现材料：论文提供了详细的模型架构描述、训练超参数（学习率、批次大小）、硬件环境（4x RTX 3090）以及算法伪代码（算法1），这些是重要的复现信息。但未提供完整的配置文件、检查点或更细致的训练日志。论文中引用的开源项目：明确提到了作为基础架构的VideoLLaMA2，并引用了其使用的组件：视觉编码器SigLIP [22]，音频编码器BEATs [23]，以及语言模型Qwen2-7B [24]。也引用了LoRA [14]等训练技术。 📌 核心摘要解决的问题：多模态大语言模型在处理音视频问答任务时，因音频和视觉token数量庞大导致计算和内存开销高，且现有的融合方法往往忽略了音频token的冗余问题，影响了效率和跨模态对齐效果。方法核心：提出高效音视频推理框架（EAVI），包含两个核心组件：(1) 音频token聚类压缩（ATCC），通过动态阈值聚类在保留时序结构的前提下压缩音频token；(2) 双向模态融合模块，通过交叉注意力让压缩后的音频特征与视觉特征相互增强。与已有方法的新颖之处：不同于以往工作主要压缩视觉token或进行简单拼接，EAVI首次专门针对音频模态设计了一种无需额外训练参数的动态聚类压缩方法，并引入了双向的跨模态注意力机制，使融合更加充分。主要实验结果：在三个AVQA基准数据集上，EAVI相比强基线VideoLLaMA2，准确率提升了0.6%-3.7%。效率方面，音频token数量平均减少96%，总token减少66%，导致FLOPs降低54%，KV缓存使用减少65%，推理延迟降低15%。主要对比结果：模型 Music-AVQA VGGSound AVSD CREMA (2025) 75.6 67 - VideoLLaMA2 (2024) 80.9 71.4 57.2 PAVE (2025) 82.3 - 42.5 EAVI (Ours) 81.5 (+0.6) 75.1 (+3.7) 58.7 (+1.5) 效率对比：模型 Tokens (Audio / Total) FLOPs (T) Latency (S) KV cache (MB) VideoLLaMA2 1496 / 2172 40.3 1.13 120 EAVI (Ours) 66 / 742 15.4 0.96 42 实际意义：为在资源受限的设备上部署实时、高效的音视频问答模型提供了可行的技术路径，通过压缩减少了对计算和内存资源的需求。主要局限性：聚类压缩可能导致细微语义信息的丢失；模型的最终性能仍强依赖于底层预训练的视觉和音频编码器；在对话理解（AVSD）等任务上的提升幅度相对较小。 🏗️ 模型架构 EAVI框架的整体架构如图2（左）所示。它建立在类似VideoLLaMA2的架构之上，主要改进了音频处理和跨模态融合部分。 ...

FastAV: Efficient Token Pruning for Audio-Visual Large Language Model Inference

📄 FastAV: Efficient Token Pruning for Audio-Visual Large Language Model Inference #音频问答 #大语言模型的压缩与加速 #音视频 #多模态模型 ✅ 7.0/10 | 前25% | #音频问答 | #大语言模型的压缩与加速 | #音视频 #多模态模型学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0 | 置信度高 👥 作者与机构第一作者：Chaeyoung Jung（韩国科学技术院，Korea Advanced Institute of Science and Technology, South Korea）通讯作者：未说明作者列表：Chaeyoung Jung（韩国科学技术院）、Youngjoon Jang（韩国科学技术院）、Seungwoo Lee（韩国科学技术院）、Joon Son Chung（韩国科学技术院） 💡 毒舌点评亮点：本文敏锐地发现了现有token剪枝研究在音视频大语言模型领域的空白，并首次提出了系统性的解决方案，其两阶段剪枝策略（全局剪枝+精细剪枝）在实验上取得了显著且一致的效率提升（>40% FLOPs降低），且不损害甚至能提升性能，这对于推动此类昂贵模型的实际部署具有明确的工程价��。短板：技术路线本质上是对视觉token剪枝方法的“移植”和“拼接”（全局剪枝基于视觉工作常见的注意力回溯，精细剪枝基于LLM剪枝中常见的最后token分析），在剪枝机制本身上创新有限。此外，实验对比集中在自身设定的不同剪枝策略上，缺乏与更多元、更强的基线方法（如其他可能适用于多模态的剪枝或加速技术）的横向比较。 🔗 开源详情代码：论文中未提及代码链接。模型权重：未提及。数据集：论文中使用的AVQA、MUSIC-AVQA、AVHBench为公开数据集，但论文未说明具体获取或预处理方式。 Demo：未提及。复现材料：论文给出了关键超参数（剪枝层选择、P=20%、保留的token数量），描述了剪枝算法的公式和步骤，但未提供完整的配置文件、脚本或检查点。论文中引用的开源项目：引用了VideoLLaMA2和video-SALMONN2作为基线模型，并链接了VideoLLaMA2的GitHub仓库（https://github.com/DAMO-NLP-SG/VideoLLaMA2/tree/audio_visual），但这是基线模型的仓库，而非FastAV的实现。 📌 核心摘要要解决的问题：音视频大语言模型在处理包含音频、视频、文本的多模态输入时，token数量巨大，导致推理时内存消耗和计算成本剧增，限制了其实际应用。方法核心：提出FastAV，一个两阶段的推理时token剪枝框架。第一阶段在中间层进行“全局剪枝”，利用注意力回溯机制分析token重要性，移除位置靠后、影响力较弱的大部分token（如2/3）；第二阶段在后续层进行“精细剪枝”，基于最后一个查询token的注意力权重，逐层迭代移除最不重要的20% token。与已有方法相比新在哪里：这是首个专门为音视频大语言模型设计的token剪枝框架。不同于直接应用在纯文本LLM或视觉-语言模型上的方法，FastAV综合考虑了音视频模态的特点，并通过注意力回溯揭示了此类模型在中间层后注意力集中于早期token的“锚定”模式，从而设计了针对性的剪枝策略。主要实验结果：在VideoLLaMA2和video-SALMONN2两个模型上，FastAV将理论FLOPs降低了40%以上（见表1），同时推理速度提升约30%，内存占用降低。在AVQA, MUSIC-AVQA, AVHBench三个基准测试上，性能保持持平甚至有所提升（例如在AVHBench的AV匹配任务上，VideoLLaMA2的准确率从57.8%提升至69.0%）。消融实验表明，基于注意力回溯的全局剪枝策略优于随机剪枝和基于原始注意力权重的策略（表2），精细剪枝的剪枝比例P=20%为最优（表4）。实际意义：使音视频大语言模型能够更高效地处理长视频、复杂音频等多模态长上下文输入，降低了部署的硬件门槛和延迟，有助于推动其在实时交互、边缘设备等场景的应用。主要局限性：剪枝策略的有效性依赖于“注意力在中间层后集中于早期token”这一观察，该模式是否在所有音视频大语言模型和任务中普遍存在尚不明确。此外，论文未探讨该剪枝框架对模型训练或微调阶段的影响，也未提供理论保证证明性能不会在更极端的压缩下下降。 🏗️ 模型架构 FastAV本身并非一个独立的音视频大语言模型，而是一个应用于现有模型（如VideoLLaMA2、video-SALMONN2）推理阶段的加速框架。其整体流程如图3所示。图3：FastAV框架概览。输入序列包含视频（X_vis）、音频（X_aud）和文本（X_lang）token。整体推理过程（a）在中间层（L/2）进行全局剪枝，在后续层进行精细剪枝。剪枝机制（b）展示了全局剪枝依据注意力回溯，精细剪枝依据最后查询token的注意力分析。 ...

FoleyBench: A Benchmark for Video-to-Audio Models

📄 FoleyBench: A Benchmark for Video-to-Audio Models #音频生成 #基准测试 #音视频 #多模态模型 ✅ 7.5/10 | 前25% | #音频生成 | #基准测试 | #音视频 #多模态模型学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Satvik Dixit（Carnegie Mellon University）通讯作者：未说明作者列表：Satvik Dixit (Carnegie Mellon University), Koichi Saito (Sony AI), Zhi Zhong (Sony AI), Yuki Mitsufuji (Sony AI, Sony Group Corporation), Chris Donahue (Carnegie Mellon University) 💡 毒舌点评论文精准地指出了现有V2A评估基准（如VGGSound）在Foley场景下的核心缺陷（74%样本音画对应差），并针对性地提出了首个专用基准，分析深入且实用。然而，其数据集构建管道严重依赖商业模型（Gemini 2.5 Pro）进行质量过滤，这不仅增加了复现成本，也使得“可扩展自动化”的宣称打了一定折扣。 🔗 开源详情代码：论文中未提及公开的代码仓库链接（如用于数据集构建的管道代码）。模型权重：未提及。本文是基准论文，不提出自有模型。数据集：论文提供了数据集样本网站（https://gclef-cmu.org/foleybench），并描述了数据来源和构建方法，但未明确说明完整数据集是否公开下载及具体获取方式。 Demo：未提及。复现材料：论文详细描述了数据集构建的多阶段管道、使用的工具（YAMNet， Gemini 2.5 Pro）和过滤参数，为复现其数据集创建过程提供了清晰指南。评测指标使用了公开的AV-benchmark工具包。论文中引用的开源项目：YAMNet， AV-benchmark toolkit， PANNs， LAION-CLAP， ImageBind等。 📌 核心摘要要解决什么问题：现有的视频到音频（V2A）生成模型评估基准（如VGGSound）与Foley（音效）等实际下游应用严重脱节。分析发现，VGGSound中74%的视频音画对应关系差，且内容被语音和音乐主导，无法有效评估专为视觉事件生成同步音效的模型。方法核心是什么：提出FoleyBench，首个大规模、专门针对Foley场景的V2A评估基准。它包含5000个经过自动筛选的高质量（视频、真实音频、文本描述）三元组。其核心是一个自动化的多阶段数据集构建管道：收集网络视频 -> 场景检测与裁剪 -> 通过YAMNet过滤语音/音乐 -> 使用Gemini 2.5 Pro筛选确保音画因果关系。与已有方法相比新在哪里：（1）定义并专注于Foley场景（非语音、非音乐、音源可见且同步），填补了专用基准的空白；（2）设计了包含AudioSet和UCS标签、声源复杂度、声音包络类型等丰富元数据的标注体系，支持细粒度分析；（3）提供了包含650个30秒长视频的子集FoleyBench-Long，以评估长音频生成能力。主要实验结果如何：基准对比：与VGGSound相比，FoleyBench的Foley类别覆盖更广（Shannon熵5.35 vs 4.73），且评估结果相关性在音频保真度指标上较弱，说明其能提供不同的评估视角。模型评估：在对11个SotA V2A模型的评估中，MMAudio在多数指标上表现最佳，Seeing & Hearing在语义对齐(IB)上最优，V-AURA在时序同步(DS)上次优。主要发现包括：模型在生成离散事件音时，同步变好但质量变差；在处理背景音和多源声音时性能显著下降；文本条件能提供关键的语义先验。长视频评估：在FoleyBench-Long上，所有模型性能普遍下降，MMAudio仍保持同步优势，但音频质量大幅下滑；而专为长视频设计的LOVA在音频质量上表现相对较好。关键数据表格：方法 VGGSound IB↑ FoleyBench IB↑ FoleyBench DS↓ FoleyBench FAD↓ FoleyBench IS↑ V-AURA 0.276 0.237 0.716 27.2 6.44 Seeing&Hearing 0.339 0.371 1.08 25.0 4.80 MMAudio^T 0.332 0.306 0.447 8.76 11.2 实际意义是什么：为V2A研究社区，特别是Foley合成方向，提供了一个更可靠、更贴近应用的评估标准，有助于更准确地衡量模型进展，并指明未来改进方向（如提升离散事件音保真度、处理多源/背景音、长时生成）。主要局限性是什么：（1）数据集构建核心环节依赖商业黑箱模型（Gemini），可复现性和透明度受限；（2）虽然分析了失败模式，但并未提出解决这些核心挑战（如多源声音混合、长时一致性）的新模型或算法。 🏗️ 模型架构本文并未提出一个新的V2A生成模型，而是提出了一个用于评估现有模型的基准测试框架。因此，其核心“架构”是数据集构建管道与评估体系。 ...

GMS-CAVP: Improving Audio-Video Correspondence with Multi-Scale Constrative and Generative Pretraining

📄 GMS-CAVP: Improving Audio-Video Correspondence with Multi-Scale Constrative and Generative Pretraining #音视频 #对比学习 #扩散模型 #音频生成 #多尺度模型 ✅ 7.5/10 | 前25% | #音频生成 | #扩散模型 | #音视频 #对比学习学术质量 7.0/7 | 选题价值 1.5/2 | 复现加成 -0.5 | 置信度中 👥 作者与机构第一作者：未说明（论文作者列表为“Shentong Mo1,2,3, Zehua Chen3, Jun Zhu3”，未明确标注第一作者）通讯作者：未说明作者列表：Shentong Mo（卡内基梅隆大学，MBZUAI，清华大学），Zehua Chen（清华大学），Jun Zhu（清华大学） 💡 毒舌点评亮点在于将多尺度对比学习和多尺度扩散生成统一在一个框架内，为音视频预训练提供了新范式，实验结果在多个指标上刷新了SOTA；短板是论文对于模型具体架构细节（如扩散模型中噪声预测网络的具体设计）、训练硬件和完整超参数列表描述不足，且未提及开源计划，这使得严格的复现存在挑战。 🔗 开源详情代码：论文中未提及代码链接。模型权重：未提及公开权重。数据集：使用了公开数据集VGGSound、AudioSet和Panda70M，但未说明是否提供了特定的预处理脚本。 Demo：未提及在线演示。复现材料：给出了部分训练细节（优化器、学习率、批次大小、训练轮数），并参考了Diff-Foley的扩散设置。但模型架构的具体实现细节、完整的超参数列表和训练日志/检查点未提供。论文中引用的开源项目：引用并基于Diff-Foley [6]的生成器设置；使用Adam优化器。开源计划：论文中未提及开源计划。 📌 核心摘要本文旨在解决现有对比音视频预训练方法在捕捉细粒度、多层次跨模态对应关系以及直接支持生成任务方面的不足。方法核心是提出GMS-CAVP框架，它统一了多尺度视频-音频对齐（MSA）的对比学习目标与多尺度空间-时间扩散（MSD）的生成预训练目标。与之前仅使用单尺度全局对比学习的方法相比，GMS-CAVP能捕获从细到粗的时空依赖关系，并直接建模模态间的转换映射。主要实验结果表明，在VGGSound等数据集上，GMS-CAVP在视频到音频生成任务（KLD: 1.63, FAD: 0.75, Align Acc: 95.87）和检索任务（如视频到音频R@1: 28.90）上均大幅超越了现有方法。其实际意义是为音视频理解与生成提供了更强大、统一的预训练基础。主要局限性可能包括模型复杂度增加带来的计算开销，以及对扩散模型采样速度的潜在影响（论文未深入讨论）。 ...

ICASSP 2026 - 音视频论文列表

ICASSP 2026 - 音视频共 6 篇论文 ← 返回 ICASSP 2026 总览排名论文评分分档 🥇 Uncertainty-Aware 3D Emotional Talking Face Synthesis with E 8.0分前25% 🥈 RAP: Real-Time Audio-Driven Portrait Animation with Video Di 7.0分前25% 🥉 Attentive AV-Fusionnet: Audio-Visual Quality Prediction with 7.0分前25% 4. Look, Listen and Segment: Towards Weakly Supervised Audio-Vi 7.0分前25% 5. Teacher-Guided Pseudo Supervision and Cross-Modal Alignment 7.0分前25% 6. AVO-65: A Large-Scale Hierarchical Audio-Visual Object Datas 7.0分前50% 📋 论文详情 🥇 Uncertainty-Aware 3D Emotional Talking Face Synthesis with Emotion Prior Distillation 🔥 8.0/10 | 前25% | #音视频 | #生成模型 | #不确定性估计 #多模态模型 ...

Meanflow-Accelerated Multimodal Video-to-Audio Synthesis Via One-Step Generation

📄 Meanflow-Accelerated Multimodal Video-to-Audio Synthesis Via One-Step Generation #音频生成 #流匹配 #音视频 #实时处理 ✅ 7.5/10 | 前25% | #音频生成 | #流匹配 | #音视频 #实时处理学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度高 👥 作者与机构第一作者：Xiaoran Yang（武汉大学电子信息学院）通讯作者：Gongping Huang（武汉大学电子信息学院）作者列表：Xiaoran Yang（武汉大学电子信息学院）、Jianxuan Yang（小米MiLM Plus，武汉）、Xinyue Guo（小米MiLM Plus，武汉）、Haoyu Wang（西南财经大学计算机与人工智能学院）、Ningning Pan（西南财经大学计算机与人工智能学院）、Gongping Huang（武汉大学电子信息学院） 💡 毒舌点评这篇论文的核心亮点是将MeanFlow的一步生成能力成功“移植”到多模态VTA合成任务上，实现了推理速度的数量级提升，这在实际应用中极具吸引力。然而，其短板也相当明显：核心创新组件（MeanFlow和CFG-scaled）均非作者首次提出，论文更偏向于一项有价值的工程集成与任务适配，且消融实验仅探讨了CFG强度和训练配对比例，对于MeanFlow框架如何具体适配多模态条件融合的机制剖析不够深入。 🔗 开源详情代码：论文中未提及代码链接。模型权重：未提及。数据集：训练和评估所用数据集（VGGSound， Kling-Audio-Eval， AudioCaps， WavCaps）均为公开数据集，但论文未说明是否提供其处理后的版本。 Demo：未提及。复现材料：论文提供了详细的训练配置（优化器、学习率、batch size、训练步数）、超参数设置（模型层数、采样率、时间步采样分布）、硬件环境（8x H800 GPU）和评估指标说明，为复现提供了较好的基础。引用的开源项目/模型：CLIP、Synchformer、VAE（具体模型未说明）、MMAudio、MeanFlow、CFG-Zero。总结：论文中未提及开源计划。 📌 核心摘要要解决什么问题：现有的基于流匹配的视频到音频（VTA）合成方法依赖多步迭代采样，导致推理速度慢，难以满足实时应用需求。同时，一步生成场景下应用分类器引导（CFG）容易因缺乏迭代修正而产生过冲和失真。方法核心是什么：提出MeanFlow加速的多模态联合训练框架（MF-MJT）。核心是在多模态联合训练的骨干网络（基于MMAudio）上，采用MeanFlow公式建模平均速度场，从而支持原生一步生成。为稳定CFG，引入标量缩放机制（CFG-scaled），动态调整无条件预测的权重。 ...