音视频 | 语音/音频论文速递

Attentive AV-Fusionnet: Audio-Visual Quality Prediction with Hybrid Attention

📄 Attentive AV-Fusionnet: Audio-Visual Quality Prediction with Hybrid Attention #音视频 #多模态模型 #注意力机制 #模型评估 #工业应用 ✅ 7.0/10 | 前25% | #音视频 | #注意力机制 | #多模态模型 #模型评估学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 -0.5 | 置信度中 👥 作者与机构第一作者：Ina Salaj (Dolby Germany GmbH) 通讯作者：未说明（根据作者列表和常规署名，第一作者或第二作者可能为通讯作者，但论文中未明确标注）作者列表：Ina Salaj (Dolby Germany GmbH)， Arijit Biswas (Dolby Germany GmbH) 💡 毒舌点评亮点：论文提出的混合注意力融合框架（结合GML学习特征和VMAF手工特征）设计精巧，实验结果在内部数据集上显著优于基线（Rp提升至0.97），且提供了可解释的模态重要性估计。短板：论文严重依赖于Dolby的“内部数据集”和“内部实现的GML/VMAF特征”，外部可复现性存疑，且在公开基准LIVE-SJTU上的提升（如RMSE从0.47降至0.44）相对有限，未能完全证明其“鲁棒性”声称。 🔗 开源详情代码：论文中未提及代码链接。模型权重：未提及。数据集：使用了内部数据集，未公开。外部使用的LIVE-SJTU为公开数据集，但论文中未提供获取链接。 Demo：未提及。复现材料：提供了模型架构描述、损失函数、部分超参数搜索空间，但缺少训练细节（如epoch数、硬件、精确的训练时间）和最终配置。论文中引用的开源项目/模型：引用了GML [14]（未开源）和VMAF [11]（VMAF本身开源，但论文使用其内部特征）。依赖的框架包括AdamW优化器，但未提及具体深度学习框架。总结：论文中未提及开源计划，复现主要依赖论文描述，门槛较高。 📌 核心摘要问题：现有音视频质量评估（AVQ）方法常采用简单的融合策略（如加权求和），无法有效建模内容相关的跨模态动态依赖关系（例如，高质量视频可补偿音频瑕疵），且依赖过时的单模态特征。方法：提出Attentive AV-FusionNet。模型首先提取视频VMAF内部特征（6维）和音频GML深层特征（512维）。通过可学习投影将视频特征对齐到音频空间。核心融合阶段采用双向多头交叉注意力，使音频和视频特征相互关注，生成1024维联合表征；随后使用自注意力进一步精炼该表征，以捕捉模态内依赖。最终通过浅层全连接网络预测质量分数。创新：1) 融合了深度学习（GML）和传统感知模型（VMAF）的异构特征；2) 利用混合注意力机制显式建模跨模态和模态内交互；3) 引入了模态相关性估计器，可量化每个模态对最终预测的贡献。结果：在内部数据集（1500训练，125测试）上，该模型达到 Pearson (Rp) = 0.97, Spearman (Rs) = 0.96, RMSE = 0.22，显著优于加权乘积基线（Rp=0.84）和SVR方法（Rp=0.90）。在外部LIVE-SJTU数据集上，取得 Rp=0.92, Rs=0.92, RMSE=0.44，表现与SVR-8F（Rp=0.90）和Recursive AV-FusionNet（Rp=0.92）相当或略优。意义：该模型为流媒体平台提供了更准确、可解释的音视频联合质量预测工具，其模态重要性估计为实现内容自适应的音视频比特率分配提供了可能。局限：模型依赖于未公开的内部数据集和特定特征提取器（GML、VMAF内部表示），外部验证数据集（LIVE-SJTU）规模有限，且未能提供代码或详细复现指南。 🏗️ 模型架构 Attentive AV-FusionNet 是一个端到端的全参考音视频质量预测模型，包含三个主要阶段：特征提取、注意力融合、质量预测。 ...

Audio-Visual Feature Fusion for Calibrating Relevance Scores of Video Moment Retrieval

📄 Audio-Visual Feature Fusion for Calibrating Relevance Scores of Video Moment Retrieval #视频片段检索 #晚期融合 #重评分 #音视频 #多任务学习 ✅ 7.0/10 | 前25% | #视频片段检索 | #晚期融合 | #重评分 #音视频学术质量 5.5/7 | 选题价值 1.0/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Takehiro Imamura（名古屋大学，LY Corporation）通讯作者：未说明（论文中未明确标注通讯作者）作者列表：Takehiro Imamura（名古屋大学, LY Corporation）、Tatsuya Komatsu（LY Corporation）、Hokuto Munakata（LY Corporation）、Tomoki Toda（名古屋大学） 💡 毒舌点评这篇论文的亮点在于它精准地识别并试图解决DETR类模型在VMR中“定位准但排序乱”的痛点，提出的LARS模块设计清晰且与主流的早期融合形成完美互补。然而，其短板也相当明显：作为一项融合工作，创新性略显平淡（本质是一个轻量级的重评分网络），且未能与近年来可能更强的SOTA基线（如基于大型视频-语言模型的方法）进行对比，削弱了结论的冲击力。 🔗 开源详情代码：论文中提及实验基于开源的lighthouse仓库 [27]。但未提供作者自身LARS模块的代码仓库链接。模型权重：未提及是否公开预训练的LARS模型权重。数据集：使用的是公开数据集（QVHighlights, HiREST, Charades-Audiomatter），论文中未提供数据集获取方式，但这些数据集通常可从原论文链接获取。 Demo：未提及。复现材料：论文中说明了使用lighthouse库、与QD-DETR相同的超参数，但未给出具体的超参数配置（如学习率、batch size等）、训练配置文件或检查点。引用的开源项目： lighthouse [27]：用于VMR-HD的复现性工具库。 QD-DETR [9]：基线VMR模型。 CLIP [21]：视觉和文本编码器。 SlowFast [22]：视觉编码器骨干网络。 PANNs [23]：音频编码器。 Whisper [25]：用于生成ASR文本。 Sentence-BERT [26]：用于编码ASR文本。总结：论文在实验复现性上部分依赖于已有的开源工具和基线模型，但未提供其自身贡献部分（LARS）的开源实现，这限制了论文的可复现性。 📌 核心摘要要解决什么问题：现有的DETR类视频片段检索（VMR）模型存在两个主要问题：（1）突变的视觉场景容易导致片段边界误检；（2）由于DETR的条件独立输出和sigmoid分数校准问题，模型输出的片段相关性分数不可靠，导致排序不佳。方法核心是什么：提出“晚期融合重评分模块”（LARS）。它在VMR模型（如QD-DETR）输出候选片段后介入，提取每个候选片段对应的音视觉融合特征，计算这些特征与文本查询的对齐分数（基于余弦相似度），然后将该分数与VMR模型原始的前景/背景分类分数拼接，通过一个MLP进行最终的分数重校准。与已有方法相比新在哪里：传统方法多采用“早期特征融合”（EFF），在模型输入阶段就拼接音视觉特征，这有助于改善片段定位，但无法解决DETR固有的分数校准问题。LARS则是一种“晚期特征融合”策略，在输出端对分数进行精炼，与EFF作用于模型的不同阶段，互为补充。主要实验结果如何：在QVHighlights、HiREST和Charades-Audiomatter三个基准上，单独使用LARS或单独使用EFF均能提升性能（如mAP avg.和R1@0.7）。两者结合（EFF+LARS）能取得最佳性能，证实了互补性。例如在QVHighlights上，CLIP+Slowfast+PANNs特征下，仅EFF的mAP avg.为41.83，仅LARS为42.44，结合后为42.57。消融实验显示，即使不使用音频特征，LARS也能提升性能，证明其对DETR分数的校准能力。定性分析表明，EFF主要改进了定位精度（图2），而LARS主要提升了分数可靠性（图3）。实际意义是什么：为VMR系统提供了一个即插即用的后处理模块，能有效利用音频信息来提升检索结果的排序质量，对于构建更精准的视频搜索、推荐和编辑工具有实用价值。主要局限性是什么：创新相对有限，是一个针对性很强的工程化改进。实验中未与当前最前沿（如基于大型多模态语言模型）的VMR方法进行对比。LARS的计算开销和其带来的性能提升之间的权衡未被充分讨论。 🏗️ 模型架构整体架构包含两个主要阶段：基线VMR模型和提出的LARS模块。基线模型通常采用带有早期特征融合（EFF）的QD-DETR。 ...

AVO-65: A Large-Scale Hierarchical Audio-Visual Object Dataset

📄 AVO-65: A Large-Scale Hierarchical Audio-Visual Object Dataset #音视频 #数据集 #多模态模型 #模型评估 ✅ 7.0/10 | 前50% | #音视频 | #数据集 | #多模态模型 #模型评估学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：未说明（论文中注明“† These authors contributed equally”，但未明确排序）通讯作者：Dongchen Zhu12, （注有号）作者列表：Zehao Yao1,2,†; Guanghui Zhang1,†; Lei Wang1,2; Dongchen Zhu1,2,* （注1：1为Bio-Vision System Laboratory, Science and Technology on Micro-system Laboratory, Shanghai Institute of Microsystem and Information Technology, Chinese Academy of Sciences； 2为University of Chinese Academy of Sciences） 💡 毒舌点评这篇论文的亮点在于提出了一套严谨、系统化的多模态数据集构建流程，并特别强调了音视频“多重一致性”和层次化标注，填补了现有数据集的空白。然而，其短板也十分明显：论文的核心贡献本质上是一个高质量的“工程产物”（数据集），而在算法、模型或理论层面几乎没有提出新的方法，实验部分主要使用现成的模型进行基线测试，创新性不足。 ...

Bimodal Fusion Framework for Dynamic Facial Expression Recognition In-The-Wild

📄 Bimodal Fusion Framework for Dynamic Facial Expression Recognition In-The-Wild #语音情感识别 #多模态模型 #跨模态 #音视频 #预训练 ✅ 7.0/10 | 前25% | #语音情感识别 | #多模态模型 | #跨模态 #音视频学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 -0.5 | 置信度高 👥 作者与机构第一作者：Bohui Yang（东南大学计算机科学与工程学院）通讯作者：Chunfeng Yang（东南大学计算机科学与工程学院）， Wentao Xiang（南京医科大学生物医学工程与信息学院）作者列表：Bohui Yang（东南大学计算机科学与工程学院）， Luo Lilin（未说明具体单位，仅在作者列表中）， Xiaojia Wang（未说明具体单位，仅在作者列表中）， Chunfeng Yang（东南大学计算机科学与工程学院）， Wentao Xiang（南京医科大学生物医学工程与信息学院） 💡 毒舌点评这篇论文的框架设计精巧，将视觉Transformer的参数高效微调（PEFT）思想成功移植到音频-视觉双模态动态表情识别任务中，三个模块（MSA、BFA、CMTM）分工明确，消融实验设计得当，有力支撑了其有效性。然而，其核心创新——在预训练模型中插入适配器（Adapter）进行轻量微调——并非全新概念，论文在探索更深层或更具解释性的跨模态交互机制上着墨不多，主要贡献是工程上的有效整合与验证。 🔗 开源详情代码：论文中未提及代码链接。模型权重：未提及公开的预训练或微调后模型权重。数据集：提供了DFEW和MAFW数据集的官方主页链接，表明数据集是公开可获取的。 Demo：未提及。复现材料：论文给出了主要的训练设置（优化器、调度器、轮数、采样率），但缺少超参数的具体数值（如学习率、批次大小、适配器维度）和训练硬件信息。引用的开源项目：论文中引用的预训练模型（MAE-Face [18]， MAE-AST [19]）本身是开源的项目。 📌 核心摘要该论文针对野外动态表情识别（DFER）中单模态方法难以捕捉跨模态关联的问题，提出了一个名为BFF-DFER的双模态融合框架。该框架的核心思想是利用预训练的音视频Transformer模型作为骨干网络，冻结其大部分参数，仅通过训练三个轻量级模块来实现高效适配：1) 模态特定适配（MSA）用于增强单模态特征；2) 双模态融合适配器（BFA）用于融合跨模态特征；3) 跨模态时序建模（CMTM）用于建模时间动态。与先前单模态微调或直接融合的方法相比，本工作强调在保持预训练模型完整性的前提下，设计专门的模块来显式建模模态内与时序/跨模态关系。在DFEW和MAFW两个大规模野外基准数据集上，BFF-DFER取得了具有竞争力的性能（DFEW: 67.52% UAR, 78.28% WAR; MAFW: 44.46% UAR, 58.41% WAR），超越了多数现有方法。消融实验证实了各模块的贡献，可视化显示其学习的特征具有更好的类内紧凑性和类间可分性。该工作展示了在资源受限条件下，通过参数高效方法整合多模态预训练知识的有效路径。其主要局限性可能在于框架的复杂性（多个适配器模块）以及未探讨更极端的数据或计算受限场景。 ...

Can Hierarchical Cross-Modal Fusion Predict Human Perception of AI Dubbed Content?

📄 Can Hierarchical Cross-Modal Fusion Predict Human Perception of AI Dubbed Content? #模型评估 #多模态模型 #音频分类 #音视频 ✅ 6.0/10 | 前25% | #模型评估 | #多模态模型 | #音频分类 #音视频学术质量 5.0/7 | 选题价值 1.5/2 | 复现加成 -0.5 | 置信度高 👥 作者与机构第一作者：未说明（论文作者列表中未明确标注顺序）通讯作者：未说明作者列表：Ashwini Dasare（Sony Research India）、Nirmesh Shah（Sony Research India，邮箱已提供）、Ashishkumar Gudmalwar（Sony Research India，邮箱已提供）、Pankaj Wasnik（Sony Research India，邮箱已提供） 💡 毒舌点评亮点：论文提出的“代理MOS+主动学习”框架，巧妙地将多种客观指标融合成弱监督标签，为解决昂贵的人工标注瓶颈提供了一个实用且可扩展的工程化方案。短板：其核心的“层级多模态融合”架构本质上是几种成熟模块（预训练编码器、LoRA、注意力门控、Transformer）的拼装，创新深度有限；且所有实验仅基于Hindi-English双向配音的特定数据集，结论的普适性有待验证。 🔗 开源详情代码：论文中未提及代码链接。模型权重：未提及公开的模型权重。数据集：实验使用了公开数据集MELD和M2H2，但论文中未提供其定制化配音数据（12k片段）的获取方式。 Demo：未提供在线演示。复现材料：提供了模型架构描述、超参数设置（LoRA rank, learning rate, batch size等）和训练流程概述，但缺乏完整的配置文件、检查点或详细的实验代码。引用的开源项目：论文引用了多个作为编码器基础的预训练模型（TimeSformer, Wav2Vec2.0, ECAPA-TDNN, Emo2Vec, Sentence-BERT, LoRA），以及用于生成数据的Gemini-9B, F5-TTS等，但未明确说明是否计划开源其贡献的部分。 📌 核心摘要要解决的问题：评估AI配音质量高度依赖昂贵且难以规模化的人工评分（MOS），现有的单一维度客观指标无法全面反映人类的整体感知。方法核心：提出一种层级化多模态融合架构，分别提取音频（说话人、韵律、情感）、视频（全局上下文、面部表情）和文本（语义）的特征，并通过模态内融合和跨模态融合层进行整合，最终预测一个综合的“配音分数”（DubScore）。为解决训练数据不足，设计了一个两阶段训练流程：先使用由多个客观指标加权聚合而成的“代理MOS”进行弱监督预训练（权重通过主动学习优化），再用少量人工MOS数据进行微调。新意：新意在于将主动学习应用于优化代理MOS的权重，并将该弱监督策略与参数高效（LoRA）的多模态层级融合网络相结合，形成一个从弱监督到强监督的完整训练pipeline。主要实验结果：在12k Hindi-English配音片段上训练后，最终模型预测的DubScore与人工MOS的皮尔逊相关系数（PCC）达到0.76，斯皮尔曼秩相关系数（SRCC）为0.77。消融实验表明，全模态（A+V+T）性能显著优于单模态或双模态；主动学习策略在权重学习上全面优于随机采样；“代理MOS+微调”的组合效果最佳（PCC从0.68提升到0.76）。关键实验数据见表2、表4、表5。实际意义：提供了一种可扩展的AI配音质量自动化评估方案，可用于指导配音系统优化、内容批量质检，降低对人工评估的依赖。主要局限性：1）模型和评估完全依赖于预训练特征提取器的质量；2）实验数据集规模（12k）和语言对（仅Hindi-English）有限，未在更多语言、更复杂的配音场景中验证；3）缺乏与最新配音评估方法（如基于LLM的评估）的直接对比；4）开源性不足，难以复现和扩展。 🏗️ 模型架构论文提出的架构如图1所示，其核心思想是模拟人类对配音质量的多层次感知过程，采用“先模态内融合，再跨模态融合”的层级设计。 ...

CoVA: Text-Guided Composed Video Retrieval for Audio-Visual Content

📄 CoVA: Text-Guided Composed Video Retrieval for Audio-Visual Content #跨模态检索 #音视频 #多模态模型 #对比学习 #数据集 #基准测试 ✅ 6.5/10 | 前25% | #跨模态检索 | #多模态模型 | #音视频 #对比学习学术质量 5.0/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度高 👥 作者与机构第一作者：Gyuwon Han (Chung-Ang University) 通讯作者：Chanho Eom (Chung-Ang University) 作者列表：Gyuwon Han (Chung-Ang University)、Young Kyun Jang (Google DeepMind)、Chanho Eom (Chung-Ang University) 💡 毒舌点评论文最大的亮点是提出了一个非常实际且被忽视的问题——用户可能因为音频不同而对视觉相似的视频有不同需求，并为此构建了首个音视频组合变化的检索基准，填补了领域空白。短板在于其提出的AVT融合模块本质上是为多模态特征学习一个加权平均，技术复杂度较低，核心模型架构创新有限。 🔗 开源详情代码：论文中提供了代码仓库链接：https://github.com/perceptualai-lab/CoVA/ 模型权重：论文中未明确提及是否公开预训练或微调后的模型权重。数据集：论文中构建了AV-Comp基准数据集，并提供了在线演示页面，但未明确说明数据集的公开下载方式。数据集地址：https://perceptualai-lab.github.io/CoVA/ Demo：提供了在线演示：https://perceptualai-lab.github.io/CoVA/ 复现材料：论文提供了实验设置、关键超参数（学习率、批大小、轮数）和训练硬件信息。未提供训练日志、配置文件或检查点。论文中引用的开源项目： CLIP（视觉和文本编码器） AST（音频编码器） Qwen2.5-VL-32B-Instruct（用于生成视频描述） Gemini（用于生成修改文本） AudioCaps 2.0（提供人工标注的音频描述） 📌 核心摘要要解决什么问题：现有的组合视频检索（CoVR）方法仅考虑视觉内容的修改，忽略了音频对用户检索意图的关键影响，导致视觉相似但音频不同的视频被错误地视为语义等价。方法核心是什么：提出了CoVA任务和AV-Comp数据集。方法上，提出了AVT Compositional Fusion模块，该模块通过一个简单的MLP为来自参考视频、修改文本（拆分为对象、动作、属性、音频四个方面）的每个特征分量预测一个权重，然后进行加权融合，以动态适应查询语义。与已有方法相比新在哪里：首次将音频模态的变化作为组合检索的核心考量因素。构建了首个支持音视频对齐变化查询的数据集AV-Comp。提出的AVT模块相比简单的平均融合，能更有效地利用多模态信息。主要实验结果如何：在AV-Comp测试集上，CoVA（使用CLIP-L编码器）达到了35.9% R@1，显著优于LanguageBind（27.17%）和ImageBind（20.2%）。消融实验证明移除任何文本组件（对象、动作、属性、音频）都会导致性能下降，证实了四个组件的必要性。主要结果对比如下表：方法 R@1↑ R@5↑ R@10↑ MnR↓ ImageBind 20.2 50.5 65.4 14.6 LanguageBind 27.17 61.44 77.12 8.7 CoVA (Ours) 35.9 73.7 86.4 6.2 实际意义是什么：为音视频内容的精细检索提供了新的范式和评估基准，推动多模态检索模型更全面地理解人类的多感官意图。主要局限性是什么：AVT模块设计相对简单，其性能提升部分依赖于更换了更强的文本编码器（CLIP-L）。数据集构建过程依赖于现成的视觉/音频描述生成模型（Qwen2.5-VL, Gemini），可能引入偏差。方法的可扩展性和在更复杂场景下的鲁棒性有待验证。 🏗️ 模型架构 CoVA框架整体分为三个模块：特征提取、门控融合Transformer（GFT）和AVT组合融合。其完整流程如下： ...

Cross-Modal Bottleneck Fusion for Noise Robust Audio-Visual Speech Recognition

📄 Cross-Modal Bottleneck Fusion for Noise Robust Audio-Visual Speech Recognition #语音识别 #多模态模型 #跨模态 #鲁棒性 #音视频 ✅ 7.5/10 | 前25% | #语音识别 | #多模态模型 | #跨模态 #鲁棒性学术质量 6.0/7 | 选题价值 7.5/2 | 复现加成 0.5 | 置信度中 👥 作者与机构第一作者：Seaone Ok（首尔大学IPAI、首尔大学智能信息学系）通讯作者：Kyogu Lee（首尔大学IPAI、首尔大学智能信息学系、首尔大学AIIS）作者列表：Seaone Ok（首尔大学IPAI、首尔大学智能信息学系）、Min Jun Choi（首尔大学IPAI、首尔大学智能信息学系）、Eungbeom Kim（首尔大学IPAI）、Seungu Han（首尔大学智能信息学系）、Kyogu Lee（首尔大学IPAI、首尔大学智能信息学系、首尔大学AIIS） 💡 毒舌点评该工作的核心亮点在于将“注意力瓶颈”这一高效范式巧妙移植到音视频语音识别中，通过一组可学习的紧凑令牌来调节跨模态信息流，在数据效率和噪声鲁棒性上展现出明显优势，尤其是在极端噪声（-7.5dB）下性能提升显著。然而，其最终性能天花板仍被使用海量数据预训练的模型（如Auto-AVSR）牢牢压制，表明瓶颈融合本身并不能解决AVSR对大规模数据的根本依赖，创新性更多体现在工程优化而非原理突破。 🔗 开源详情代码：论文中未提及代码链接。模型权重：未提及公开权重。数据集：使用公开的LRS2和LRS3数据集。 Demo：未提及在线演示。复现材料：提供了非常详细的训练配置、超参数和数据增强策略，为复现提供了良好的基础。论文中引用的开源项目：NOISEX-92噪声库、Speech Commands数据集。总体而言，论文中未提及开源计划，但提供了详实的复现细节。 📌 核心摘要要解决的问题：传统的音频语音识别在噪声下性能严重下降。现有的音频-视觉语音识别融合方法要么融合效果不佳，要么计算开销过大。核心挑战是如何设计一种机制，让模型在音频信号退化时能有效利用视觉信息，同时在干净语音下保持高性能。方法核心：提出CoBRA框架，采用双流（音频/视频）Conformer编码器，并在其中层引入一组紧凑的可学习“瓶颈令牌”。音频和视频流不直接交互，而是通过这组令牌进行信息交换，从而高效且可控地融合跨模态信息。与已有方法相比新在哪里：与传统的拼接或全注意力交叉融合相比，CoBRA通过瓶颈令牌严格调节信息流，减少了冗余和计算量。与应用于视频分类的MBT不同，本文专门针对AVSR的时序和解码特性进行了适配和深入研究，特别是系统地探索了融合层位置的影响。主要实验结果：在LRS3数据集上，使用664小时训练数据，干净语音WER为1.6%，在-7.5dB的babble噪声下WER为11.79%，相比基线（18.58%）相对提升约36.6%。在LRS2上取得2.8% WER。消融实验表明，中层融合（第4层）和32个瓶颈令牌是最优配置。注意力分析显示，随着噪声增强，模型更多地依赖视觉线索。数据集方法训练小时数干净WER (%) -7.5dB Babble WER (%) LRS3 CM-seq2seq (基线) 596 2.30 18.58 LRS3 CoBRA (Ours) 664 1.6 (主结果表) / 1.96 (消融表) 11.79 LRS2 CM-seq2seq (基线) 381 3.7 未提供 LRS2 CoBRA (Ours) 664 2.8 未提供注：主结果表与消融表中的基线和CoBRA数值存在细微差异，可能源于不同的实验设置或数据子集，此处一并列出。 ...

DepthTalk: Few-Shot Talking Head Generation with Depth-Aware 3D Gaussian Field Motion

📄 DepthTalk: Few-Shot Talking Head Generation with Depth-Aware 3D Gaussian Field Motion #说话人生成 #3D高斯溅射 #少样本学习 #音视频 ✅ 7.0/10 | 前25% | #说话人生成 | #3D高斯溅射 | #少样本学习 #音视频学术质量 5.8/7 | 选题价值 1.2/2 | 复现加成 0.0 | 置信度高 👥 作者与机构第一作者：Shucheng Ji（澳门理工大学应用科学学院）通讯作者：Xiaochen Yuan（澳门理工大学应用科学学院）作者列表：Shucheng Ji（澳门理工大学应用科学学院）、Junqing Huang（澳门理工大学应用科学学院）、Yang Lian（澳门理工大学应用科学学院）、Xiaochen Yuan（澳门理工大学应用科学学院） 💡 毒舌点评亮点在于其“深度梯度损失”设计很巧妙，通过监督深度图的梯度而非绝对值来防止尺度不一致导致的深度崩塌，这是一个对实际工程问题有深刻洞察的解决方案。短板是其整体框架建立在强大的预训练深度先验模型（Sapiens）之上，这在一定程度上限制了方法的通用性和在无此类先验场景下的可用性，且论文未提供代码，复现门槛较高。 🔗 开源详情代码：论文中未提及代码链接。模型权重：未提及公开模型权重。数据集：使用了HDTF和公开数据集，但未说明这些数据集是否在本工作专属发布或如何获取。 Demo：未提及在线演示。复现材料：提供了训练时长（预训练2小时）、优化器、学习率、损失权重等关键超参数，但缺乏batch size、数据预处理细节等，复现信息不够充分。论文中引用的开源项目：引用了InsTaG（[2]）、SyncTalk（[10]）、GeneFace（[14]）、MimicTalk（[15]）等开源工作作为基线或技术参考。总体：论文中未提及开源计划。 📌 核心摘要问题：基于3D高斯溅射（3DGS）的说话人生成模型在优化时存在深度歧义，导致在渲染新视角（尤其是大角度偏转）时产生模糊、暗区等视觉伪影。现有方法仅在训练阶段引入深度监督，缺乏重建时的深度感知机制。方法核心：提出DepthTalk框架。其核心是深度感知高斯运动网络（DAGM），采用双管道架构：一个“深度感知管道”整合深度先验、表情和音频特征预测深度相关的高斯场变换；另一个“几何感知管道”专注于利用表情和音频预测面部运动变换。两者通过自适应运动融合（MF）模块结合。此外，提出了深度梯度损失（DGL），通过Sobel算子计算并比较渲染深度图与先验深度图的梯度幅度来施加监督，避免因绝对尺度差异造成的深度崩塌。新意：将深度感知直接嵌入到高斯场的重建（变换预测）过程中，而非仅用于训练正则化；解耦了深度对齐与面部运动建模；提出基于梯度的深度损失函数。实验：在仅5秒视频的少样本设定下进行实验。定量结果：DepthTalk在图像质量指标（PSNR: 29.8974, LPIPS: 0.0530, SSIM: 0.9226）上优于所有对比方法（包括InsTaG），唇部运动精度（LMD: 3.0836）也达到最佳。消融研究表明，DAGM、MF和DGL三个组件共同作用才能达到最佳性能。定性结果（图3）显示，DepthTalk在生成新视角面部时，光照更真实，伪影更少。意义：在数据受限（少样本）场景下，实现了更高质量、更几何一致的说话人头部视频合成，对数字人、虚拟现实等应用有潜在价值。局限性：依赖外部预训练的深度先验模型（Sapiens）；实验数据集（HDTF等）的规模和多样性有限；推理速度（32.66 FPS）虽实时但略低于InsTaG。 🏗️ 模型架构论文的整体架构如图2所示。输入是音频特征、上半脸表情控制信号和头部姿态（相机位姿）。核心流程如下： ...

Efficient Audio-Visual Inference Via Token Clustering And Modality Fusion

📄 Efficient Audio-Visual Inference Via Token Clustering And Modality Fusion #音频问答 #音视频 #多模态模型 #预训练 #模型评估 ✅ 7.5/10 | 前25% | #音频问答 | #音频大模型 #多模态模型 | #音视频 #多模态模型学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0 | 置信度高 👥 作者与机构第一作者：Chenjie Pan（华南师范大学）通讯作者：Chenyou Fan（华南师范大学）作者列表：Chenjie Pan（华南师范大学）、Yi Zhu（华南师范大学）、Songkai Ning（华南师范大学）、Xiangyang Liu（华南师范大学）、Weiping Zheng（华南师范大学）、Chenyou Fan（华南师范大学） 💡 毒舌点评亮点：论文精准地抓住了当前音视频LLM中音频模态token冗余这一关键痛点，提出的无参动态聚类压缩策略（ATCC）在大幅削减token数量（96%）和计算量（54%）的同时，性能不降反升，这证明其压缩确实保留了有效信息，而非简单丢弃。短板：创新性更多体现在“组合”与“针对特定场景的优化”上，其核心的聚类算法和双向交叉注意力融合均为成熟技术的直接应用；此外，论文声称的性能提升幅度（0.6%-3.7%）相对有限，且绝对数值并未显著超越表中列出的所有最强基线（如PAVE在Music-AVQA上仍略高）。 🔗 开源详情代码：论文中未提及代码仓库链接。模型权重：未提及是否公开训练好的模型权重。数据集：论文中使用了多个公开数据集（Music-AVQA， VGGSound， AVSD等），但未提供额外的数据处理或获取方式。 Demo：未提供在线演示。复现材料：论文提供了详细的模型架构描述、训练超参数（学习率、批次大小）、硬件环境（4x RTX 3090）以及算法伪代码（算法1），这些是重要的复现信息。但未提供完整的配置文件、检查点或更细致的训练日志。论文中引用的开源项目：明确提到了作为基础架构的VideoLLaMA2，并引用了其使用的组件：视觉编码器SigLIP [22]，音频编码器BEATs [23]，以及语言模型Qwen2-7B [24]。也引用了LoRA [14]等训练技术。 📌 核心摘要解决的问题：多模态大语言模型在处理音视频问答任务时，因音频和视觉token数量庞大导致计算和内存开销高，且现有的融合方法往往忽略了音频token的冗余问题，影响了效率和跨模态对齐效果。方法核心：提出高效音视频推理框架（EAVI），包含两个核心组件：(1) 音频token聚类压缩（ATCC），通过动态阈值聚类在保留时序结构的前提下压缩音频token；(2) 双向模态融合模块，通过交叉注意力让压缩后的音频特征与视觉特征相互增强。与已有方法的新颖之处：不同于以往工作主要压缩视觉token或进行简单拼接，EAVI首次专门针对音频模态设计了一种无需额外训练参数的动态聚类压缩方法，并引入了双向的跨模态注意力机制，使融合更加充分。主要实验结果：在三个AVQA基准数据集上，EAVI相比强基线VideoLLaMA2，准确率提升了0.6%-3.7%。效率方面，音频token数量平均减少96%，总token减少66%，导致FLOPs降低54%，KV缓存使用减少65%，推理延迟降低15%。主要对比结果：模型 Music-AVQA VGGSound AVSD CREMA (2025) 75.6 67 - VideoLLaMA2 (2024) 80.9 71.4 57.2 PAVE (2025) 82.3 - 42.5 EAVI (Ours) 81.5 (+0.6) 75.1 (+3.7) 58.7 (+1.5) 效率对比：模型 Tokens (Audio / Total) FLOPs (T) Latency (S) KV cache (MB) VideoLLaMA2 1496 / 2172 40.3 1.13 120 EAVI (Ours) 66 / 742 15.4 0.96 42 实际意义：为在资源受限的设备上部署实时、高效的音视频问答模型提供了可行的技术路径，通过压缩减少了对计算和内存资源的需求。主要局限性：聚类压缩可能导致细微语义信息的丢失；模型的最终性能仍强依赖于底层预训练的视觉和音频编码器；在对话理解（AVSD）等任务上的提升幅度相对较小。 🏗️ 模型架构 EAVI框架的整体架构如图2（左）所示。它建立在类似VideoLLaMA2的架构之上，主要改进了音频处理和跨模态融合部分。 ...

FastAV: Efficient Token Pruning for Audio-Visual Large Language Model Inference

📄 FastAV: Efficient Token Pruning for Audio-Visual Large Language Model Inference #音频问答 #大语言模型的压缩与加速 #音视频 #多模态模型 ✅ 7.0/10 | 前25% | #音频问答 | #大语言模型的压缩与加速 | #音视频 #多模态模型学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0 | 置信度高 👥 作者与机构第一作者：Chaeyoung Jung（韩国科学技术院，Korea Advanced Institute of Science and Technology, South Korea）通讯作者：未说明作者列表：Chaeyoung Jung（韩国科学技术院）、Youngjoon Jang（韩国科学技术院）、Seungwoo Lee（韩国科学技术院）、Joon Son Chung（韩国科学技术院） 💡 毒舌点评亮点：本文敏锐地发现了现有token剪枝研究在音视频大语言模型领域的空白，并首次提出了系统性的解决方案，其两阶段剪枝策略（全局剪枝+精细剪枝）在实验上取得了显著且一致的效率提升（>40% FLOPs降低），且不损害甚至能提升性能，这对于推动此类昂贵模型的实际部署具有明确的工程价��。短板：技术路线本质上是对视觉token剪枝方法的“移植”和“拼接”（全局剪枝基于视觉工作常见的注意力回溯，精细剪枝基于LLM剪枝中常见的最后token分析），在剪枝机制本身上创新有限。此外，实验对比集中在自身设定的不同剪枝策略上，缺乏与更多元、更强的基线方法（如其他可能适用于多模态的剪枝或加速技术）的横向比较。 🔗 开源详情代码：论文中未提及代码链接。模型权重：未提及。数据集：论文中使用的AVQA、MUSIC-AVQA、AVHBench为公开数据集，但论文未说明具体获取或预处理方式。 Demo：未提及。复现材料：论文给出了关键超参数（剪枝层选择、P=20%、保留的token数量），描述了剪枝算法的公式和步骤，但未提供完整的配置文件、脚本或检查点。论文中引用的开源项目：引用了VideoLLaMA2和video-SALMONN2作为基线模型，并链接了VideoLLaMA2的GitHub仓库（https://github.com/DAMO-NLP-SG/VideoLLaMA2/tree/audio_visual），但这是基线模型的仓库，而非FastAV的实现。 📌 核心摘要要解决的问题：音视频大语言模型在处理包含音频、视频、文本的多模态输入时，token数量巨大，导致推理时内存消耗和计算成本剧增，限制了其实际应用。方法核心：提出FastAV，一个两阶段的推理时token剪枝框架。第一阶段在中间层进行“全局剪枝”，利用注意力回溯机制分析token重要性，移除位置靠后、影响力较弱的大部分token（如2/3）；第二阶段在后续层进行“精细剪枝”，基于最后一个查询token的注意力权重，逐层迭代移除最不重要的20% token。与已有方法相比新在哪里：这是首个专门为音视频大语言模型设计的token剪枝框架。不同于直接应用在纯文本LLM或视觉-语言模型上的方法，FastAV综合考虑了音视频模态的特点，并通过注意力回溯揭示了此类模型在中间层后注意力集中于早期token的“锚定”模式，从而设计了针对性的剪枝策略。主要实验结果：在VideoLLaMA2和video-SALMONN2两个模型上，FastAV将理论FLOPs降低了40%以上（见表1），同时推理速度提升约30%，内存占用降低。在AVQA, MUSIC-AVQA, AVHBench三个基准测试上，性能保持持平甚至有所提升（例如在AVHBench的AV匹配任务上，VideoLLaMA2的准确率从57.8%提升至69.0%）。消融实验表明，基于注意力回溯的全局剪枝策略优于随机剪枝和基于原始注意力权重的策略（表2），精细剪枝的剪枝比例P=20%为最优（表4）。实际意义：使音视频大语言模型能够更高效地处理长视频、复杂音频等多模态长上下文输入，降低了部署的硬件门槛和延迟，有助于推动其在实时交互、边缘设备等场景的应用。主要局限性：剪枝策略的有效性依赖于“注意力在中间层后集中于早期token”这一观察，该模式是否在所有音视频大语言模型和任务中普遍存在尚不明确。此外，论文未探讨该剪枝框架对模型训练或微调阶段的影响，也未提供理论保证证明性能不会在更极端的压缩下下降。 🏗️ 模型架构 FastAV本身并非一个独立的音视频大语言模型，而是一个应用于现有模型（如VideoLLaMA2、video-SALMONN2）推理阶段的加速框架。其整体流程如图3所示。图3：FastAV框架概览。输入序列包含视频（X_vis）、音频（X_aud）和文本（X_lang）token。整体推理过程（a）在中间层（L/2）进行全局剪枝，在后续层进行精细剪枝。剪枝机制（b）展示了全局剪枝依据注意力回溯，精细剪枝依据最后查询token的注意力分析。 ...