Attentive AV-Fusionnet: Audio-Visual Quality Prediction with Hybrid Attention
📄 Attentive AV-Fusionnet: Audio-Visual Quality Prediction with Hybrid Attention #音视频 #多模态模型 #注意力机制 #模型评估 #工业应用 ✅ 7.0/10 | 前25% | #音视频 | #注意力机制 | #多模态模型 #模型评估 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 -0.5 | 置信度 中 👥 作者与机构 第一作者:Ina Salaj (Dolby Germany GmbH) 通讯作者:未说明(根据作者列表和常规署名,第一作者或第二作者可能为通讯作者,但论文中未明确标注) 作者列表:Ina Salaj (Dolby Germany GmbH), Arijit Biswas (Dolby Germany GmbH) 💡 毒舌点评 亮点:论文提出的混合注意力融合框架(结合GML学习特征和VMAF手工特征)设计精巧,实验结果在内部数据集上显著优于基线(Rp提升至0.97),且提供了可解释的模态重要性估计。短板:论文严重依赖于Dolby的“内部数据集”和“内部实现的GML/VMAF特征”,外部可复现性存疑,且在公开基准LIVE-SJTU上的提升(如RMSE从0.47降至0.44)相对有限,未能完全证明其“鲁棒性”声称。 📌 核心摘要 问题:现有音视频质量评估(AVQ)方法常采用简单的融合策略(如加权求和),无法有效建模内容相关的跨模态动态依赖关系(例如,高质量视频可补偿音频瑕疵),且依赖过时的单模态特征。 方法:提出Attentive AV-FusionNet。模型首先提取视频VMAF内部特征(6维)和音频GML深层特征(512维)。通过可学习投影将视频特征对齐到音频空间。核心融合阶段采用双向多头交叉注意力,使音频和视频特征相互关注,生成1024维联合表征;随后使用自注意力进一步精炼该表征,以捕捉模态内依赖。最终通过浅层全连接网络预测质量分数。 创新:1) 融合了深度学习(GML)和传统感知模型(VMAF)的异构特征;2) 利用混合注意力机制显式建模跨模态和模态内交互;3) 引入了模态相关性估计器,可量化每个模态对最终预测的贡献。 结果:在内部数据集(1500训练,125测试)上,该模型达到 Pearson (Rp) = 0.97, Spearman (Rs) = 0.96, RMSE = 0.22,显著优于加权乘积基线(Rp=0.84)和SVR方法(Rp=0.90)。在外部LIVE-SJTU数据集上,取得 Rp=0.92, Rs=0.92, RMSE=0.44,表现与SVR-8F(Rp=0.90)和Recursive AV-FusionNet(Rp=0.92)相当或略优。 意义:该模型为流媒体平台提供了更准确、可解释的音视频联合质量预测工具,其模态重要性估计为实现内容自适应的音视频比特率分配提供了可能。 局限:模型依赖于未公开的内部数据集和特定特征提取器(GML、VMAF内部表示),外部验证数据集(LIVE-SJTU)规模有限,且未能提供代码或详细复现指南。 🏗️ 模型架构 Attentive AV-FusionNet 是一个端到端的全参考音视频质量预测模型,包含三个主要阶段:特征提取、注意力融合、质量预测。 ...