音视频 | 语音/音乐/音频论文速递

RAP: Real-Time Audio-Driven Portrait Animation with Video Diffusion Transformer

📄 RAP: Real-Time Audio-Driven Portrait Animation with Video Diffusion Transformer #音视频 #扩散模型 #流匹配 #DiT ✅ 7.0/10 | 前25% | #音视频 | #扩散模型 | #流匹配 #DiT 学术质量 4.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Fangyu Du (Soul AI, Xi’an Jiaotong University), Taiqing Li (Soul AI, Dalian University of Technology) （论文标注为共同第一作者）通讯作者：Shunshun Yin (Soul AI), Siyuan Liu (Soul AI) （论文标注为共同通讯作者，且Siyuan Liu为项目负责人）作者列表：Fangyu Du (Soul AI, Xi’an Jiaotong University), Taiqing Li (Soul AI, Dalian University of Technology), Qian Qiao (Soul AI), Tan Yu (Soul AI), Dingcheng Zhen (Soul AI), Ziwei Zhang (Soul AI), Xu Jia (Dalian University of Technology), Yang Yang (Xi’an Jiaotong University), Shunshun Yin (Soul AI), Siyuan Liu (Soul AI) 💡 毒舌点评这篇论文在“实时”这个硬约束下，非常工程化地解决了高压缩潜在空间中的唇形同步和长视频生成漂移这两个核心痛点，展现了不错的系统设计能力。但其核心创新（混合注意力和训练策略）更多是针对特定问题的有效工程组合，而非开辟新范式；此外，虽然强调实时，但高压缩率（LTX-VAE）对图像纹理细节的潜在损失并未被深入讨论，这可能是其实时性与质量权衡中一个未被充分审视的代价。 ...

Rethinking Entity Disambiguation in Complex Modalities

📄 Rethinking Entity Disambiguation in Complex Modalities #多模态模型 #实体消歧 #对比学习 #音视频 #数据集 🔥 8.0/10 | 前25% | #实体消歧 | #多模态模型 | #对比学习 #音视频学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Yingyao Ma（东南大学计算机科学与工程学院）通讯作者：Jiasong Wu（*，东南大学计算机科学与工程学院）作者列表：Yingyao Ma（东南大学计算机科学与工程学院），Yifan Xue（东南大学计算机科学与工程学院），Wanqiang Cai（东南大学计算机科学与工程学院），Yuanyuan Zhou（东南大学计算机科学与工程学院），Jiasong Wu（东南大学计算机科学与工程学院），Lotfi Senhadji（法国雷恩大学，INSERM，LTSI-UMR 1099），Huazhong Shu（东南大学计算机科学与工程学院） 💡 毒舌点评亮点：论文系统性地将实体消歧任务从传统文本/静态图像扩展到动态的视频、音频等“复杂模态”，并为此构建了一个专用的多模态数据集，填补了特定场景下的研究空白。短板：音频模态的处理略显“工具化”，主要通过ASR转文本再匹配来利用，对音频波形本身的声学特征（如音色、韵律）利用不足，可能限制了其在语音主导场景下的性能上限。 🔗 开源详情代码：提供了一个匿名代码仓库链接：https://anonymous.open.science/r/CMED-code-B0E8。模型权重：未提及是否公开预训练或最终模型的权重。数据集：构建并公开了Focus数据集（包括Focus-H和Focus-A两个版本），论文中未说明具体获取方式，通常需联系作者或通过提供链接下载。 Demo：未提供在线演示。复现材料：在论文的“Implementation Details”部分提供了训练所用的优化器（Adam）、学习率（1e-3）、batch size（64）、训练轮数（50 epochs）、GPU型号（NVIDIA GTX A6000）以及超参数调优方法（网格搜索）。论文中引用的开源项目：依赖的开源工具/模型包括：CLIP（特征提取）、SBERT（句子编码）、BERT（基线）、BLINK（基线）以及多个多模态基线模型（ALBEF, MaPLe, ClipBERT等）。 📌 核心摘要问题：传统实体消歧方法主要依赖静态的文本或图像信息，难以处理真实世界中日益复杂的、包含动态视频和音频信息的多模态场景。方法核心：提出CMED（Complex-Modality Entity Disambiguation）框架，包含两个关键模块：提及中心特征定位与提取模块（通过关键帧采样、音频定位网络等定位与提及相关的多模态信息）和多级相似度计算模块（计算文本、全局视频、局部视频等多个层面的提及-实体相似度）。框架利用对比学习进行联合训练。新意：与现有仅处理文本或图文的方法相比，CMED首次统一处理文本、视频、音频三种模态。创新点在于设计了针对复杂模态的特征定位机制（如视频帧采样、音频上下文定位）以及多层次（全局/局部）的多模态特征融合与匹配策略。实验结果：论文构建了包含中文新闻视频、音频和文本的Focus数据集。在Focus-H（标题作为上下文）和Focus-A（音频转写作为上下文）两个版本上，CMED显著超越所有基线。例如，在Focus-H数据集上，CMED的Hits@1为74.41%，相比最强视频基线（CLIP4Clip）的64.49%提升近10个百分点，MRR从75.30提升至81.69。消融实验表明，全局特征、局部特征、视频帧采样网络、音频定位网络和上下文增强等所有组件对性能均有贡献。实际意义：为动态、复杂的多模态信息环境（如新闻视频分析）提供了更鲁棒的实体消歧解决方案，有助于提升下游任务（如信息抽取、问答）的准确性。主要局限性：1) Focus数据集规模中等（约7k样本），且来源于特定领域的中文新闻视频��模型的跨领域、跨语言泛化能力有待验证；2) 音频模态的利用方式相对间接（ASR转文本），未深度挖掘原始音频信号的特性；3) 实时性或流式处理能力未被讨论。 🏗️ 模型架构 CMED框架（如图2所示）旨在处理一个包含视频、提及词和辅助上下文（标题或音频转写）的样本，并将其与知识库中的实体进行匹配。整体流程可分为两个核心模块： ...

Semantic-Guided Pseudo-Feature Attention Network for Audio-Visual Zero-Shot Learning

📄 Semantic-Guided Pseudo-Feature Attention Network for Audio-Visual Zero-Shot Learning #音频分类 #零样本学习 #多模态模型 #对比学习 #音视频 ✅ 7.0/10 | 前25% | #音频分类 #零样本学习 | #多模态模型 #对比学习 | #音频分类 #零样本学习学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 -0.5 | 置信度中 👥 作者与机构第一作者：Siteng Ma（苏州大学）通讯作者：Wenrui Li（哈尔滨工业大学）作者列表：Siteng Ma（苏州大学）、Wenrui Li（哈尔滨工业大学）、Haocheng Tang（北京大学）、Yeyu Chai（哈尔滨工业大学）、Jisheng Chu（哈尔滨工业大学）、Xingtao Wang（哈尔滨工业大学） 💡 毒舌点评本文的亮点在于将自适应模态加权、语义引导的变分生成与语义对齐的对比学习巧妙融合，形成了一个逻辑自洽的统一框架来解决GZSL中的核心矛盾，并在两个基准数据集上取得了SOTA。然而，其短板在于对SVG模块中具体网络结构的描述较为简略，且未提供任何开源代码或详细的超参数搜索过程，使得完全复现该工作的细节变得困难。 🔗 开源详情代码：论文中未提及代码链接。模型权重：未提及。数据集：使用了ActivityNet, VGGSound, UCF等公开基准数据集，但论文中未提供具体获取方式。 Demo：未提及。复现材料：论文中提及了部分超参数（损失函数权重λ1-λ5），但缺乏训练细节（如学习率、batch size、优化器、训练轮数）、模型具体配置（如编码器/解码器结构、隐藏维度）以及预训练骨干网络信息。论文中引用的开源项目：论文引用了多个相关工作，但未明确说明其SGPAN实现依赖了哪些具体的开源代码库或工具。总结：论文中未提及开源计划。 📌 核心摘要这篇论文旨在解决音频-视觉广义零样本学习（GZSL）中因模态竞争和类间分布重叠导致的对可见类过度偏置问题。核心方法是提出一个名为SGPAN的多模态框架，它集成了三个关键组件：1）自适应模态重加权（AMR），动态调整音频和视觉分支的损失权重以平衡学习；2）语义引导变分生成（SVG），利用文本语义条件化的VAE生成伪特征，以扩大类内覆盖并缓解类别混淆；3）语义对齐对比损失（SACL），在投影空间中对齐跨模态特征并扩大类间距。与已有方法相比，新在将特征生成、动态模态平衡与对比学习在同一个端到端框架内协同优化。实验表明，SGPAN在UCF-GZSL和VGGSound-GZSL数据集上的调和平均精度（HM）上取得了当时最优的结果。该工作的实际意义在于为开放世界下的多模态视频理解提供了一个更鲁棒的零样本识别方案。主要局限性包括模型性能对语义标签的质量以及batch统计量的依赖。 🏗️ 模型架构模型的整体架构如图1所示。SGPAN是一个基于交叉注意力的多模态框架，其输入是来自预训练骨干网络的音频和视觉特征。 ...

SightSound-R1: Cross-Modal Reasoning Distillation from Vision to Audio Language Models

📄 SightSound-R1: Cross-Modal Reasoning Distillation from Vision to Audio Language Models #音频问答 #知识蒸馏 #多模态模型 #迁移学习 #音视频 ✅ 7.5/10 | 前25% | #音频问答 | #知识蒸馏 | #多模态模型 #迁移学习学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：未说明（论文中作者列表排序未明确指定第一作者）通讯作者：未说明作者列表：Qiaolin Wang（Columbia University, New York, NY, USA）、Xilin Jiang（Columbia University, New York, NY, USA）、Linyang He（Columbia University, New York, NY, USA）、Junkai Wu（University of Washington, Seattle, WA, USA）、Nima Mesgarani（Columbia University, New York, NY, USA） 💡 毒舌点评亮点在于巧妙地利用“视觉可听”的假设，将强大的视觉语言模型（LVLM）作为“免费的”教师来生成音频推理数据，从而绕过了音频链式思考（CoT）数据稀缺的瓶颈，思路清晰且实用。短板则是这一核心假设存在天然局限，导致生成的推理链可能基于视觉臆测而非真实音频内容（论文中也承认了语音、音乐任务性能下降），且方法的最终效果高度依赖外部强大LVLM和验证模型的能力，并非完全独立。 ...

SIREN: Spatially-Informed Reconstruction of Binaural Audio with Vision

📄 SIREN: Spatially-Informed Reconstruction of Binaural Audio with Vision #空间音频 #音视频 #Transformer ✅ 7.0/10 | 前25% | #空间音频 | #音视频 | #Transformer 学术质量 5.5/7 | 选题价值 1.0/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Mingyeong Song (Ewha Womans University, Seoul, Korea)，Seoyeon Ko (Ewha Womans University, Seoul, Korea) （论文标注两人贡献相等）通讯作者：未说明作者列表：Mingyeong Song (Ewha Womans University, Seoul, Korea), Seoyeon Ko (Ewha Womans University, Seoul, Korea), Junhyug Noh (Ewha Womans University, Seoul, Korea) 💡 毒舌点评 SIREN巧妙地将Transformer的注意力机制“一分为二”，用作左右声道的空间特征调制器，思路清晰且免去了手工设计掩模的麻烦，是本文最亮眼的工程巧思。然而，论文的论证主要停留在客观指标的“分数游戏”上，缺乏一个关键环节：听众到底能不能真的听出区别？没有主观MOS测试，很难断言那些STFT或相位距离的提升能带来感知上的空间感增强。此外，方法的“自信融合”听起来很美，但其核心假设（单声道一致性和相位一致性）在复杂动态场景下的鲁棒性未见深入讨论。 ...

Sounding Highlights: Dual-Pathway Audio Encoders for Audio-Visual Video Highlight Detection

📄 Sounding Highlights: Dual-Pathway Audio Encoders for Audio-Visual Video Highlight Detection #视频高光检测 #音视频 #多模态融合 #自适应模型 #精细音频处理 🔥 8.5/10 | 前10% | #视频高光检测 | #多模态融合 | #音视频 #自适应模型学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Seohyun Joo（GIST电气工程与计算机科学学院）通讯作者：论文中未明确说明通讯作者。作者列表：Seohyun Joo（GIST电气工程与计算机科学学院）、Yoori Oh（首尔国立大学音乐与音频研究组） 💡 毒舌点评亮点在于其“双通路”音频编码器的设计非常精巧，通过一个动态通路显式捕获频谱动态（如突变声音事件），并与语义通路进行门控式融合，有效解决了以往音频特征利用不足的痛点，在大规模数据集上效果显著。短板是其在较小规模、类别更多样的TVSum数据集上优势不明显，可能暗示模型的泛化能力或对不同视频风格的适应性仍有提升空间。 🔗 开源详情代码：论文中未提及代码仓库链接。模型权重：未提及。数据集：使用了Mr.HiSum和TVSum公开数据集，但未在文中提供获取方式链接（假设读者已知）。 Demo：提供了在线演示链接：https://seohyj.github.io/soundhd.github.io/。复现材料：提供了详细的训练细节（优化器、学习率、批量大小、训练轮数、权重衰减、梯度裁剪）、关键超参数（K值、特征维度、频谱图参数）和模型架构描述，便于复现。论文中引用的开源项目：引用了多个预训练模型作为基线或组件，包括PANNs (用于音频语义编码器)、ResNet-34、Inception-v3 (用于视觉编码器)，以及作为基线比较的PGL-SUM, Joint-VA, UMT, CSTA等。总结：论文中未提及开源计划，但提供了Demo和详细的复现参数。 📌 核心摘要要解决什么问题：现有音视频视频高光检测模型对音频模态的利用过于简单，通常只提取高层语义特征，忽略了声音丰富的、动态的声学特性（如瞬态事件、能量突变），而这些特性对于识别视频中的亮点时刻至关重要。方法核心是什么：提出名为DAViHD的框架，其核心是双通路音频编码器。它包含两个并行路径：1）语义通路（基于PANNs）处理原始波形，提取“听到了什么”的高层语义信息；2）动态通路（基于频率自适应卷积）处理对数梅尔频谱图，捕获“声音如何变化”的低层、时变动态特性。两条通路的输出经过自注意力后，通过元素级乘法进行融合（动态特征作为门控调制语义特征）。最终融合后的音频表征与视觉表征进行双向跨模态注意力融合，预测高光分数。与已有方法相比新在哪里：主要创新在于显式地、并行地建模音频的语义内容与谱时动态，并通过精心设计的“早期自注意力+乘法融合”策略将两者结合。这与以往将音频视为单一流或仅使用通用预训练特征（如PANNs）的方法有本质区别。主要实验结果如何：在大规模Mr.HiSum数据集上取得全面SOTA，例如在F1、mAP_50、ρ、τ等指标上均显著超越最强基线UMT。在TVSum数据集上部分指标也达到最优。消融实验证明，仅使用双通路音频（V+A_s+A_d）的性能已接近甚至超过一些传统音视频模型（V+A_s），凸显了精细音频表征的关键作用。模型 Mr.HiSum F1 ↑ Mr.HiSum ρ ↑ TVSum F1 ↑ TVSum ρ ↑ UMT (强基线) 58.18±0.29 0.239±0.006 57.54±0.87 0.175±0.022 DAViHD (本文) 59.73±0.41 0.299±0.012 57.67±1.27 0.200±0.032 实际意义是什么：证明了在音视频理解任务中，对音频信号进行更物理、更精细的建模（如考虑其动态变化）能带来巨大性能提升。为视频摘要、检索等应用提供了更准确的技术基础。主要局限性是什么：1）模型复杂度有所增加（双通路）；2）在数据量较小、视频类别多样的TVSum上提升幅度相对有限，表明其优势在大规模、风格可能更统一的互联网视频数据上更为突出；3）论文未讨论模型的计算开销与推理速度。 🏗️ 模型架构 DAViHD的整体框架（图2(a)）是一个端到端的音视频高光检测模型，输入是视频帧序列和对应的音频波形，输出是每1秒片段的高光分数。 ...

Sparse-View Visual-Acoustic Latent Learning for Novel-View Audio Synthesis

📄 Sparse-View Visual-Acoustic Latent Learning for Novel-View Audio Synthesis #空间音频 #多模态模型 #自监督学习 #音视频 ✅ 7.5/10 | 前25% | #空间音频 | #多模态模型 | #自监督学习 #音视频学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度高 👥 作者与机构第一作者：Yimu Pan (†Dolby Laboratories, ⋆宾夕法尼亚州立大学) 通讯作者：未说明作者列表：Yimu Pan (†Dolby Laboratories, ⋆宾夕法尼亚州立大学), James Z. Wang (†宾夕法尼亚州立大学), Lie Lu (⋆Dolby Laboratories) 💡 毒舌点评本文巧妙地将视觉几何表示（Plücker rays）引入声学特征学习，通过Transformer的潜空间注意力机制实现了“看声辨源”，在无需显式标注的情况下提升了稀疏视角合成的空间准确性。然而，其核心音频合成模块直接“拿来主义”ViGAS，虽然保证了公平对比，但也让人怀疑如果换成更强的端到端合成器，论文的创新性是否会被进一步稀释。 🔗 开源详情代码：论文中未提及代码链接。模型权重：未提及是否公开。数据集：使用了公开的数据集（Replay-NVAS, SoundSpaces-NVAS），但论文中未提供获取链接。 Demo：未提及。复现材料：论文仅提供了高层模型架构、损失函数公式和部分实验设置（如基于LVSM预训练），但缺失大量训练细节（优化器、学习率、具体超参数值、训练时长等），不足以支持完全复现。论文中引用的开源项目：LVSM [9]， ViGAS [7]， SoundSpaces 2.0 [24]， Gibson [25]， LibriSpeech [26]， VGGT [10]， Parallel WaveGAN [23]等。总体评估：论文中未提及具体的开源计划，复现信息不充分。 📌 核心摘要问题：现有新视角音频合成（NVAS）方法大多依赖密集场景表示（如全景图）或需要显式的声源位置信息，这些条件在实际应用中难以获取且成本高昂。方法核心：提出一个名为NVA-Former的视觉-声学Transformer。它以稀疏多视角的图像、相机位姿和音频作为输入，通过视觉分词器（利用Plücker射线嵌入）和声学分词器提取特征，并在Transformer的潜空间中联合处理。模型同时输出目标视角的视觉特征和声学特征，分别用于重建新视角图像和合成双耳音频。创新点：与依赖声源位置的稀疏方法（如ViGAS）或需要密集输入的稠密方法（如AV-Cloud）不同，本文的方法在潜空间中通过共享的相机位姿信息，隐式地建立跨视角、跨模态的3D关联，从而无需声源位置信息。实验结果：在真实世界数据集Replay-NVAS和合成数据集SoundSpaces-NVAS上，使用两个输入视角时，NVA-Former在衡量空间准确性的LRE指标（Replay-NVAS：0.671 vs ViGAS 0.800/1.112）和感知质量CDPAM指标（0.132 vs ViGAS 0.383/0.352）上均显著优于最强基线ViGAS，同时保持有竞争力的MAG和RTE性能。消融实验表明，视觉监督和深度监督对性能至关重要。实际意义：显著降低了现实世界数据采集的门槛，使得仅用少量同步相机-麦克风对即可学习3D声学场景表示，为AR/XR等应用提供了一种更实用的NVAS解决方案。局限性：模型依赖于预训练的视觉Transformer（LVSM）权重以获得良好的3D视觉理解能力。其核心创新点在于声学特征的学习，而最终的音频合成模块直接复用了先前工作（ViGAS），这可能限制了对其所学声学特征上限的完整评估。 🏗️ 模型架构论文提出的模型称为Novel-view Visual-Acoustic Transformer (NVA-Former)。其整体流程如图1所示： ...

Spiking Temporal-Enhanced Network for Zero-Shot Audio-Visual Learning

📄 Spiking Temporal-Enhanced Network for Zero-Shot Audio-Visual Learning #音视频 #脉冲神经网络 #零样本 #音频分类 #多模态模型 ✅ 7.0/10 | 前50% | #音频分类 | #脉冲神经网络 | #音视频 #零样本学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度中 👥 作者与机构第一作者：Ziyu Wang（哈尔滨工业大学，鹏城实验室，哈尔滨工业大学苏州研究院）通讯作者：Wenrui Li（哈尔滨工业大学，鹏城实验室，哈尔滨工业大学苏州研究院）作者列表：Ziyu Wang（哈尔滨工业大学，鹏城实验室，哈尔滨工业大学苏州研究院）、Wenrui Li（哈尔滨工业大学，鹏城实验室，哈尔滨工业大学苏州研究院）、Hongtao Chen（哈尔滨工业大学，鹏城实验室，哈尔滨工业大学苏州研究院）、Jisheng Chu（哈尔滨工业大学，鹏城实验室，哈尔滨工业大学苏州研究院）、Hengyu Man（哈尔滨工业大学，鹏城实验室，哈尔滨工业大学苏州研究院）、Xiaopeng Fan（哈尔滨工业大学，鹏城实验室，哈尔滨工业大学苏州研究院） 💡 毒舌点评亮点：论文敏锐地抓住了音视频零样本学习中“时间建模”和“能效”两大痛点，提出的STFE和ETS模块设计目标明确，且通过减少时间步长实现了可观的能耗降低。短板：模型在复杂长视频（ActivityNet）上表现出的“过拟合已见类别、损害未知类别泛化”的现象，恰恰点出了其时间建模可能“用力过猛”而牺牲了通用性，这一核心矛盾在论文中未得到充分讨论和解决。 🔗 开源详情代码：论文中未提及代码链接。模型权重：未提及。数据集：使用公开数据集（VGGSound, UCF101, ActivityNet），未提及额外数据。 Demo：未提供在线演示。复现材料：提供了主要超参数（见03.细节详述），但缺少优化器、学习率调度、数据预处理/增强细节、完整训练配置文件等。论文中引用的开源项目：引用了预训练模型SeLaVi[17]（“Labelling unlabelled videos from scratch with multi-modal self-supervision”），但未提供其具体开源链接。总体开源情况：论文中未提及开源计划。 📌 核心摘要问题：现有音视频零样本学习（AVZSL）方法普遍存在时间线索利用不足的问题，常依赖简单的特征平均或基础脉冲神经元，无法捕捉深层时间依赖，且能效有待优化。方法核心：提出脉冲时序增强网络（STEN）。其核心是在Spikeformer架构中集成可学习三元脉冲神经元（LTS）和时空融合模块（STFE），并通过增强时序Spikeformer（ETS）自适应整合相邻时间步信息。新意：相比已有方法（如AVMST），STEN通过LTS增强特征表示能力，通过STFE联合建模时间局部动态和通道依赖，通过ETS捕获微观时序变化。同时利用脉冲神经网络（SNN）的事件驱动稀疏性，通过优化时间步长大幅降低能耗。主要实验结果：在VGGSound数据集上，GZSL调和平均（HM）达到8.04，比基线AVMST（7.68）提升4.7%，ZSL指标提升13.6%。在UCF101数据集上，GZSL的HM达到34.27，比AVMST（29.91）提升14.6%，Seen类准确率大幅提升。在ActivityNet数据集上，Seen类指标提升40.8%，但Unseen类和HM略有下降。能效方面，与AVMST相比，SNN能耗降低41.7%，总能耗降低15.6%。实际意义：为AVZSL任务提供了一种在保持竞争力的同时，显著降低计算能耗的解决方案，有助于将该技术部署到资源受限的边缘设备。主要局限性：在时序更复杂、视频更长的ActivityNet数据集上，模型表现出对已见类别过拟合的倾向，牺牲了在未见类别上的泛化能力，表明其时间建模策略的稳健性有待提升。此外，论文未提及开源计划，可复现性存疑。 🏗️ 模型架构 STEN的整体架构如图1所示。其处理流程可分为四个主要阶段： ...

Streamingbench: Assessing the Gap for MLLMs to Achieve Streaming Video Understanding

📄 Streamingbench: Assessing the Gap for MLLMs to Achieve Streaming Video Understanding #基准测试 #模型评估 #多模态模型 #音视频 ✅ 7.5/10 | 前25% | #基准测试 | #多模态模型 | #模型评估 #音视频学术质量 5.8/7 | 选题价值 1.8/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Junming Lin（BUPT）（论文中Junming Lin标记为1⋆，表明是主要贡献者之一，但未明确“第一作者”；机构BUPT在作者列表中标注）通讯作者：未说明（论文中未明确标注通讯作者。Maosong Sun标记为1†，但†符号在作者列表中未定义为通讯作者）作者列表：Junming Lin3⋆（BUPT）、Zheng Fang1⋆（未说明）、Chi Chen1†（清华大学计算机系）、Haoxuan Cheng4（西安交通大学）、Zihao Wan1（未说明）、Fuwen Luo1（未说明）、Ziyue Wang1（未说明）、Peng Li2（清华大学AIR）、Yang Liu1,2（清华大学计算机系、清华大学AIR）、Maosong Sun1†（清华大学计算机系、清华大学AIR） 💡 毒舌点评本文最大的贡献是“承认差距”——它用一套精心设计的考卷，无情地证明了当前最聪明的多模态大模型在“边看边想边答”的能力上，依然是个不及格的“学龄前儿童”（最佳模型比人类低21.4%），这记耳光打得非常及时且必要。然而，它只负责“诊断”却未开“药方”，深度的分析和指明的改进方向（如处理并发线索、主动输出）虽有价值，但停留在表面，更像一份详尽的“体检报告”而非“手术方案”。 🔗 开源详情代码：论文中未提及代码链接。模型权重：论文中未提及公开本文评估的模型权重（这些权重属于各模型原作者）。数据集：论文明确指出StreamingBench已公开（“we hope our work facilitates further advancements…”），但未给出具体获取链接。论文中详细描述了数据构建过程，理论上可部分复现。 Demo：未提及。复现材料：论文在附录（未提供）中应包含更详细的评估设置说明（如对非流式模型的评估方法）。正文中给出了一些评估配置（如输入帧数、分辨率处理）。引用的开源项目：论文引用了大量开源模型作为评估对象，包括LLaVA-OneVision, Qwen2-VL, InternVL2, MiniCPM系列, VideoLLM-online, Flash-VStream等。 📌 核心摘要问题：当前多模态大语言模型（MLLMs）主要针对离线视频理解（处理完整视频后回答问题），与人类能实时“观看、聆听、思考、回应”流式视频输入的能力存在显著差距。现有基准无法有效评估这种流式能力。方法核心：提出StreamingBench，首个专门评估MLLMs流式视频理解能力的综合基准。该基准包含900个视频和4500个精心制作的问题对，每个视频设有5个不同时间点的问题以模拟连续流场景。它从三个核心维度评估：实时视觉理解、全模态（视觉+音频）理解和上下文理解。新意：与传统离线基准相比，StreamingBench的关键创新在于强调了时间性（问题需在特定时间点回答）、交互性（支持多轮任务）和多模态同步性（需对齐处理视觉和音频流）。主要实验结果：评估了3个闭源和20个开源MLLMs。即使是最强的闭源模型Gemini 1.5 Pro（总分70.26%），也比人类平均水平（91.66%）低21.4个百分点。开源模型中MiniCPM-o 2.6表现最好（66.01%）。模型在处理“并发线索”和“后续线索”时性能显著下降，表明其上下文记忆和实时对齐能力薄弱。分析还发现，使用语音指令会降低模型性能，而直接处理原生音频比使用ASR转录效果更好。关键性能对比如下表：模型类型模型名称总体得分(%) 实时视觉(%) 全模态(%) 上下文(%) 人类 Human 91.66 91.46 90.26 93.55 闭源 Gemini 1.5 Pro 70.26 77.39 67.80 51.06 GPT-4o 64.31 74.54 50.95 49.06 Claude-3.5-sonnet 60.06 74.04 41.40 39.70 开源 (~7B) MiniCPM-o 2.6 66.01 79.88 53.40 38.45 InternVL2.5 64.36 78.32 46.70 43.14 InternLM-XComposer2.5-OmniLive 60.80 75.36 46.20 33.58 实际意义：为评估和推进真正具有实时交互能力的多模态AI系统（如个人助理、实时翻译、智能监控）提供了首个标准化测试集和基线，明确了当前技术的主要短板和未来发展方向。主要局限性：本文是一项评估研究，未提出任何新的模型或算法来解决所发现的问题。其深度分析停留在现有模型的能力表征上，未进行根本性的模型架构或训练方法的探索。此外，视频来源为YouTube，可能无法完全覆盖所有现实流式场景。 🏗️ 模型架构本文是一篇基准测试与评估论文，并未提出一个新的模型架构。其核心贡献在于定义和构建了一个评估框架（StreamingBench），并利用该框架测试了多种现有的MLLMs。 ...

Teacher-Guided Pseudo Supervision and Cross-Modal Alignment for Audio-Visual Video Parsing

📄 Teacher-Guided Pseudo Supervision and Cross-Modal Alignment for Audio-Visual Video Parsing #音视频 #视频理解 #知识蒸馏 #弱监督学习 ✅ 7.0/10 | 前25% | #音视频 | #知识蒸馏 | #视频理解 #弱监督学习学术质量 6.5/7 | 选题价值 7.5/2 | 复现加成 0.0 | 置信度高 👥 作者与机构第一作者：Yaru Chen (Centre for Vision Speech and Signal Processing, University of Surrey, United Kingdom) 通讯作者：未说明作者列表： Yaru Chen (Centre for Vision Speech and Signal Processing, University of Surrey, United Kingdom) Ruohao Guo (School of Intelligence Science and Technology, Peking University, China) Liting Gao (Centre for Vision Speech and Signal Processing, University of Surrey, United Kingdom) Yang Xiang (Centre for Vision Speech and Signal Processing, University of Surrey, United Kingdom) Qingyu Luo (Centre for Vision Speech and Signal Processing, University of Surrey, United Kingdom) Zhenbo Li (College of Information and Electrical Engineering, China Agricultural University, China) Wenwu Wang (Centre for Vision Speech and Signal Processing, University of Surrey, United Kingdom) 💡 毒舌点评这篇论文的亮点在于其系统性和针对性：它精准地指出了现有弱监督AVVP方法的两个痛点（缺乏稳定段监督、粗糙的跨模态对齐），并用EMA和CMA这两个成熟但组合起来很有效的方案“对症下药”，在LLP数据集上的视觉和音视频联合指标上取得了实实在在的提升。但短板也十分明显：创新程度更像是一个“集大成”的工程优化方案，而非提出一个全新的学习范式；而且，论文在追求性能报告上非常详细，却在开源复现信息上极为吝啬，这对于一个旨在推动领域前进的会议论文来说，是减分项。 ...