AlignSep: Temporally-Aligned Video-Queried Sound Separation with Flow Matching

📄 AlignSep: Temporally-Aligned Video-Queried Sound Separation with Flow Matching #音频分离 #流匹配 #音视频 #基准测试 #多模态模型 ✅ 7.5/10 | 前25% | #音频分离 | #流匹配 | #音视频 #基准测试 学术质量 5.8/7 | 选题价值 1.5/2 | 复现加成 0.3 | 置信度 高 👥 作者与机构 第一作者:未说明(论文声明Xize Cheng, Chenyuhao Wen, Tianhao Wang为共同第一作者“Equal Contribution”) 通讯作者:未说明 作者列表:Xize Cheng (浙江大学1), Chenyuhao Wen (浙江大学1), Tianhao Wang (独立作者2), Yongqi Wang (浙江大学1), Zehan Wang (浙江大学1), Rongjie Huang (浙江大学1), Tao Jin (浙江大学1), Zhou Zhao (浙江大学1)。(注:1指浙江大学,2指独立作者,具体实验室或部门未在文中提供) 💡 毒舌点评 亮点:这是首个将流匹配范式成功引入视频引导声音分离的工作,并敏锐地指出了其与传统文本生成任务在“多条件生成”上的本质差异,为后续研究者提供了清晰的思路和新的挑战性基准。 短板:模型架构(拼接+FFN Transformer)略显“直给”,缺乏更精巧的跨模态交互设计;虽然实验充分,但“流匹配”相对于“扩散模型”在本任务中的具体优势论证(如表7所示)并不构成压倒性差距,说服力有提升空间。 ...

2026-05-04 · 更新于 2026-06-12 · 2 min · 299 words

Can Vision-Language Models Answer Face to Face Questions in the Real-World?

📄 Can Vision-Language Models Answer Face to Face Questions in the Real-World? #音频问答 #基准测试 #多模态模型 #音视频 🔥 8.0/10 | 前25% | #音频问答 | #基准测试 | #多模态模型 #音视频 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Reza Pourreza(Qualcomm AI Research) 通讯作者:未明确说明 作者列表:Reza Pourreza(Qualcomm AI Research), Rishit Dagli(University of Toronto / Qualcomm AI Research), Apratim Bhattacharyya(Qualcomm AI Research), Sunny Panchal(Qualcomm AI Research), Guillaume Berger(Qualcomm AI Research), Roland Memisevic(Qualcomm AI Research) 💡 毒舌点评 论文的亮点在于精准地抓住了当前多模态大模型从“离线理解”走向“实时交互”的关键瓶颈,并构建了一个极具针对性的真实世界问答基准,为社区指明了明确的改进方向。然而,其短板在于数据集规模相对有限(2900条),且核心评估指标依赖LLM judge,可能引入新的评估偏差,而提出的“流式基线”方法相对简单,更多是概念验证而非技术突破。 ...

2026-05-04 · 更新于 2026-06-12 · 2 min · 261 words

Efficient Audio-Visual Speech Separation with Discrete Lip Semantics and Multi-Scale Global-Local Attention

📄 Efficient Audio-Visual Speech Separation with Discrete Lip Semantics and Multi-Scale Global-Local Attention #语音分离 #音视频 #多模态模型 #自监督学习 ✅ 7.5/10 | 前25% | #语音分离 | #多模态模型 | #音视频 #自监督学习 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Kai Li(清华大学计算机系,IDG/McGovern脑研究院)、Kejun Gao(清华大学计算机系)(论文注明两人贡献相等) 通讯作者:Xiaolin Hu(清华大学计算机系,IDG/McGovern脑研究院,中国脑研究中心) 作者列表:Kai Li(清华大学计算机系,IDG/McGovern脑研究院)、Kejun Gao(清华大学计算机系)、Xiaolin Hu(清华大学计算机系,IDG/McGovern脑研究院,中国脑研究中心) 💡 毒舌点评 亮点在于将“效率”作为核心优化目标并做到了极致,通过精心设计的轻量视频编码器(DP-LipCoder)和全局-局部注意力(GLA)模块,在大幅降低计算成本的同时保持了顶尖的分离性能,工程优化思路清晰且效果显著。短板则是核心创新略显“拼盘”,即DP-LipCoder(结合VQ与蒸馏)和GLA(结合CSA与HDA)更多是现有技术的针对性组合与优化,缺乏从第一性原理出发的突破性架构革新,理论深度有限。 🔗 开源详情 代码:论文明确承诺“在文章被接受后,将在GitHub上以Apache-2.0许可证发布Dolphin的代码”,并提供了演示页面链接(https://cslikai.cn/Dolphin)。当前可视为“未提供”但承诺提供。 模型权重:承诺发布“预训练权重(用于视频骨干)和Dolphin的源代码”。 数据集:使用公开数据集LRS2、LRS3、VoxCeleb2,但论文未提及是否提供预处理好的数据,表示“需要根据引用的参考文献独立获取”,但会提供预处理脚本。 Demo:提供了在线演示页面链接(https://cslikai.cn/Dolphin)。 复现材料:论文提供了极其详尽的训练细节:包括完整的超参数配置(附录E)、损失函数公式(附录D)、训练硬件规格、数据处理流程、评估指标定义等。这些信息足以支持复现。 引用的开源项目:论文提及并依赖的开源工具/模型包括:AV-HuBERT(用于知识蒸馏)、VQ实现(来自PyPI的vector-quantize-pytorch)、FlashAttention(可选)、MTCNN(人脸检测)等。 开源计划:论文明确说明了开源计划,但代码和模型权重需待论文正式接受后发布。 📌 核心摘要 本文针对音视频语音分离(AVSS)模型参数量大、计算成本高、难以部署的问题,提出了一种高效模型Dolphin。其核心方法包含两部分:1) 设计了双路径轻量视频编码器DP-LipCoder,通过引入向量量化(VQ)和AV-HuBERT知识蒸馏,将连续的唇部视频流映射为与音频语义高度对齐的离散视觉token;2) 构建了一个单次迭代的轻量级编码器-解码器分离器,在其每层引入全局-局部注意力(GLA)块,分别使用粗粒度自注意力(CSA)和热扩散注意力(HDA)来捕捉长程依赖和局部细节。与已有SOTA方法(如IIANet)相比,Dolphin在LRS2、LRS3、VoxCeleb2三个基准数据集上的分离指标(SI-SNRi, SDRi, PESQ)全面更优,同时实现了参数量减少超50%、MACs降低2.4倍以上、GPU推理速度提升6倍以上的显著效率提升。这证明了Dolphin是一个性能优越且具备实际部署可行性的AVSS解决方案。主要局限性包括对清晰、同步的唇部视频的依赖,以及在资源极度受限的边缘设备上部署仍存挑战。 ...

2026-05-04 · 更新于 2026-06-12 · 2 min · 251 words

Human Behavior Atlas: Benchmarking Unified Psychological And Social Behavior Understanding

📄 Human Behavior Atlas: Benchmarking Unified Psychological And Social Behavior Understanding #多模态模型 #音频分类 #音视频 #预训练 #模型评估 🔥 8.5/10 | 前25% | #多模态模型 | #预训练 | #音频分类 #音视频 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 1.0 | 置信度 高 👥 作者与机构 第一作者:Keane Ong(MIT;National University of Singapore) 通讯作者:未说明 作者列表:Keane Ong(MIT;National University of Singapore)、Wei Dai(MIT)、Carol Li(MIT)、Dewei Feng(MIT)、Hengzhi Li(MIT;Imperial College London)、Jingyao Wu(MIT)、Jiaee Cheong(Harvard University)、Rui Mao(Nanyang Technological University)、Gianmarco Mengaldo(National University of Singapore)、Erik Cambria(Nanyang Technological University)、Paul Pu Liang(MIT) 💡 毒舌点评 亮点:在行为理解领域,该工作首次系统性地将分散在情感、认知、病理和社会过程等多个维度的异构数据集、任务和评估指标统一成一个标准化基准,为构建行为基础模型提供了至关重要的“数据-任务-评估”三位一体的基础设施。短板:论文更像是一个扎实的工程整合工作,其核心创新在于“统一”而非提出解决行为理解某一具体子任务(如深度讽刺识别或复杂社交推理)的新算法或架构,对于寻求领域内技术深度突破的读者来说,可能略显“广而不深”。 ...

2026-05-04 · 更新于 2026-06-12 · 2 min · 384 words

ICLR 2026 - 音视频 论文列表

ICLR 2026 - 音视频 共 4 篇论文 ← 返回 ICLR 2026 总览 排名 论文 评分 分档 🥇 JavisDiT++: Unified Modeling and Optimization for Joint Audi 9.0分 前25% 🥈 JavisDiT: Joint Audio-Video Diffusion Transformer with Hiera 8.5分 前25% 🥉 Syncphony: Synchronized Audio-to-Video Generation with Diffu 8.0分 前25% 4. Instilling an Active Mind in Avatars via Cognitive Simulatio 7.0分 前25% 📋 论文详情 🥇 JavisDiT++: Unified Modeling and Optimization for Joint Audio-Video Generation 🔥 9.0/10 | 前25% | #音视频 | #流匹配 | #扩散模型 #多模态模型 ...

2026-05-04 · 更新于 2026-06-12 · 2 min · 400 words

Instilling an Active Mind in Avatars via Cognitive Simulation

📄 Instilling an Active Mind in Avatars via Cognitive Simulation #音视频 #多模态模型 #扩散模型 #大语言模型 ✅ 7.0/10 | 前25% | #音视频 | #多模态模型 #扩散模型 | #多模态模型 #扩散模型 学术质量 6.0/7 | 选题价值 1.0/2 | 复现加成 0.0 | 置信度 中 👥 作者与机构 第一作者:Jianwen Jiang(字节跳动 ByteDance) 通讯作者:Jianwen Jiang(字节跳动 ByteDance,论文中标注为“Project Lead and Corresponding author”) 作者列表:Jianwen Jiang, Weihong Zeng, Zerong Zheng, Jiaqi Yang, Chao Liang, Wang Liao, Han Liang, Weifeng Chen, Xing Wang, Yuan Zhang, Mingyuan Gao(均隶属于字节跳动 ByteDance) 💡 毒舌点评 亮点:将认知科学的“双系统”概念巧妙映射到模型设计中,用MLLM进行高层“计划”来指导扩散模型的“生成”,这个框架思路新颖且具有启发性,伪最后帧的设计也有效解决了参考图像约束运动动态的问题。 短板:论文声称模拟了“System 2”的审慎推理,但该过程实则依赖外部MLLM的推理能力,其输出的“计划”质量取决于所用MLLM,且推理延迟(20-30秒)在实时或交互应用中是个显著负担。多模态融合的内部机制(尤其是音频、文本与视觉token如何在Transformer内“对称融合”)描述略显笼统。 ...

2026-05-04 · 更新于 2026-06-12 · 2 min · 285 words

JavisDiT: Joint Audio-Video Diffusion Transformer with Hierarchical Spatio-Temporal Prior Synchronization

📄 JavisDiT: Joint Audio-Video Diffusion Transformer with Hierarchical Spatio-Temporal Prior Synchronization #音视频 #扩散模型 #Transformer #基准测试 🔥 8.5/10 | 前25% | #音视频 | #扩散模型 #Transformer | #扩散模型 #Transformer 学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Kai Liu (浙江大学, 新加坡国立大学) (*共同第一作者) 通讯作者:Hao Fei (新加坡国立大学) 作者列表: Kai Liu (浙江大学,新加坡国立大学) (*共同第一作者) Wei Li (中国科学技术大学) (*共同第一作者) Lai Chen (浙江大学) Shengqiong Wu (新加坡国立大学) Yanhao Zheng (浙江大学) Jiayi Ji (新加坡国立大学) Fan Zhou (浙江大学) Jiebo Luo (罗切斯特大学) Ziwei Liu (南洋理工大学) Hao Fei (新加坡国立大学) (†通讯作者) Tat-Seng Chua (新加坡国立大学) 💡 毒舌点评 论文提出了一个架构设计完整、实验验证充分的端到端音视频生成模型,其“分层时空先验估计”的思路有效提升了生成内容的同步性,配套的JavisBench基准和JavisScore指标也直指现有评估的痛点。然而,该模型的计算开销庞大(生成4秒240P视频在H100上耗时30秒),且其在更复杂、更高分辨率或更长时长场景下的泛化能力仍待验证。 ...

2026-05-04 · 更新于 2026-06-12 · 2 min · 370 words

JavisDiT++: Unified Modeling and Optimization for Joint Audio-Video Generation

📄 JavisDiT++: Unified Modeling and Optimization for Joint Audio-Video Generation #音视频 #流匹配 #扩散模型 #多模态模型 #偏好优化 🔥 9.0/10 | 前25% | #音视频 | #流匹配 | #扩散模型 #多模态模型 学术质量 6.5/7 | 选题价值 1.8/2 | 复现加成 0.8 | 置信度 高 👥 作者与机构 第一作者:Kai Liu (浙江大学) 通讯作者:Hao Fei (新加坡国立大学) 作者列表: Kai Liu (浙江大学) Yanhao Zheng (未说明) Kai Wang (多伦多大学) Shengqiong Wu (新加坡国立大学) Rongjunchen Zhang (HiThink Research) Jiebo Luo (罗切斯特大学) Dimitrios Hatzinakos (多伦多大学) Ziwei Liu (南洋理工大学) Hao Fei (新加坡国立大学) Tat-Seng Chua (新加坡国立大学) 💡 毒舌点评 这篇论文的亮点在于提出了一个极其简洁有效的统一架构(MS-MoE)和精确的时间对齐策略(TA-RoPE),以相对较低的模型参数(2.1B)和数据量(~1M)达到了接近商业模型(Veo3)的SOTA性能。短板是其核心贡献高度依赖特定的视频生成骨干(Wan2.1),这虽然加速了研发,但也意味着其音视频联合生成的泛化能力与独立性有待进一步验证,且其对训练数据质量与分布的敏感性(见消融研究)暗示了在开放域场景下的潜在挑战。 ...

2026-05-04 · 更新于 2026-06-12 · 2 min · 327 words

Pay Attention to CTC: Fast and Robust Pseudo-Labelling for Unified Speech Recognition

📄 Pay Attention to CTC: Fast and Robust Pseudo-Labelling for Unified Speech Recognition #语音识别 #CTC #注意力机制 #半监督学习 #音视频 🔥 8.0/10 | 前10% | #语音识别 | #CTC #注意力机制 | #CTC #注意力机制 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Alexandros Haliassos(NatWest AI Research, Imperial College London) 通讯作者:未说明 作者列表:Alexandros Haliassos(NatWest AI Research, Imperial College London), Rodrigo Mira(NatWest AI Research), Stavros Petridis(NatWest AI Research, Imperial College London) 💡 毒舌点评 这篇论文通过巧妙地将CTC的快速鲁棒解码与Teacher Forcing结合,一举解决了原USR框架中自回归伪标签生成缓慢且易受分布偏移影响的痛点,同时通过混合采样策略平衡了训练与测试的差异,是典型的“工程智慧”推动方法进步的案例;但其核心贡献更偏向于训练策略的优化而非模型架构的根本性突破,且混合采样策略带来的增益在消融实验中并不总是显著。 ...

2026-05-04 · 更新于 2026-06-12 · 2 min · 324 words

Query-Guided Spatial–Temporal–Frequency Interaction for Music Audio–Visual Question Answering

📄 Query-Guided Spatial–Temporal–Frequency Interaction for Music Audio–Visual Question Answering #音频问答 #多模态模型 #音视频 #时频分析 🔥 8.0/10 | 前25% | #音频问答 | #多模态模型 | #音视频 #时频分析 学术质量 7.5/7 | 选题价值 1.0/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Kun Li(University of Twente;IT University of Copenhagen) 通讯作者:Sami Sebastian Brandt(IT University of Copenhagen) 作者列表:Kun Li(University of Twente, IT University of Copenhagen)、Michael Ying Yang(University of Bath)、Sami Sebastian Brandt(IT University of Copenhagen) 💡 毒舌点评 这篇论文的亮点在于它为音乐音视频问答(AVQA)设计了一个从问题引导到最终预测的端到端框架,并创新性地将音频的频率域特征作为一等公民纳入时空交互中,有效解决了视觉线索微弱时(如演奏者动作不明显)的识别难题,消融实验也扎实地证明了各模块的必要性。然而,其主要短板在于提出的框架相对复杂,引入了多个预训练编码器(CLIP, VGGish, AST),整体计算开销和模型复杂度可能限制其在资源受限场景的应用,且实验主要集中在音乐场景这一相对小众的benchmark上。 ...

2026-05-04 · 更新于 2026-06-12 · 2 min · 244 words