音视频 | 语音/音频论文速递

AC-Foley: Reference-Audio-Guided Video-to-Audio Synthesis with Acoustic Transfer

📄 AC-Foley: Reference-Audio-Guided Video-to-Audio Synthesis with Acoustic Transfer #音频生成 #流匹配 #多模态模型 #音视频 #零样本 ✅ 7.5/10 | 前25% | #音频生成 | #流匹配 | #多模态模型 #音视频学术质量 6.5/7 | 选题价值 2.0/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Pengjun Fang（The Hong Kong University of Science and Technology）通讯作者：Harry Yang（The Hong Kong University of Science and Technology，标注有邮箱B）作者列表：Pengjun Fang（香港科技大学）、Yingqing He（香港科技大学）、Yazhou Xing（香港科技大学）、Qifeng Chen（香港科技大学，标注有邮箱B）、Ser-Nam Lim（University of Central Florida，标注有邮箱B）、Harry Yang（香港科技大学，标注有邮箱B） 💡 毒舌点评亮点：巧妙地利用“参考音频”作为控制信号，绕过了文本描述的语义模糊和粒度不足问题，实现了真正细粒度（如不同狗叫）和创意性（如音色迁移）的音效生成，两阶段训练策略的设计也颇具巧思。短板：核心生成模型（多模态Transformer+Flow Matching）是已有框架的整合，原创性集中在“控制方式”和“训练技巧”上；论文坦诚的指出，在处理复杂多声源场景时仍显力不从心，这限制了其在真实世界复杂声景中的即刻应用。 🔗 开源详情代码：论文中未提及代码链接。模型权重：未提及。数据集：未提及公开专用数据集。所使用的VGGSound、AudioCaps、WavCaps均为已有公开数据集。 Demo：未提及。复现材料：提供了极其详细的训练细节（附录A）、网络架构细节（附录B）以及方法描述，为复现奠定了坚实基础。引用的开源项目：论文引用了多个开源工具或模型，包括：CLIP、Synchformer、BigVGAN（声码器）、ImageBind（用于数据筛选）、AdamW优化器、EMA技术等。开源计划：论文中未提及开源计划。 📌 核心摘要要解决什么问题：现有视频到音频（V2A）生成方法主要依赖文本提示，存在两大瓶颈：训练数据中的语义粒度模糊（如将不同的狗叫统称为“狗叫”）和文本难以描述微声学特征（如“金属碰撞声”无法区分锤击和链条声），导致无法进行精细的声音合成控制。方法核心是什么：提出AC-Foley，一个参考音频引导的V2A生成框架。它直接利用一段参考音频的声学特征（而非语义）作为条件，结合视频和文本信息，通过多模态Transformer和条件流匹配模型，生成与视频同步且具有目标音色特征的声音。与已有方法相比新在哪里：a) 控制维度升级：从文本/视频语义控制升级为直接的声学特征控制，实现细粒度合成和音色迁移。b) 训练策略创新：采用两阶段训练（重叠与非重叠条件学习），使模型既能从对齐样本中学习声学特征，又能泛化到非对齐的时序上下文中，避免简单复制。c) 零样本生成能力：通过参考音频条件，能生成训练集中未见过的声音类别（如带消音器的枪声）。主要实验结果如何：在VGGSound测试集上，AC-Foley在音频条件控制设置下，所有指标均优于基线（如MMAudio+CLAP）。例如，其FDPaSST为56.00（优于基线70.80），MCD为11.37（优于基线14.63）。在无音频条件的纯V2A任务中，AC-Foley（w/o audio）也达到或接近SOTA水平（FDPaSST 64.90）。在音色迁移任务（Greatest Hits数据集）上，即使未在此数据集训练，AC-Foley的MCD（3.39）也显著优于CondFoley（4.18）。人工评估显示，在声学保真度上，83.5%的参与者认为AC-Foley生成的音频更接近真实音频。实际意义是什么：为影视、游戏、动画等内容创作者提供了强大的音效设计工具，能够根据示例音频快速生成、修改或替换音轨中的声音元素，极大提升了创作灵活性和效率。主要局限性是什么：当输入视频和参考音频包含多个重叠声源（如对话、环境声、动作声混合）时，模型难以将特定声音元素与对应的视觉事件精确对齐。参考音频与视频内容节奏差异过大时，生成质量会下降。 🏗️ 模型架构整体架构是一个基于条件流匹配（Conditional Flow Matching）的多模态Transformer模型，旨在生成与视频同步、受参考音频和文本条件控制的梅尔谱图，最终通过声码器转换为波形。 ...

AlignSep: Temporally-Aligned Video-Queried Sound Separation with Flow Matching

📄 AlignSep: Temporally-Aligned Video-Queried Sound Separation with Flow Matching #语音分离 #流匹配 #音视频 #基准测试 #生成模型 🔥 8.0/10 | 前25% | #语音分离 | #流匹配 | #音视频 #基准测试学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：未说明（论文注明 Xize Cheng, Chenyuhao Wen, Tianhao Wang 为平等贡献）通讯作者：未说明作者列表：Xize Cheng（浙江大学），Chenyuhao Wen（浙江大学），Tianhao Wang（独立作者），Yongqi Wang（浙江大学），Zehan Wang（浙江大学），Rongjie Huang（浙江大学），Tao Jin（浙江大学），Zhou Zhao（浙江大学） 💡 毒舌点评本文最大的亮点在于将流匹配生成范式成功引入视频查询声音分离任务，并系统性地分析了该任务作为“多条件生成”与传统流匹配任务的本质区别，这种对任务特性的深刻洞察比单纯提升几个点更有价值。然而，其构建的VGGSound-Hard新基准仅包含118个测试对，虽然难度高但规模偏小，其对结论的普适性支撑稍显不足；此外，作为生成模型，其推理速度（2.17 FPS）距实时处理仍有差距，论文中未探讨如何在效率上做进一步优化。 🔗 开源详情代码：论文明确承诺在接收后公开代码仓库，但未提供具体链接（论文中未提及代码链接）。模型权重：论文明确承诺在接收后公开预训练模型权重（未提及具体链接）。数据集：VGGSound-Hard作为新提出的基准，论文未说明其具体下载方式，但提及由VGGSound测试集筛选而来。VGGSound-Hard的筛选脚本可能会随代码公开。 Demo：论文提供了项目主页链接 https://AlignSep.github.io ，其中包含更多结果和音频示例，可视为一种在线演示。复现材料：附录A提供了非常详细的实现细节，包括音频VAE（表4）和向量场估计器（表5）的架构超参数、数据预处理方式、推理步数选择等关键信息。引用的开源项目：论文依赖并引用了多个开源项目：CAVP视觉编码器 (Luo et al., 2023), 音频VAE (Liu et al., 2023a), BigVGAN声码器 (Lee et al., 2022), ImageBind (Han et al., 2023) 等。 📌 核心摘要本文旨在解决视频查询声音分离（VQSS）任务中现有方法面临的两大挑战：1) 在声源同质（如多只同类狗叫）的干扰下，因缺乏精细时序建模而无法区分屏幕内外声音；2) 基于掩码的判别式方法在处理重叠声轨时易产生频谱空洞和不完整分离。方法核心是提出AlignSep，这是首个基于条件流匹配的生成式VQSS模型。与已有方法不同，AlignSep通过设计一个时序对齐的向量场估计器（采用跨模态特征拼接和无交叉注意力的Transformer），并配合预训练的CAVP视觉时序编码器，显式地学习和维护音视频之间的时序对应关系，从而在生成过程中实现精确对齐。与已有方法相比，新在两点：1) 范式上，采用生成式流程替代判别式掩码预测，能更好地处理重叠信号并避免频谱空洞；2) 建模上，明确引入并强化了时序对齐机制，而非仅依赖语义特征。此外，论文深入分析了VQSS作为多条件生成任务对标准流匹配范式提出的新挑战。主要实验结果显示，AlignSep在三个基准上均达到最优性能。在MUSIC-Clean和VGGSound-Clean上，其时序对齐准确率（TA-V）分别达到66.67%和96.88%，大幅超越最强基线OmniSep（分别为68.89%和81.25%）。在专门为测试时序对齐能力构建的更具挑战性的VGGSound-Hard基准上，AlignSep的TA-V达到95.76%，而OmniSep仅为76.27%。人类感知评估（MOS）也证实了AlignSep在噪声残留、音视频一致性、音频质量和整体评分上的优势。实际意义在于，AlignSep为解决真实复杂视听场景下的声音分离问题提供了新的、更鲁棒的框架，有助于提升视频编辑、内容理解等应用的体验。主要局限性包括：1) 新提出的VGGSound-Hard基准规模较小（仅118对）；2) 作为生成模型，推理效率有提升空间；3) 论文未深入探讨该生成范式在更复杂、多源场景下的扩展能力。 ...

AVoCaDO: An Audiovisual Video Captioner Driven by Temporal Orchestration

📄 AVoCaDO: An Audiovisual Video Captioner Driven by Temporal Orchestration #音视频 #多模态模型 #强化学习 #视频描述生成 #大语言模型 🔥 8.0/10 | 前25% | #音视频 | #强化学习 | #多模态模型 #视频描述生成学术质量 7.0/7 | 选题价值 1.0/2 | 复现加成 0.0 | 置信度高 👥 作者与机构第一作者：Xinlong Chen（快手科技 Kling 团队 / 中科院自动化所模式识别国家重点实验室 / 中国科学院大学人工智能学院）通讯作者：Qiang Liu（中科院自动化所模式识别国家重点实验室 / 中国科学院大学人工智能学院）作者列表：Xinlong Chen（快手科技 Kling 团队, 中科院自动化所模式识别国家重点实验室, 中国科学院大学人工智能学院），Yue Ding（中科院自动化所模式识别国家重点实验室, 中国科学院大学人工智能学院），Weihong Lin（快手科技 Kling 团队），Jingyun Hua（快手科技 Kling 团队），Linli Yao（北京大学），Yang Shi（北京大学），Bozhou Li（北京大学），Qiang Liu（中科院自动化所模式识别国家重点实验室, 中国科学院大学人工智能学院），Yuanxing Zhang（快手科技 Kling 团队），Pengfei Wan（快手科技 Kling 团队），Liang Wang（中科院自动化所模式识别国家重点实验室, 中国科学院大学人工智能学院） 💡 毒舌点评这篇论文在“让视频描述听懂声音”这个点上做得扎实且系统，通过设计一套精巧的奖励函数（特别是对话F1和清单完整性）驱动GRPO训练，有效提升了音视频描述的时序对齐与事实准确性，消融实验也证明了各奖励模块的价值。其短板在于数据构建流程重度依赖Gemini-2.5-Pro，这既带来了高质量种子数据，也引入了对特定闭源模型的依赖和潜在偏差，且论文对如何将模型部署到实际场景中的效率考量（如推理延迟）着墨不多。 ...

Efficient Audio-Visual Speech Separation with Discrete Lip Semantics and Multi-Scale Global-Local Attention

📄 Efficient Audio-Visual Speech Separation with Discrete Lip Semantics and Multi-Scale Global-Local Attention #语音分离 #知识蒸馏 #端到端 #音视频 #实时处理 🔥 9.0/10 | 前10% | #语音分离 | #知识蒸馏 | #端到端 #音视频学术质量 6.5/7 | 选题价值 1.8/2 | 复现加成 0.8 | 置信度高 👥 作者与机构第一作者：Kai Li（清华大学计算机科学与技术系、清华大学IDG/McGovern脑科学研究院）通讯作者：Xiaolin Hu（清华大学计算机科学与技术系、清华大学IDG/McGovern脑科学研究院、北京脑科学与类脑研究中心）作者列表：Kai Li（清华大学计算机科学与技术系、清华大学IDG/McGovern脑科学研究院）、Kejun Gao（清华大学计算机科学与技术系）、Xiaolin Hu（清华大学计算机科学与技术系、清华大学IDG/McGovern脑科学研究院、北京脑科学与类脑研究中心）注：Kai Li和Kejun Gao贡献均等（*标记），Xiaolin Hu为通讯作者（†标记）。 💡 毒舌点评 Dolphin的双路径视觉编码器设计和基于热扩散方程的局部注意力模块非常聪明，用极低的计算开销（MACs降低2.4倍）实现了SOTA分离性能，为AVSS的实际部署扫清了关键障碍。但其离散视觉token的设计可能丢弃了连续唇部运动中的一些细微发音线索，未来或可探索混合离散-连续表示来进一步提升。 🔗 开源详情代码：论文中承诺在GitHub上开源代码（Apache-2.0许可证），并提供了一个Demo页面链接（https://cslikai.cn/Dolphin），但未在文中直接给出具体代码仓库URL。因此，具体链接需以论文被接收后的发布为准。模型权重：论文中提到会公开预训练权重（“pretrained weights for the video backbone”），但未提供具体下载链接。数据集：使用的LRS2, LRS3, VoxCeleb2为公开数据集，但需根据其出版方规定获取。论文承诺会提供预处理脚本。 Demo：提供了一个在线演示页面链接：https://cslikai.cn/Dolphin。复现材料：提供了极其详细的复现信息，包括：conda环境规范、完整配置文件、所有超参数（附录E）、评估指标和损失函数的正式定义（附录D）、模型各组件的详细结构（附录A, B）、训练细节（附录A.3）。引用的开源项目：论文中提到了依赖的开源工具/模型，包括：PyTorch, PyTorch Lightning, VQ实现（vector-quantize-pytorch on PyPI）, AV-HuBERT（作为蒸馏教师模型）。总体：开源意愿强烈，复现支持非常充分，是高质量开源论文的典范。论文中未提及具体的GitHub仓库链接，但根据“我们的代码和演示页面公开可访问于此链接”的表述及Demo链接，可认为代码已或即将公开。 📌 核心摘要本文旨在解决音频-视觉语音分离（AVSS）模型计算成本过高、难以实际部署的问题。论文提出了一个名为Dolphin的高效AVSS模型。其核心创新包括：1) 设计了一个轻量级双路径视频编码器DP-LipCoder，通过向量量化（VQ）和知识蒸馏将唇部运动映射为与音频对齐的离散语义token；2) 构建了一个基于TDANet的轻量级编解码分离器，并引入全局-局部注意力（GLA）模块，在每个层内同时建模长程依赖和局部特征，从而实现单次迭代的高质量分离。与现有的SOTA方法（如IIANet）相比，Dolphin在三个基准数据集（LRS2, LRS3, VoxCeleb2）上取得了更好的分离性能（例如，在LRS2上SI-SNRi达到16.8dB，比IIANet高0.8dB），同时参数量减少超过50%，计算量（MACs）降低超过2.4倍，GPU推理速度提升超过6倍。这证明了Dolphin是一个兼顾高性能与高效率的实用解决方案。主要局限性在于模型对相对干净、同步的唇部视频有一定依赖，且在极端资源受限设备上的部署仍需进一步优化。 ...

Instilling an Active Mind in Avatars via Cognitive Simulation

📄 Instilling an Active Mind in Avatars via Cognitive Simulation #数字人生成 #扩散模型 #多模态模型 #音视频 #大语言模型 🔥 8.0/10 | 前25% | #数字人生成 | #扩散模型 | #多模态模型 #音视频学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Jianwen Jiang（字节跳动）通讯作者：Jianwen Jiang（字节跳动）作者列表：Jianwen Jiang（字节跳动）、Weihong Zeng（字节跳动）、Zerong Zheng（字节跳动）、Jiaqi Yang（字节跳动）、Chao Liang（字节跳动）、Wang Liao（字节跳动）、Han Liang（字节跳动）、Weifeng Chen（字节跳动）、Xing Wang（字节跳动）、Yuan Zhang（字节跳动）、Mingyuan Gao（字节跳动） 💡 毒舌点评亮点：首次系统地将认知科学的“双系统理论”引入数字人生成框架，通过LLM模拟“慢思考”来规划语义动作，显著提升了生成动画的上下文一致性和表现力，思路新颖且实验验证充分。短板：框架依赖一个可能产生20-30秒延迟的LLM推理模块，且生成模型本身基于现有MMDiT架构改进，核心创新更偏向系统级整合而非底层模型架构突破；此外，所有实验在闭源环境下进行，代码和模型的缺失严重影响了结果的可独立验证性。 🔗 开源详情代码：论文中未提及代码链接。模型权重：未提及公开权重。数据集：论文中详细描述了数据筛选流程，但未提及是否公开数据集。 Demo：未提供在线演示链接。复现材料：论文附录中提供了详细的实现细节（超参数、训练阶段）、数据筛选工具、评估指标和MLLM使用的提示词模板，复现材料在文本层面较为充分。引用的开源项目：依赖Whisper（音频特征提取）、SyncNet（数据筛选）、RAFT（光流计算）、Q-align（质量评估）、PySceneDetect和PaddleOCR（视频预处理）。 📌 核心摘要问题：当前数字人视频生成模型虽然能生成流畅动画，但主要基于低层音频线索（如口型）进行反应式同步，缺乏对高层语义（如情感、意图、语境）的理解，导致生成的动作缺乏逻辑一致性和丰富性。方法核心：提出一个模拟人类“双系统”认知的框架。系统2：利用多模态大语言模型（MLLM）对输入（图像、音频、文本）进行推理，生成结构化的高层动作计划（推理文本）。系统1：设计一个专门的多模态扩散变换器（MMDiT），其核心是伪最后帧（PLF）策略和对称的音频分支融合，以鲁棒地整合MLLM生成的文本指导与音频等反应式信号，同时避免模态冲突。创新点：a) 首个将数字人问题置于认知科学双系统理论下建模的工作；b) 使用MLLM进行显式的语义规划；c) 提出伪最后帧（PLF）策略，通过时序外推能力维持身份一致性，避免了传统参考图条件带来的运动伪影；d) 设计了多模态预热训练策略以优化多分支融合。实验结果：在多项指标上达到SOTA。在CelebV-HQ肖像任务上，FID（31.320）和FVD（45.771）优于或接近OmniHuman-1；在CyberHost全身任务上，HKV（72.113）显著高于OmniHuman-1（47.561），表明手势动态性更强。用户研究（40人）显示，在整体质量、上下文自然度上显著优于多个学术和商业基线。消融研究证明，去除系统2推理会降低动作丰富度（HKV从168.9降至122.4），而PLF和多模态预热对图像质量、运动和身份一致性至关重要。实际意义：为创建具有“主动心智”、能根据语境进行逻辑反应的智能数字人提供了新范式，有望应用于虚拟伴侣、交互式娱乐、影视制作等领域。主要局限性：a) 引入LLM推理带来约20-30秒的额外延迟；b) 框架的有效性部分依赖所选用的特定MLLM；c) 当前评估主要在单人或简单多人场景，复杂交互场景的鲁棒性有待进一步验证；d) 模型和代码未开源。 🏗️ 模型架构整体框架模拟“双系统”认知，流程如图2所示。系统2（审慎控制）：由MLLM智能体驱动，包含分析器和规划器两个阶段。输入角色的参考图像、音频片段和可选文本提示。分析器通过逐步引导式提问，推断语音内容、情感状态和意图，并输出结构化的JSON总结。规划器基于此总结，制定一个详细、连贯的动作计划（作为“时间表”），以推理文本形式输出。该模块为下游生成提供高层语义指导。系统1（反应渲染）：基于多模态扩散变换器（MMDiT）骨干网络，用于最终视频合成。其关键设计包括： ...

InterActHuman: Multi-Concept Human Animation with Layout-Aligned Audio Conditions

📄 InterActHuman: Multi-Concept Human Animation with Layout-Aligned Audio Conditions #视频生成 #扩散模型 #音视频 #多模态模型 #流匹配 🔥 9.0/10 | 前25% | #视频生成 | #扩散模型 | #音视频 #多模态模型学术质量 6.5/7 | 选题价值 1.8/2 | 复现加成 0.8 | 置信度高 👥 作者与机构第一作者：Zhenzhi Wang（香港中文大学，与Jiaqi Yang、Jianwen Jiang贡献相等，按署名顺序列为第一）通讯作者：Jianwen Jiang（字节跳动）作者列表：Zhenzhi Wang（香港中文大学）、Jiaqi Yang（字节跳动）、Jianwen Jiang（字节跳动）、Chao Liang（字节跳动）、Gaojie Lin（字节跳动）、Zerong Zheng（字节跳动）、Ceyuan Yang（字节跳动）、Yuan Zhang（字节跳动）、Mingyuan Gao（字节跳动）、Dahua Lin（香港中文大学） 💡 毒舌点评亮点在于它优雅地解决了多人动画中“条件应该给谁”这个棘手问题，通过一个轻量级的掩码预测器在扩散去噪过程中动态地为每个身份划分“领地”，并据此注入音频，设计精巧且实用。短板是尽管方法强大，但其核心依赖高质量的参考图像和清晰的身份边界，对于重叠严重、遮挡复杂或风格高度抽象的场景，其掩码预测器的鲁棒性和最终生成质量可能面临挑战，论文对此讨论有限。 🔗 开源详情代码：提供了代码仓库链接（基于Wan2.1重新实现），并包含了数据处理和模型推理的伪代码。模型权重：提到了公开的预训练模型权重。数据集：论文中提及的数据集“OpenHumanVid”及其处理管线代码已开源，但完整的训练数据集本身未提及公开下载方式。 Demo：论文提供了视频演示链接：https://zhenzhiwang.github.io/interacthuman/ 复现材料：提供了详细的训练细节（硬件、批大小、学习率）、模型架构说明、消融实验设置以及完整的算法伪代码，复现信息非常充分。引用的开源项目：基础模型Wan2.1；wav2vec 2.0；Qwen2.5-VL / Qwen2-VL；Grounding-SAM2；Florence-2；PySceneDetect；PaddleOCR；Q-align；RAFT；RTMpose；SyncNet；PyTorch FSDP。 📌 核心摘要问题：现有音频驱动或图像定制的视频生成方法大多基于单一主体假设，将条件信息全局注入，无法处理多人对话、人与物体交互等需要为不同身份独立控制外观和声音的多概念复杂场景。方法核心：提出了InterActHuman框架。核心是在预训练的DiT视频生成模型中集成一个轻量级的掩码预测器，该预测器通过交叉注意力机制，从噪声视频特征和参考图像特征中显式预测每个参考身份在视频帧中的时空布局（掩码）。在推理时，采用迭代缓存策略：用前一去噪步骤预测的掩码作为先验，指导当前步骤的局部音频条件注入，将每个身份对应的音频特征仅注入到其掩码区域内。创新点：与依赖隐式特征融合的现有方法不同，本工作首次为多概念人类动画引入了显式、布局对齐的局部条件注入范式。这打破了单一实体假设，实现了对多个身份外观和声音的精确、独立控制。主要实验结果：在多人音频驱动视频生成任务上，本文方法在唇形同步精度（Sync-D↓：6.670 vs OmniHuman的9.482）、视频整体质量（FVD↓：22.881 vs 33.895）和运动多样性（HKV↑：59.635）等关键指标上显著优于所有基线。在多概念定制任务上，也在概念保真度（CLIP-I↑：0.744）和视频质量（IQA↑：4.903）上达到最优。用户研究也显示其在唇形同步和主体一致性方面最受青睐。方法 Sync-D↓ FVD↓ IQA↑ AES↑ OmniHuman (全局音频) 9.482 33.895 4.768 3.466 OmniHuman (固定掩码) 7.068 40.239 4.690 3.369 Ours (预测掩码) 6.670 22.881 4.757 3.467 实际意义：为多模态、多概念的人类动画生成建立了有效基线，可直接应用于多人视频对话、虚拟角色互动、基于多张图片的视频定制等场景。主要局限性：训练数据主要集中于2-3人的场景，可能限制其向更多人（>3）场景的泛化能力；生成能力受限于人类中心领域，对复杂多样的文本提示遵循能力弱于通用视频生成模型。 🏗️ 模型架构模型整体是一个基于MMDiT（Multi-Modal Diffusion Transformer）的视频生成框架，其核心创新在于加入了掩码预测与局部条件注入机制。 ...

JointAVBench: A Benchmark for Joint Audio-Visual Reasoning Evaluation

📄 JointAVBench: A Benchmark for Joint Audio-Visual Reasoning Evaluation #基准测试 #多模态模型 #音视频 #模型评估 ✅ 7.5/10 | 前25% | #基准测试 | #多模态模型 | #音视频 #模型评估学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Jianghan Chao (中国人民大学高瓴人工智能学院) 通讯作者：Ruihua Song (中国人民大学高瓴人工智能学院) 作者列表：Jianghan Chao (中国人民大学高瓴人工智能学院)、Jianzhang Gao (未说明，仅提供邮箱)、Wenhui Tan (未说明，仅提供邮箱)、Yuchong Sun (未说明，仅提供邮箱)、Ruihua Song (中国人民大学高瓴人工智能学院)、Liyun Ru (百川智能) 💡 毒舌点评这篇论文像一个精心设计的“多模态AI体能测试仪”，它系统化地定义了音视频联合推理的“考试范围”（5认知维度、4音频类型、3场景跨度）和“出题规则”（严格关联、半自动生成），并逼出了当前最强模型的“真实分数”（最高仅62.6%）。其最大亮点是提供了首个结构严谨、维度全面的评估体系，直指当前全模态模型“感知割裂、融合不深”的痛点。短板则在于，这个“测试仪”本身只生产考卷，不制造“应试技巧”——论文对模型失败原因的分析相对宏观，未能深入模型内部机制，且数据来源单一，可能让这个“考场”代表性打了折扣。 🔗 开源详情代码：论文提供了项目主页链接 (https://jointavbench.github.io)，但论文中未提及是否有公开的数据生成或评估代码仓库。模型权重：未提及。本论文为评测工作，未提出新模型。数据集：已公开。JointAVBench数据集在项目主页提供，采用CC BY-NC-SA 4.0许可证。 Demo：未提及。复现材料：论文附录提供了非常详尽的生成流水线提示词模板（图10-图16），以及实验设置细节（如模型参数、帧采样、API设置），为复现其评测流程提供了充分信息。论文中引用的开源项目：PySceneDetect（用于场景分割），Whisper-v3（用于语音转录），以及大量被评测的开源模型（如Qwen系列、VideoLLaMA系列、SALMONN系列等）。 📌 核心摘要问题：现有基准在评估全模态大语言模型（Omni-LLMs）的音视频联合推理能力时，存在音频-视频关联不严格、音频类型覆盖不全、缺乏对多场景推理能力评估等关键缺陷，无法全面、严格地评估模型的真实联合理解水平。 ...

OmniVideoBench: Towards Audio-Visual Understanding Evaluation for Omni MLLMs

📄 OmniVideoBench: Towards Audio-Visual Understanding Evaluation for Omni MLLMs #基准测试 #模型评估 #多模态模型 #音频问答 #音视频 ✅ 7.8/10 | 前25% | #基准测试 | #模型评估 | #多模态模型 #音频问答学术质量 6.3/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度高 👥 作者与机构第一作者：Caorui Li (南京大学, 东南大学) 通讯作者：Jiaheng Liu (南京大学) 作者列表：Caorui Li (南京大学, 东南大学), Yu Chen (南京大学, 东南大学), Yiyan Ji (南京大学), Jin Xu (阿里巴巴集团), Zhenyu Cui (东南大学), Shihao Li (南京大学), Yuanxing Zhang (快手科技), Zhenghao Song (M-A-P), Dingling Zhang (南京大学), Ying He (北京科技大学), Haoxiang Liu (北京科技大学), Yuxuan Wang (阿里巴巴集团), Qiufeng Wang (东南大学), Jiafu Tang (南京大学), Zhenhe Wu (M-A-P), Jiehui Luo (中央音乐学院), Zhiyu Pan (南京大学), Weihao Xie (华中科技大学), Chenchen Zhang (M-A-P), Zhaohui Wang (南京大学), Jiayi Tian (阿里巴巴集团), Yanghai Wang (南京大学), Zhe Cao (南京大学), Minxin Dai (南京大学), Ke Wang (M-A-P), Runzhe Wen (南京大学), Yinghao Ma (伦敦玛丽女王大学), Yaning Pan (复旦大学), Sungkyun Chang (伦敦玛丽女王大学), Termeh Taheri (伦敦玛丽女王大学), Haiwen Xia (北京大学), Christos Plachouras (伦敦玛丽女王大学), Emmanouil Benetos (伦敦玛丽女王大学), Yizhi Li (曼彻斯特大学), Ge Zhang (M-A-P), Jian Yang (M-A-P), Tianhao Peng (M-A-P), Zili Wang (M-A-P), Minghao Liu (2077AI), Junran Peng (北京科技大学), Zhaoxiang Zhang (中国科学院), Jiaheng Liu (南京大学)。 💡 毒舌点评这篇论文的亮点在于其极其严谨和“反作弊”的基准设计理念（如强调音视频必须协同、设计原子推理链、多阶段质量过滤），为评估“真·多模态推理”设立了高标准。然而，短板在于其本质是一个“裁判”而非“运动员”——它精准地指出了当前模型的短板（音乐理解差、长视频融合弱），但并未提出任何解决这些问题的新模型或新方法，创新性停留在了评估体系的设计层面。 ...

OmniVinci: Enhancing Architecture and Data for Omni-Modal Understanding LLM

📄 OmniVinci: Enhancing Architecture and Data for Omni-Modal Understanding LLM #多模态模型 #音视频 #大语言模型 #对比学习 #音频问答 🔥 8.0/10 | 前25% | #音频问答 | #多模态模型 | #音视频 #大语言模型学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度中 👥 作者与机构第一作者：Hanrong Ye（NVIDIA）通讯作者：Hongxu Yin (§†∗)， Pavlo Molchanov (§) （§ Equal Advisory, † Corresponding Authors，均在NVIDIA）作者列表：Hanrong Ye（NVIDIA）， Chao-Han Huck Yang（NVIDIA）， Arushi Goel（NVIDIA）， Wei Huang（NVIDIA）， Ligeng Zhu（NVIDIA）， Yuanhang Su（NVIDIA）， Sean Lin（NVIDIA）， An-Chieh Cheng（NVIDIA）， Zhen Wan（NVIDIA）， Jinchuan Tian（NVIDIA）， Yuming Lou（NVIDIA）， Dong Yang（NVIDIA）， Zhijian Liu（NVIDIA）， Yukang Chen（NVIDIA）， Ambrish Dantrey（NVIDIA）， Ehsan Jahangiri（NVIDIA）， Sreyan Ghosh（NVIDIA）， Daguang Xu（NVIDIA）， Ehsan Hosseini-Asl（NVIDIA）， Danial Mohseni Taheri（NVIDIA）， Vidya Murali（NVIDIA）， Sifei Liu（NVIDIA）， Yao Lu（NVIDIA）， Oluwatobi Olabiyi（NVIDIA）， Yu-Chiang Frank Wang（未说明）， Rafael Valle（NVIDIA）， Bryan Catanzaro（NVIDIA）， Andrew Tao（NVIDIA）， Song Han（NVIDIA）， Jan Kautz（NVIDIA）， Hongxu Yin§†∗（NVIDIA）， Pavlo Molchanov§（NVIDIA）。所有作者均隶属于NVIDIA。 💡 毒舌点评这篇论文的亮点在于其对“全模态对齐”问题的系统性工程化拆解：提出的三个模块（OmniAlignNet, TEG, CRTE）在消融实验中表现出清晰的递进效果，且“隐式+显式”数据合成策略为解决稀缺全模态数据提供了一个可复用的思路。短板则在于，作为一篇声称“开源”的旗舰工作，其论文中对模型具体参数、训练超参数（如学习率、优化器设置）、以及核心代码仓库的链接均未明确给出，极大地影响了其声称的可复现性承诺。 ...

Pay Attention to CTC: Fast and Robust Pseudo-Labelling for Unified Speech Recognition

📄 Pay Attention to CTC: Fast and Robust Pseudo-Labelling for Unified Speech Recognition #语音识别 #音视频 #自回归模型 #低资源 #预训练 🔥 8.5/10 | 前25% | #语音识别 | #自回归模型 | #音视频 #低资源学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.8 | 置信度高 👥 作者与机构第一作者：Alexandros Haliassos（NatWest AI Research & Imperial College London）通讯作者：未明确说明作者列表：Alexandros Haliassos（NatWest AI Research & Imperial College London），Rodrigo Mira（NatWest AI Research），Stavros Petridis（NatWest AI Research & Imperial College London） 💡 毒舌点评这篇论文把CTC这个“老实人”的稳健和注意力“艺术家”的表达力在伪标签阶段强行撮合，用“老师傅带路”的方式训练学生，既省了计算又抗了噪，想法相当机灵。但可惜的是，这种“撮合”在分布外场景下也暴露了局限性，当CTC预测本身出错时，错误的传导依然存在，且论文对更极端的分布偏移（如完全不同的语言或方言）验证不足。 ...