音视频 | 语音/音乐/音频论文速递

WavFlow: Audio Generation in Waveform Space

📄 WavFlow: Audio Generation in Waveform Space #音频生成 #流匹配 #音视频 #音频大模型 #数据集 ✅ 6.7/10 | 前25% | #音频生成 | #流匹配 | #音视频 #音频大模型 | arxiv 学术质量 5.7/8 | 影响力 0.5/1 | 可复现性 0.5/1 | 置信度高 👥 作者与机构第一作者：Feiyan Zhou (Meta AI) 通讯作者：未明确说明（论文中仅标注*为Corresponding author，但未明确指出是哪位作者）作者列表：Feiyan Zhou (Meta AI), Luyuan Wang (Meta AI), Shoufa Chen (Meta AI), Zhe Wang (Meta AI), Zhiheng Liu (Meta AI), Yuren Cong (Northeastern University), Xiaohui Zhang (Northeastern University), Fanny Yang (Northeastern University), Belinda Zeng (Northeastern University)。论文中明确标注Northeastern University为合作机构。 💡 毒舌点评这篇论文勇敢地挑战了音频生成领域的“潜空间教条”，证明了在原始波形空间生成高质量音频是可行的，其技术路线（波形分块+幅度提升+xx预测）简洁有效，结果也颇具说服力。然而，其最大的“资产”——号称5000万样本的专有数据集——恰恰是最大的复现壁垒，使得论文的核心结论更像是一次强大的工业展示而非可广泛复现的学术研究。此外，论文声称与SOTA“匹配或超越”，但在关键的数据规模前提下，这一结论的公平性和说服力需要打上问号。 ...

Sound Sparks Motion: Audio and Text Tuning for Video Editing

📄 Sound Sparks Motion: Audio and Text Tuning for Video Editing #视频编辑 #测试时调优 #音视频 #多模态模型 📝 5.5/10 | 前25% | #视频编辑 | #测试时调优 | #音视频 #多模态模型 | arxiv 学术质量 4.7/8 | 影响力 0.6/1 | 可复现性 0.2/1 | 置信度中 👥 作者与机构第一作者：AmirHossein Naghi Razlighi (论文中未明确说明所属机构) 通讯作者：论文中未明确说明作者列表：AmirHossein Naghi Razlighi (未说明)、Aryan Mikaeili (未说明)、Ali Mahdavi-Amiri (未说明)、Daniel Cohen-Or (未说明)、Yiorgos Chrysanthou (未说明) 💡 毒舌点评亮点：论文精准定位了视频生成模型在“运动编辑”上的普遍短板，并提出了一个动机清晰、框架轻量（免训练）的测试时调优解决方案。其核心洞察在于联合利用音频和文本条件作为控制轴，这一多模态视角颇具启发性。短板：方法严重依赖一个未公开的、特定的“音频-视觉视频生成模型”，其通用性存疑；核心监督信号来自一个黑盒VLM，引入了不可控的评估偏差；且当前摘要中完全缺乏定量实验对比，使得任何关于“有效性”或“优越性”的结论都悬而未决，说服力严重不足。 📌 核心摘要问题：现有大型视频生成模型在“运动编辑”方面表现不佳。它们能很好地响应外观变化，但难以根据文本提示在已有视频中产生特定、局部的动作或状态转换。核心方法：提出“Sound Sparks Motion”，一个免训练的测试时调优框架。它通过对一个音频-视觉视频生成模型内部的多模态条件信号进行微调来实现运动编辑。具体是调优两个轻量变量：一个从源视频派生的音频潜在表示，以及文本条件的一个残差扰动。新颖之处：与修改模型权重的微调或仅依赖文本提示的方法不同，该方法通过联合调优音频和文本条件信号（特别是音频通路），挖掘模型中潜在的、难以通过纯文本控制的运动控制能力。实验结果：论文摘要未提供任何定量实验结果数值。关键结论基于定性观察和消融分析：单独调优音频或文本效果不佳，组合是必要的；学习到的调优变量具有跨视频迁移的潜力。实际意义：为视频内容创作者提供了一种新的、基于音频线索的细粒度运动编辑工具。更重要的是，提出了一种通过测试时调优来“探针”和释放预训练多模态模型隐藏能力的范式。主要局限：方法效果受限于底层音频-视觉生成模型的质量和多模态条件结构。评估依赖于另一个预训练的VLM，其准确性无法保证。计算成本（每个视频需要调优）和泛化到其他视频编辑任务的能力有待验证。 🔗 开源详情代码：论文摘要提及代码可通过项目页面获取，但未给出具体链接。模型权重：论文中未提及。数据集：论文中未提及。 Demo：论文中未提及。复现材料：论文摘要提及代码和数据可通过项目主页获取：https://amirhossein-razlighi.github.io/Sound_Sparks_Motion/ 论文中引用的开源项目：未提及。 🏗️ 方法概述和架构整体流程概述：这是一个免训练的测试时调优（Test-Time Tuning）框架。输入是需要编辑的源视频、描述期望运动的文本提示，以及一个预训练的音频-视觉视频生成模型。核心处理过程是通过一个基于VLM反馈的优化环路，对模型的音频条件和文本条件进行轻微调整。输出是运动被编辑后的视频。 ...

Keep What Audio Cannot Say: Context-Preserving Token Pruning for Omni-LLMs

📄 Keep What Audio Cannot Say: Context-Preserving Token Pruning for Omni-LLMs #音视频 #高效推理 #多模态模型 #跨模态 ✅ 7.0/10 | 前25% | #音视频 | #高效推理 | #多模态模型 #跨模态 | arxiv 学术质量 6.5/8 | 影响力 0.5/2 | 可复现性 0.5/1 | 置信度高 👥 作者与机构第一作者：Chaeyoung Jung（Korea Advanced Institute of Science and Technology (KAIST)）通讯作者：未明确说明（论文中列出的通讯作者地址为“Equal contribution”，与第一作者相同）作者列表：Chaeyoung Jung（KAIST）、Kyeongha Rho（KAIST）、Joon Son Chung（KAIST） 💡 毒舌点评这篇论文的“移除音频已知，保留音频未知”的剪枝思想确实新颖且直观，实验结果也非常亮眼，尤其是在Qwen2.5-Omni 7B上能以55%的压缩率保持甚至超越全token性能。但尴尬的是，方法最核心的“保留空间细节”分支（图2中标注2⃝）依赖于一个固定的全局空间保留比例ρspa，这在处理如球员球衣号码、面部表情等高度局部化、信息量集中的细节时显得非常脆弱，论文的失败案例也明确证实了这一点。一个自适应的、可能依赖内容或查询的空间预算分配机制，才是该方法从“有效”迈向“鲁棒”的关键下一步。此外，将所有实验仅限于短视频片段，其结论在长视频场景下的普适性存疑。 📌 核心摘要要解决什么问题：全模态大语言模型（Omni-LLMs）在处理音视频输入时，会产生大量token，导致计算开销巨大，阻碍了实际部署。现有的token剪枝方法要么针对特定任务训练，要么过度依赖音频-视觉的强对齐信号，可能丢弃理解宽泛上下文所需的证据。方法核心是什么：论文提出了一个名为ContextGuard的推理时token剪枝框架。其核心思想是将token压缩从“选择重要token”重新定义为“移除跨模态冗余，同时保留音频无法表达的视觉上下文”。具体实现包含三个主要步骤：a) 音频引导的语义剪枝：使用一个轻量级的音频到视觉语义预测器（A2V Predictor）从音频预测粗糙视觉语义，移除与预测语义高度相似（即可被音频解释）的视频token；b) 空间细节保留：通过网格采样和局部空间变化度量，额外保留一部分token以覆盖图像空间，保存颜色、姿态等音频无法指定的局部细节；c) 基于深度分数的时间合并：对时间上相似的chunk进行分段和合并，进一步压缩冗余帧。与已有方法相比新在哪里：与现有训练基础的（如EchoingPixels, OmniSIFT）或基于对齐的（如OmniZip）方法不同，ContextGuard不追求为当前查询选择最相关的token，而是致力于去除被音频流冗余表达的视觉信息，并主动保留那些与音频不匹配的视觉证据（如场景文字、背景物体），以维护更广泛的上下文信息。主要实验结果如何：在Qwen2.5-Omni（7B/3B）和Video-SALMONN2+（7B/3B）两个模型及六个音视频基准测试上，ContextGuard显著优于基线方法。关键结果如表1所示： Method Comp.↑ (%) World.↑ Daily.↑ Video-MME↑ OmniVid.↑ AVQA↑ video-SAL2.↓ Avg.↑ (%) Qwen2.5-Omni 7B Full Token 0 47.4 57.1 78.8 48.2 87.6 48.1 100.0 Random 50 45.7 52.4 78.4 43.4 86.7 50.4 95.4 FastV 50 45.6 56.6 77.9 47.6 87.0 49.8 98.1 OmniZip 54 46.8 56.6 77.1 47.0 87.0 52.8 97.3 ContextGuard 55 47.7 57.2 78.8 48.2 87.1 48.1 100.0 Qwen2.5-Omni 3B Full Token 0 47.7 57.7 75.8 44.0 87.6 53.5 100.0 Random 50 44.1 53.1 74.0 42.8 87.1 56.1 95.7 FastV 50 46.7 55.6 74.0 44.0 87.2 54.6 98.2 OmniZip 54 47.1 55.8 74.9 42.8 87.3 52.4 98.9 ContextGuard 61 47.7 56.6 75.8 45.2 87.3 52.3 100.5 Video-SALMONN2+ 7B Full Token 0 50.7 56.3 79.2 43.4 67.8 18.9 100.0 Random 50 47.3 51.6 76.2 39.5 66.8 25.7 90.7 FastV 50 46.3 51.8 79.2 42.2 66.1 24.0 92.8 OmniZip 49 47.8 53.8 79.2 42.8 68.8 22.4 95.7 ContextGuard 55 50.6 55.5 81.4 47.0 66.9 19.9 100.5 Video-SALMONN2+ 3B Full Token 0 48.1 57.7 76.2 45.8 81.6 22.7 100.0 Random 50 44.3 51.6 73.2 42.0 81.2 30.3 90.6 FastV 50 45.6 53.2 71.0 36.1 81.0 27.4 90.2 OmniZip 49 45.6 54.7 73.2 41.6 81.3 26.3 93.7 ContextGuard 56 47.1 55.5 73.6 44.6 81.4 24.2 96.9 特别是在Qwen2.5-Omni 7B上，剪枝55%的token后，在6个基准中的5个上达到了全token性能。实际意义是什么：该方法为部署高效的全模态大模型提供了有力的工具，通过一个无需微调下游LLM、仅需一个独立训练的轻量预测器的推理时框架，大幅降低了音视频理解的计算成本和内存占用，对实时交互应用具有重要价值。主要局限性是什么：方法依赖于固定的精细粒度空间保留比例（ρspa），这可能导致在需要非常具体局部细节的任务（如识别球衣号码、细微表情）上表现不佳，正如其失败案例所示。此外，所有评估均基于短于1分钟的视频片段，限制了结论对长视频场景的适用性。A2V预测器的鲁棒性在不同内容类型（如音乐视频）上未被充分讨论。 🔗 开源详情代码：论文中未提及代码链接。模型权重：论文中未提及模型权重链接。数据集： WorldSense: 论文中未提供链接。 Daily-Omni: 论文中未提供链接。 Video-MME: 论文中未提供链接。 AVQA: 论文中未提供链接。 OmniVideoBench: 论文中未提供链接。 video-SALMONN2 test set: https://huggingface.co/datasets/videoSALMONN2/video-SALMONN_2_testset AudioSet: 论文中提及，未提供具体链接。 VGGSound: 论文中提及，未提供具体链接。 Demo：论文中未提及。复现材料：论文提供了详细的附录，包括 A2V 预测器的架构、训练目标、训练数据（AudioSet 和 VGGSound）、超参数设置、以及各项分析实验的细节（如语义保留比例、空间细节保留策略、时序合并实现等）。未提及训练检查点或代码库。论文中引用的开源项目： Qwen2.5-Omni: 论文中作为基线模型使用，未提供代码或权重仓库链接。 Video-SALMONN2+: 论文中作为基线模型使用，未提供代码或权重仓库链接。 OmniZip: 论文中作为对比方法，未提供代码或仓库链接。 FastV: 论文中作为对比方法，未提供代码或仓库链接。 🏗️ 方法概述和架构整体流程概述：ContextGuard是一个在LLM解码器之前运行的、多阶段的音视频token剪枝框架。其输入为交替的音视频token序列，输出为压缩后的视觉token序列和完整的音频token序列。该框架并非端到端系统，而是由一个独立训练的轻量级A2V预测器和一个基于启发式规则的剪枝-合并流水线组成。 ...

MMTB: Evaluating Terminal Agents on Multimedia-File Tasks

📄 MMTB: Evaluating Terminal Agents on Multimedia-File Tasks #基准测试 #音视频 #系统设计 🔥 60/10 | 前25% | #基准测试 | #系统设计 | #音视频 | arxiv 学术质量 6.7/8 | 影响力 0.8/2 | 可复现性 0.8/1 | 置信度高 👥 作者与机构第一作者：Chiyeong Heo（POSTECH GSAI）通讯作者：Jungseul Ok（POSTECH GSAI, POSTECH CSE）作者列表：Chiyeong Heo（POSTECH GSAI）、Jaechang Kim（POSTECH GSAI）、Junhyuk Kwon（POSTECH GSAI）、Hoyoung Kim（National AI Research Lab）、Dongmin Park（Krafton AI）、Jonghyun Lee（Krafton AI）、Jungseul Ok（POSTECH GSAI, POSTECH CSE） 💡 毒舌点评本文定义了一个重要的评估缺口（多媒体文件工作流），并提出了对应的基准（MMTB）和评估框架（Terminus-MM）。核心贡献在于填补空白和提供系统性的消融证据。然而，论文的“现实世界”代表性存在根本性缺陷：1）所有任务均在受控、自包含的沙箱中完成，与真实工作流中充满干扰、网络依赖和复杂交互的环境相去甚远；2）声称的“付费工作流”来源仅体现在任务描述的灵感上，但实际任务经过了高度简化和包装，例如，105个任务中60个（57%）被最佳系统同时解决失败，这强烈暗示任务难度或现实性不足。此外，Terminus-MM的“原生感知”工具（listen_audio, watch_video）被严重黑箱化，其内部调用的模型（例如是Gemini的原生能力还是独立的ASR/VLM模型）未做任何说明，这使得“原生访问”与“命令行工具”的对比在公平性上存疑，因为前者的计算成本和延迟可能已被外部化。 📌 核心摘要要解决什么问题：现有的终端代理基准主要关注文本、代码和结构化文件，缺乏对现实世界中广泛存在的、需要直接操作音频/视频文件的多媒体文件工作流（Multimedia-File Tasks）的评估。方法核心是什么：本文提出了一个多模态终端代理基准MMTB（包含105个来自真实付费工作流的任务）和一个多媒体终端代理框架Terminus-MM。Terminus-MM扩展了Terminus-2和Terminus-KIRA，增加了原生音频感知工具listen_audio和原生视频感知工具watch_video。其关键设计是“工作空间感知的工具路由”或“模态掩码”机制：在任务开始时，框架扫描工作空间的文件扩展名，动态确定存在的媒体模态（音频、视频、图像），并只向代理的LLM后端暴露与之对应的感知工具。与已有方法相比新在哪里：首次在终端代理评估中引入内容感知（Content-aware）和跨文件工作流（Cross-file workflow）的多媒体任务。系统性地证明了原生多模态访问（直接理解音频/视频内容）相较于通过命令行工具（如ffmpeg、ASR）进行间接转换和处理，在效率和成本上的显著优势。主要实验结果如何：在Gemini-3.1-Pro模型上，提供完整原生模态访问（文本+图像+音频+视频）的Terminus-MM取得了最高成功率（二元成功率0.371，部分成功率0.469），显著优于仅文本访问的Terminus-2（0.124， 0.162）。消融实验表明，原生音频和视频访问是性能提升的主要贡献。当原生模态缺失时，依赖命令行工具转换会导致API成本平均增加1.63x至7.72x，最差情况超过30x。移除动态工具路由（模态掩码）会导致性能下降（如Gemini-3.1-Pro上二元成功率从0.371降至0.324）。失败分析显示，Terminus-MM的主要失败原因是模型推理错误（47%），而商用CLI工具Codex CLI则有更高比例的工具操作相关失败（尤其是超时，39%）。实际意义是什么：为开发和评估能够处理现实世界多媒体文件工作流的AI代理提供了标准化基准；揭示了原生多模态感知对于提升代理效率、降低成本和可靠性的关键作用；为未来多媒体代理系统的设计指明了方向。主要局限性是什么：未提供与人类专家基线的直接比较；基准任务规模（105个）和多样性可能不足以完全覆盖所有现实场景；所有评估均在固定10分钟预算内进行，未探索更长预算下的行为；“原生感知”工具的内部实现细节未公开。 🔗 开源详情代码：https://github.com/mm-tbench/multimedia-terminal-bench 模型权重：论文中未提及提供模型权重下载链接。论文中使用的Qwen3.5-122B、GPT-5.2、Gemini-2.5-Flash、Gemini-3.1-Pro、Sonnet-4.6等均为第三方闭源模型或需通过API/订阅服务访问。Terminus-MM作为工具框架，其本身不包含模型权重。数据集：MultiMedia-TerminalBench (MMTB) 数据集。获取链接：https://huggingface.co/datasets/mm-tbench/mmtb-media。数据集包含Per-asset media licenses记录在各任务的media.toml中，以CC-BY, CC0, 和 public-domain为主，并包含一个符合Croissant 1.0标准的元数据文件。 Demo：论文中未提及在线演示链接。项目主页为：https://mm-tbench.github.io/multimedia-terminal-bench/ 复现材料：论文详细描述了评估设置，包括任务格式（Harbor任务）、评估协议、代码仓库和附录中的实现细节。完整的复现需要代码仓库、任务数据集以及访问所使用的模型API。论文中引用的开源项目： Terminal-Bench：论文中的基准测试格式和部分任务设计参考自此项目。链接：https://github.com/terminal-bench/terminal-bench Terminus-2：作为基础的文本终端代理框架。链接：https://github.com/terminal-bench/terminal-bench (Terminal-Bench项目的一部分) Terminus-KIRA：增加了原生图像感知的终端代理框架，采用Apache-2.0许可。链接：https://github.com/terminal-bench/terminus-kira ffmpeg：广泛使用的音视频处理命令行工具。链接：https://ffmpeg.org/ LilyPond：用于乐谱排版的音乐记谱语言和程序。链接：https://lilypond.org/ FluidSynth：软件合成器，用于将MIDI转换为音频。链接：https://www.fluidsynth.org/ Kokoro-82M：论文中提及的一个采用Apache-2.0许可的语音合成模型，用于生成实验中的合成语音。 Godot：开源游戏引擎，用于生成游戏QA任务的视频素材。链接：https://godotengine.org/ Wav2Lip：用于口型同步的视频合成工具。链接：https://github.com/Rudrabha/Wav2Lip reportlab / wkhtmltopdf：用于PDF文档生成的工具。链接：https://www.reportlab.com/ 和 https://wkhtmltopdf.org/ matplotlib：用于生成图表和示意图的Python库。链接：https://matplotlib.org/ music21：用于分析和处理音乐表示的Python工具包。链接：https://web.mit.edu/music21/ 相关基准测试与框架（未直接提供代码链接，但在论文中被引用比较）： WebArena / VisualWebArena OSWorld OmniBench JointAVBench AVTrustBench OmniPlay VideoWebArena Claude Code Codex CLI SWE-bench / MLE-bench / AppWorld 🏗️ 方法概述和架构本文的核心工作是设计并构建一个名为MMTB（MultiMedia-TerminalBench）的评估基准，以及一个用于在该基准上评估的多媒体终端代理框架Terminus-MM。该系统旨在评估终端代理在处理以音视频文件为核心对象的复杂工作流时的能力。 ...

OmniRefine: Alignment-Aware Cooperative Compression for Efficient Omnimodal Large Language Models

📄 OmniRefine: Alignment-Aware Cooperative Compression for Efficient Omnimodal Large Language Models #音视频 #模型压缩 #推理加速 #跨模态对齐 ✅ 7.0/10 | 前25% | #音视频 | #模型压缩 | #推理加速 #跨模态对齐 | arxiv 学术质量 7.0/8 | 影响力 0.8/2 | 可复现性 0.8/1 | 置信度高 👥 作者与机构第一作者：Yuchen Deng（清华大学深圳国际研究生院 / 鹏城实验室）通讯作者：Yuxing Han（清华大学深圳国际研究生院）作者列表：Yuchen Deng（清华大学深圳国际研究生院 / 鹏城实验室）、Zidang Cai（未说明具体机构）、Hai-Tao Zheng（清华大学深圳国际研究生院）、Jie Wang（清华大学深圳国际研究生院）、Feidiao Yang（鹏城实验室）、Yuxing Han（清华大学深圳国际研究生院） 💡 毒舌点评本文提出了一个针对Omni-LLM推理加速的训练免费两阶段压缩框架，核心贡献在于认识到原生固定分块可能破坏跨模态对应关系，并据此设计了CPCR模块。方法设计思路清晰，实验结果也显示了在特定设置下优于SOTA（OmniZip）的效率-性能权衡。然而，框架的成功高度依赖一系列手动调节的超参数（如阈值τ，系数β，正则项λ_c），且这些参数的敏感性分析缺失，使得“训练免费”和“即插即用”的宣称大打折扣。此外，论文未开源代码，且在部分表格数据（如β值）上存在不一致，降低了其可信度和可复现性。方法虽然加速了预填充阶段，但端到端延迟提升有限，实际部署收益需打折扣。 📌 核心摘要要解决什么问题：现有Omnimodal LLMs (Omni-LLMs) 因长视频流和密集音频序列导致推理成本高昂。现有token压缩方法通常使用固定或原生的压缩单元（chunks），容易破坏跨模态的对应关系和互补信息，从而在提升效率时难以稳定保持性能。方法核心是什么：提出了OmniRefine，一个训练免费的两阶段音视频token压缩框架。第一阶段（CPCR）利用帧-音频相似度和动态规划，将原生的时间分块边界细化为跨模态对齐的压缩单元。第二阶段（MACC）在每个细化单元内进行模态感知的协作压缩：视频分支通过树结构策略压缩空间和时间冗余，音频分支在语义锚点约束下压缩连续声学内容，且音频的压缩预算会自适应地参考视频的保留率。与已有方法相比新在哪里：关键创新在于显式地优化了压缩单元的边界（通过CPCR）以保持跨模态对齐，并在此基础上设计了模态特异且预算协作的压缩策略（通过MACC）。不同于直接对单模态进行压缩或使用固定分块的方法，OmniRefine首先改善了数据组织的单元，为后续压缩提供了更优的基础。主要实验结果如何：在Qwen2.5-Omni-7B上，OmniRefine在WorldSense基准测试中，以44%的token保留率（31% FLOPs）达到了46.7%的准确率，几乎匹配了使用完整token的基线（46.8%）。在更激进的30%保留率下，仍能达到46.4%，优于OmniZip在更高保留率下的表现（45.3%-45.9%）。在AVUT和VideoMME上也展示了具有竞争力的性能-效率权衡。消融实验证明了CPCR和MACC模块的互补贡献。实际意义是什么：该方法为高效部署Omni-LLMs提供了实用的解决方案。它是训练免费的，且兼容KV缓存重用，能降低多轮推理的预填充开销，对于在资源受限设备上实现实时音视频理解有潜在价值。主要局限性是什么：论文承认的局限是方法依赖一系列手动设置的超参数。审稿人认为，更根本的限制在于：1）缺乏超参数敏感性分析，其泛化能力和“即插即用”特性存疑；2）端到端加速收益有限；3）部分实验数据（如β值）在正文与附录中不一致，需澄清。 🔗 开源详情代码：论文中未给出具体代码仓库链接。摘要中提及“The code and interface will be released to facilitate further research.”，表明未来会发布代码，但当前版本未提供URL。模型权重：论文中未提及。论文指出其方法基于 Qwen2.5-Omni 架构实现，但未提供 OmniRefine 本身压缩后的模型权重下载链接。数据集：论文中提及并使用了以下公开基准测试数据集，但未在正文中提供直接获取链接。具体名称为： WorldSense [18] VideoMME [13] AVUT [57] Demo：论文中未提及。复现材料：论文附录提供了详细的超参数设置表（表5）、算法伪代码（算法1）以及评估协议描述，这些信息有助于复现。但未提供完整的训练配置（本方法无需训练）等。论文中引用的开源项目： Qwen2.5-Omni：作为基础模型使用。论文引用了模型名，但未给出链接。 FastV：作为基线方法进行比较。论文引用了方法名，但未给出链接。 LMMs-Eval：在VideoMME评估中使用的框架。论文引用了框架名，但未给出链接。 🏗️ 方法概述和架构 OmniRefine是一个面向Omnimodal LLMs推理加速的、训练免费的两阶段音视频token压缩框架。其核心流程是：输入原始编码后的音视频token序列 → 经过第一阶段（CPCR）进行跨模态对齐的分块优化 → 在第二阶段（MACC）于每个优化后的分块内进行模态感知的协作压缩 → 输出压缩后的token序列，用于LLM的预填充阶段。 ...

FLARE: Full-Modality Long-Video Audiovisual Retrieval Benchmark with User-Simulated Queries

📄 FLARE: Full-Modality Long-Video Audiovisual Retrieval Benchmark with User-Simulated Queries #音频检索 #基准测试 #数据集 #音视频 #跨模态 ✅ 6.0/10 | 前25% | #音频检索 | #数据集 | #基准测试 #音视频 | arxiv 学术质量 6.0/8 | 影响力 1.5/2 | 可复现性 0.8/1 | 置信度高 👥 作者与机构第一作者：Qijie You（北京科技大学 University of Science and Technology Beijing）通讯作者：Wentao Zhang（北京大学 Peking University、中关村学院 Zhongguancun Academy）作者列表：Qijie You（北京科技大学）、Hao Liang（北京大学、中关村学院，同等贡献）、Mingrui Chen（中国科学院自动化研究所 Institute of Automation, Chinese Academy of Sciences）、Bohan Zeng（北京大学）、Meiyi Qiang（北京大学）、Zhenhao Wong（北京大学）、Wentao Zhang（北京大学、中关村学院，项目负责人，通讯作者） 💡 毒舌点评这篇论文的亮点在于它精准地抓住了现有视频检索基准的“阿喀琉斯之踵”——过于依赖信息密集的字幕和短片段，完全无法模拟真实用户模糊、不完整、强依赖多模态线索的搜索意图；其提出的“硬双模态约束”过滤机制是一个非常聪明的设计，确保了跨模态查询不是简单的拼接。然而，其短板也明显：整个基准完全建立在 Qwen 系列等商用/闭源模型的自动生成和筛选之上，这虽保证了规模，却也引入了模型特有的偏见，且自动化流水线的“黑箱”特性使得最终数据集的“用户模拟”真实性存疑，更像是一场大规模的模型行为模拟而非真实人类查询的反映。 ...

Do Joint Audio-Video Generation Models Understand Physics?

📄 Do Joint Audio-Video Generation Models Understand Physics? #基准测试 #模型评估 #音视频 #跨模态 #生成模型 ✅ 7.5/10 | #基准测试 #模型评估 | arxiv 👥 作者与机构第一作者：Zijun Cui (University of Texas at Dallas) 通讯作者：Yapeng Tian (University of Texas at Dallas) 作者列表：Zijun Cui (University of Texas at Dallas), Xiulong Liu (University of Washington), Hao Fang (University of Washington), Mingwei Xu (University of Washington), Jiageng Liu (University of California, Los Angeles), Zexin Xu (University of Texas at Dallas), Weiguo Pian (University of Texas at Dallas), Shijian Deng (University of Texas at Dallas), Feiyu Du (University of Texas at Dallas), Chenming Ge (University of Washington), Yapeng Tian (University of Texas at Dallas) 💡 毒舌点评本文首次系统性地构建了评估联合音视频生成模型物理常识理解的基准AV-Phys Bench，其场景演进分类法（稳态、事件转换、环境转换）和反物理子类别设计为评估工作带来了急需的、结构化的维度。然而，其评估深度可能受限于“8秒短视频”和“纯感知物理”的框架，未能充分触及模型是否真正理解物理因果链，而非仅仅学会了感知层面的统计关联。 ...

Audio-Visual Intelligence in Large Foundation Models

📄 Audio-Visual Intelligence in Large Foundation Models #多模态模型 #跨模态 #预训练 #生成模型 #音视频 🔥 8.0/10 | 前25% | #跨模态 | #预训练 | #多模态模型 #生成模型 | arxiv 学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0 | 置信度中 👥 作者与机构第一作者：未说明通讯作者：未说明作者列表：You Qin（未说明）， Kai Liu（未说明）， Shengqiong Wu（未说明）， Kai Wang（未说明）， Shijian Deng（未说明）， Yapeng Tian（未说明）， Junbin Xiao（未说明）， Yazhou Xing（未说明）， Yinghao Ma（未说明）， Bobo Li（未说明）， Roger Zimmermann（未说明）， Lei Cui（未说明）， Furu Wei（未说明）， Jiebo Luo（未说明）， Hao Fei（未说明） 💡 毒舌点评这是一篇雄心勃勃的综述，旨在为快速发展的音视频智能领域建立一个以大型基础模型为核心的统一分类体系和全景图，其系统性整合工作价值显著。然而，作为一篇理论框架性的综述，它本质上是领域地图的绘制，而非对具体技术难题的攻坚，因此对于寻求具体技术实现或实验验证细节的读者，其直接指导意义有限。 ...

AVI-Edit: Audio-sync Video Instance Editing with Granularity-Aware Mask Refiner

📄 AVI-Edit: Audio-sync Video Instance Editing with Granularity-Aware Mask Refiner #视频编辑 #扩散模型 #音频生成 #音视频 🔥 8.0/10 | 前25% | #视频编辑 | #扩散模型 | #音频生成 #音视频 | arxiv 学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度高 👥 作者与机构第一作者：Haojie Zheng（北京大学软件与微电子学院，北京人工智能研究院）通讯作者：Boxin Shi（北京大学计算机科学学院，多媒体信息处理国家重点实验室，国家视觉技术工程研究中心），Xinlong Wang（北京人工智能研究院）作者列表：Haojie Zheng（北京大学软件与微电子学院，北京人工智能研究院），Shuchen Weng（北京人工智能研究院，北京大学计算机科学学院），Jingqi Liu（北京大学软件与微电子学院，北京人工智能研究院），Siqi Yang（北京大学人工智能研究院），Boxin Shi（北京大学计算机科学学院，多媒体信息处理国家重点实验室，国家视觉技术工程研究中心），Xinlong Wang（北京人工智能研究院） 💡 毒舌点评这篇工作就像一位细心的“音频-视频外科医生”，不仅能精准切除或替换视频中的特定实例（如把狗变成猫），还能确保它的叫声也同步变化，这种对模态间精细时空对齐的执着在现有编辑工具中相当稀缺。然而，其“手术”目前一次只能处理一个“病人”（单实例），且整个“手术器械”（自反馈音频代理）依赖一个外部模型“工具箱”，这让人担心其在真实世界复杂场景下的自主性和鲁棒性。 📌 核心摘要问题：现有视频编辑方法主要关注视觉层面，破坏了原始视频中至关重要的音频-视频同步，且缺乏实例级别的精细空间和时间控制。方法核心：提出AVI-Edit框架，包含三个关键组件：基于Wan2.2的音频同步视频骨干网络（通过帧级交叉注意力融合音频信息）、粒度感知遮罩精炼器（GAMR，迭代式地将用户提供的粗糙遮罩精化为精确的实例轮廓）、自反馈音频代理（通过“分离-生成-重混-修正”的闭环流程，利用外部工具生成高质量的引导音频）。创新点：a) 引入“精度因子”来量化和控制遮罩的粗糙程度，实现迭代式遮罩精化；b) 设计了自反馈音频代理，能够根据场景自适应选择分离和生成模型，并通过质量评判进行迭代优化；c) 构建了首个大规模、实例中心的音频-视频编辑数据集AVISet。实验结果：在AVISet和AvED-Bench两个数据集上，AVI-Edit在视觉质量(FVD/IS)、条件遵循(TC/AC)和音视频同步(Sync-C/D)等定量指标上均优于现有方法（AvED, Ovi, VACE-Foley）。用户研究显示，在音视频同步、文本对齐和总体偏好方面，AVI-Edit均获得最高支持率（最高达49.20%）。实际意义：为高质量的视频内容创作提供了新工具，允许用户在保留背景和非目标音频的前提下，对视频中的特定实例及其关联音频进行精准、同步的编辑，适用于影视后期、短视频创作等场景。主要局限性：a) 目前仅支持单实例顺序编辑，无法同时处理多个目标实例；b) 框架的音频代理模块依赖一组预设的外部模型，其性能受限于这些外部组件的质量和泛化能力。 🔗 开源详情代码：论文中未提及代码链接 ...

AsymK-Talker: Real-Time and Long-Horizon Talking Head Generation via Asymmetric Kernel Distillation

📄 AsymK-Talker: Real-Time and Long-Horizon Talking Head Generation via Asymmetric Kernel Distillation #语音合成 #扩散模型 #知识蒸馏 #音视频 ✅ 7.5/10 | 前25% | #语音合成 | #扩散模型 | #知识蒸馏 #音视频 | arxiv 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Yuxin Lu（未说明）通讯作者：未说明作者列表：Yuxin Lu（未说明）、Qian Qiao（未说明）、Jiayang Sun（未说明）、Min Cao（未说明）、Guibo Zhu（未说明） 💡 毒舌点评亮点：论文提出了“运动内核”这一精巧的中间表示，通过“解码-再编码”策略和“非对称蒸馏”框架，系统性地解决了分块生成中的因果一致性与长期漂移两大痛点，方案完整且实验效果显著（FVD、Sync-C/D均达SOTA）。短板：其效果高度依赖Wan2.1这个强大的3D VAE骨干网络和特定的音频编码器，这可能限制了方法在不同架构上的泛化性与轻量化部署；此外，生成的视频在相邻块边界处仍存在肉眼可见的不连续现象，论文将其归因于训练数据噪声，但这也暗示了其方案在无缝长时程生成上仍有提升空间。 🔗 开源详情代码：论文中未提及代码链接。论文中仅在摘要和第6节指出“我们的代码和视频结果将公开发布”。模型权重：论文中未提及模型权重链接。论文中仅说明使用了Wan2.1作为骨干网络，并未提供训练好的AsymK-Talker模型权重。数据集：训练集使用了多个公开数据集及一个自采数据集： AVSpeech: https://storage.googleapis.com/avsdf/avsdf/index.html HDTF: https://github.com/tancunhao/High-Definition-Talking-Face-Dataset OpenHumanVid: https://github.com/OpenHumanVid/OpenHumanVid TalkVid: 论文中未提及具体链接。 VFHQ: https://tencentarc.github.io/vfhq/ 自采数据集：论文中未提及获取方式。评估集使用了HDTF和VFHQ中的部分样本。 Demo：论文中未提及在线演示链接。复现材料：训练配置：在第4.1节“Implementation Details”中提供了详细的训练参数：硬件：16 x NVIDIA H20 GPU。输入：512x512分辨率，81帧一个块。动态核大小 m=3，回归锚定损失权重 λreg=0.2。教师模型去噪步数：1000步；学生模型蒸馏为4步。优化器：AdamW，批大小4，bfloat16混合精度，使用FSDP分布式策略。训练流程：教师模型预训练15,000步，随后学生模型蒸馏1,600步。论文附录中提供了更多实验结果和分析，但未提及提供预训练检查点或完整训练脚本。论文中引用的开源项目： Wan2.1 (文本到视频扩散模型): https://huggingface.co/Wan-AI/Wan2.1-T2V-1.3B Wan-VAE (3D因果变分自编码器): 随Wan2.1模型发布，链接同上。 Wav2Vec 2.0 (音频编码器): https://huggingface.co/facebook/wav2vec2-large-960h umT5 (文本编码器，本文未使用): https://huggingface.co/google/umt5-small ffmpeg (音频分离工具): https://ffmpeg.org/ 人脸解析模型 (Yu et al., 2021): 论文中未提供具体链接。 AdamW 优化器: 论文引用自 Loshchilov & Hutter, 2017，无特定开源链接。其他作为对比或背景引用的项目（如SadTalker, Hallo, Sora, Tune-A-Video等）在论文中有引用，但未作为本项目直接复现的依赖项，故不在此列出具体链接。补充信息 [细节详述] 补充：训练分为两个明确且独立的阶段：1) 教师模型预训练（15,000步），优化目标包含扩散损失、时间一致性损失和面部保真度损失（公式13）。2) 学生模型蒸馏（1,600步），优化目标为分布匹配蒸馏损失与回归锚定损失的加权和（公式14）。这种分阶段训练是AKD框架实现稳定性的基础。 [细节详述] 补充：论文明确指出，最终训练数据集由预处理后得到217小时高质量、同步的音视频对组成。 [模型架构] 补充：在骨干网络部分，论文详细说明了Wan-VAE的解耦压缩策略：第一帧仅进行空间压缩，以确保图像兼容性；后续帧则进行时空压缩以捕获运动。这是其作为3D VAE的关键特性。 [实验结果] 补充：在定性评估中，论文指出AsymK-Talker生成30秒视频的延迟比基线中最快的SadTalker还要快2.6倍。 [实验结果] 补充：在消融实验的回归锚定权重（λreg）部分，论文提供了图6的视觉化对比，展示了λreg=0.0时画面出现显著伪影和不稳定，而λreg=0.5或更大时面部动态被抑制，表情显得静态和重复。这直观地解释了选择λreg=0.2的理由。 [细节详述] 补充：在非对称内核蒸馏（AKD）中，论文通过公式（9）详细说明了在蒸馏阶段，如何构造教师模型的输入：将真实运动内核κgt与当前时间步的噪声x_t的其余部分拼接，以锚定监督信号。 [评分理由] 补充：论文在第7节（Impact Statement）中主动讨论了本研究可能带来的社会影响与伦理风险，例如实时身份冒充、欺诈和深度伪造的泛滥，并倡导开发实时检测算法、集成水印和溯源标准以及遵守严格的伦理准则。这一点在已有分析中未被提及。 [模型架构] 补充：论文在第3.1节（Preliminaries）中简要回顾了所采用的Flow Matching（流匹配）框架及其训练目标（公式2），这是理解其扩散模型训练范式的基础。 [评分理由] 补充：论文在第6节（Limitations）中将块边界不连续问题部分归因于训练数据子集中存在的“细微相机抖动”，尽管已进行过滤。这为问题提供了更具体的环境解释。 [模型架构] 补充：在TRE组件中，论文强调了通过Wan-VAE编码“伪视频”序列，实际上是将静态参考投影到一个与视频数据分布兼容的、包含时序先验的潜空间，从而在结构上与动态音频条件更匹配。 📌 核心摘要解决的问题：现有基于扩散模型的说话头生成方法存在三大瓶颈：因果推理效率低（无法实时）、静态参考图像与动态音频条件不兼容、分块生成时误差累积导致长期画面漂移（如身份退化、画面扭曲）。方法核心：提出AsymK-Talker，一个结合了扩散与蒸馏的框架。核心包括：KCLG（基于运动内核的循环分块生成，实现因果实时性）、TRE（将静态参考图像编码为时域感知的潜变量，提升音视频同步）、AKD（非对称内核蒸馏，教师模型用真实内核监督，学生模型学习生成内核，以抑制长期漂移）。创新点：1）提出“运动内核”及解码-再编码策略，确保分块生成间的因果信息传递；2）设计TRE，隐式为静态图像注入时序先验，无需逐帧监督；3）创新性地采用非对称条件进行知识蒸馏，使学生模型在推理时更鲁棒。主要实验结果：在HDTF和VFHQ数据集上，AsymK-Talker在视觉质量（FVD）和唇音同步（Sync-C， Sync-D）上全面超越SadTalker、Hallo3等SOTA方法。例如，在HDTF数据集上，FVD达到116.78（最优），Sync-C达到8.11（最优）。消融实验证实了运动内核大小(m=3)、TRE以及非对称蒸馏策略的有效性。推理速度相比高保真扩散模型AniPortrait和Hallo3分别实现13倍和215倍加速。实际意义：实现了高保真、实时、且能长时间稳定生成的音频驱动说话头视频，为虚拟助手、远程呈现、内容创作等实时交互应用提供了关键技术支撑。主要局限性：1）生成视频在相邻音频-视觉块边界处偶有不连续；2）教师模型训练需要大量计算资源；3）方法性能部分依赖于Wan2.1骨干网络和Wav2Vec音频编码器。 🏗️ 模型架构 AsymK-Talker的整体架构旨在实现实时、长时程、高保真的音频驱动说话头视频生成。其核心流程如图2所示。 ...