Posts

Efficient Distributed MLLM Training with Cornstarch

📄 Efficient Distributed MLLM Training with Cornstarch #音视频理解 #多模态模型 #预训练 7/10 | 创新 1.2/2 | 严谨 1/1.5 | 实验 0.8/1.5 | 清晰 0.7/1 | 影响 0.5/1.5 | 开源 1.2/1.5 | 复现 0.3/0.5 | 工程 1.3/1.5 ✅ 7/10 | 前50% | #音视频理解 | #多模态模型 | #预训练 | arxiv 👥 作者与机构第一作者：Insu Jang（University of Michigan）通讯作者：Insu Jang（University of Michigan）作者列表：Insu Jang（University of Michigan）、Runyu Lu（University of Michigan）、Nikhil Bansal（University of Michigan）、Ang Chen（University of Michigan）、Mosharaf Chowdhury（University of Michigan） 💡 毒舌点评 Cornstarch 巧妙地将冻结参数对反向传播的影响量化到流水线划分中，并将负载均衡的粒度从跨 GPU 深入到 GPU 内部计算单元，工程实现扎实。但仅有一种 GPU 型号和合成数据的评测令人对其真实泛化性存疑；且论文聚焦通用多模态系统优化，对音频/语音领域特有挑战着墨甚少，相关工作（如 DistMM、Optimus）的对比也完全缺失，使得该工作在垂直领域的直接参考价值大打折扣。 ...

Efficient Multi-modal Dataset Distillation via Analytic Parameter Matching

📄 Efficient Multi-modal Dataset Distillation via Analytic Parameter Matching #对比学习 #高效推理 7.2/10 | 创新 1.8/2 | 严谨 1.2/1.5 | 实验 1.2/1.5 | 清晰 0.8/1 | 影响 0.8/1.5 | 开源 0/1.5 | 复现 0.4/0.5 | 工程 1/1.5 ✅ 7.2/10 | 前50% | #对比学习 | #对比学习 | #高效推理 | arxiv 👥 作者与机构第一作者：Deyu Bo（National University of Singapore）通讯作者：Xinchao Wang（National University of Singapore）作者列表：Deyu Bo（National University of Singapore）、Xinchao Wang（National University of Singapore） 💡 毒舌点评本文最大的贡献在于用一个解析解优雅地绕开了多模态数据集蒸馏中轨迹匹配的存储噩梦和双层优化。从“匹配训练轨迹”到“匹配投影器最优解”，思路转换干净、彻底，在理论和工程上都极具冲击力。但不要高兴太早，这套解析解严重依赖于固定的教师模型和矩阵求逆，限制了合成数据的规模与灵活性，本质上还是一个针对线性/可逆激活函数的特化方案，距离真正的通用多模态蒸馏还有距离。 ...

Efficient, Property-Aligned Fan-Out Retrieval via RL-Compiled Diffusion

📄 Efficient, Property-Aligned Fan-Out Retrieval via RL-Compiled Diffusion #音乐检索 #音乐推荐 #知识蒸馏 4.7/10 | 创新 1.1/2 | 严谨 0.7/1.5 | 实验 0.8/1.5 | 清晰 0.7/1 | 影响 0.5/1.5 | 开源 0/1.5 | 复现 0.2/0.5 | 工程 0.7/1.5 📝 4.7/10 | 后50% | #音乐检索 | #强化学习 | #音乐推荐 #知识蒸馏 | arxiv 👥 作者与机构第一作者：Pengcheng Jiang（Google Research，伊利诺伊大学厄巴纳-香槟分校）通讯作者：未说明作者列表：Pengcheng Jiang（Google Research、伊利诺伊大学厄巴纳-香槟分校）、Judith Yue Li（Google Research）、Moonkyung Ryu（Google Research）、R. Lily Hu（Google Research）、Kun Su（Google Research）、Zhong Yi Wan（Google Research）、Liam Hebert（Google Research）、Hao Peng（Google Research）、Jiawei Han（伊利诺伊大学厄巴纳-香槟分校）、Dima Kuzmin（Google Research）、Craig Boutilier（Google Research） 💡 毒舌点评这篇论文将一个朴素的工程思路——“用RL生成一次数据，然后蒸馏到小模型”——包装成了一个看似精巧的框架，用于解决集合级检索中非分解属性优化的难题。这个“编译”概念确实有启发性，但论文的全部说服力都建立在Google内部的专有数据和闭源代码之上，对于社区而言，这更像一份Google的内部技术报告。音乐检索实验只在一个无法获取的工业数据集上完成，加上LLM-as-a-Judge评估的潜在偏差和全流程对昂贵基础设施的依赖，使其宣称的通用性和影响力大打折扣，外人看来不过是一座空中楼阁。 ...

Evaluating and Rewarding LALMs for Expressive Role-Play TTS via Mean Continuation Log-Probability

📄 Evaluating and Rewarding LALMs for Expressive Role-Play TTS via Mean Continuation Log-Probability #语音合成 #强化学习 #数据集 #语音大模型 6.6/10 | 创新 0.8/2 | 严谨 1.1/1.5 | 实验 1/1.5 | 清晰 0.8/1 | 影响 0.8/1.5 | 开源 1/1.5 | 复现 0.3/0.5 | 工程 0.8/1.5 ✅ 6.6/10 | 前50% | #语音合成 | #强化学习 | #数据集 #语音大模型 | arxiv 👥 作者与机构第一作者：Yong Ren（中国科学院自动化研究所 / 中国科学院大学人工智能学院）、Jingbei Li（StepFun）通讯作者：Jingbei Li（StepFun, lijb19@tsinghua.org.cn）、Cheng Yi（StepFun, yicheng@stepfun.com）、Xuerui Yang（StepFun, yangxuerui@stepfun.com）完整作者列表：Yong Ren、Jingbei Li（共同一作）、Haiyang Sun（StepFun）、Yujie Chen（北京航空航天大学）、Cheng Yi（StepFun）、Yechang Huang（StepFun）、Hao Gu（中国科学院自动化研究所 / 中国科学院大学人工智能学院）、Ye Bai（中国科学院自动化研究所）、Xuerui Yang（StepFun） 💡 毒舌点评本文用 MCLP 将风格一致性量化为 LALM 续写概率，想法精巧，逻辑也基本自洽。但实验的“SOTA”声明水分太大：跟 GPT-Audio、通用 InstructTTS 比当然全面碾压，可真正的对手——那些同样用了 RL 做风格对齐的 TTS 系统——一个都没出现在基线里。主表上 MOS 4.461 vs. 3.576 的巨大鸿沟假装看不见，3.576 就能叫 SOTA？文末的局限分析写得像免责声明，对 MCLP 受限于 Step-Audio-2 这一特定 Tokenizer 和生态的根本脆弱性避而不谈。贡献嘛，做好了一个中文标杆数据集 + 一个有意思的指标，但要说方法论上有普适性突破，还差得远。 ...

FakeWorld 1.0: An Omni-modal Benchmark for Fake Media and Content

📄 FakeWorld 1.0: An Omni-modal Benchmark for Fake Media and Content #可解释性 #基准测试 #多模态模型 6.1/10 | 创新 1.2/2 | 严谨 1/1.5 | 实验 1.2/1.5 | 清晰 0.7/1 | 影响 0.6/1.5 | 开源 0/1.5 | 复现 0.3/0.5 | 工程 1.1/1.5 ✅ 6.1/10 | 前50% | #可解释性 | #多模态模型 | #基准测试 | arxiv 👥 作者与机构第一作者：Yifeng Gao（复旦大学）通讯作者：Xingjun Ma（复旦大学）作者列表：Yifeng Gao（复旦大学）、Yifan Ding（复旦大学，阿里巴巴集团）、Li Wang（复旦大学）、Feida Huang（复旦大学）、Ye Sun（复旦大学）、Yixu Wang（复旦大学）、Xin Wang（复旦大学）、Yutao Wu（迪肯大学）、Hanxun Huang（墨尔本大学）、Yunhao Feng（复旦大学，阿里巴巴集团）、Yingshui Tan（阿里巴巴集团）、Xingjun Ma（复旦大学）、Yu-Gang Jiang（复旦大学） 💡 毒舌点评论文将一个极具野心的“媒体真伪”与“内容虚实”交叉评估理念推向了全模态，构建了一个高保真的混合欺骗场景，其问题定义令人眼前一亮。然而，在解决方案上却显得有点“虎头蛇尾”。核心的OmniCheck框架将检测重任押注于一个基于Qwen2.5-Omni-3B的LoRA微调小模型，这好比用精巧的锁扣去守护一扇纸糊的门。诚然，模型小、跑得快，但与它要评估的那些动辄上百亿参数的前沿大模型相比，其检测能力的理论上限令人存疑，且全文对数据、代码与模型的开源情况讳莫如深，对于一篇以Benchmark为核心贡献的论文而言，这无疑是一个显著的减分项。 ...

FoeGlass: Simple In-Context Learning Is Enough for Red Teaming Audio Deepfake Detectors

📄 FoeGlass: Simple In-Context Learning Is Enough for Red Teaming Audio Deepfake Detectors #语音伪造检测 #大语言模型 #语音合成 #提示学习 #模型评估 6.8/10 | 创新 1.3/2 | 严谨 1.1/1.5 | 实验 1.2/1.5 | 清晰 0.8/1 | 影响 1/1.5 | 开源 0/1.5 | 复现 0.4/0.5 | 工程 1/1.5 ✅ 6.8/10 | 前50% | #语音伪造检测 | #大语言模型 | #语音合成 #提示学习 | arxiv 👥 作者与机构第一作者：Sepehr Dehdashtian（Michigan State University）通讯作者：Sepehr Dehdashtian（Michigan State University）作者列表：Sepehr Dehdashtian（Michigan State University）、Jacob H. Seidman（Reality Defender）、Vishnu Naresh Boddeti（Michigan State University）、Gaurav Bharaj（Reality Defender） 💡 毒舌点评本文首次将LLM的上下文学习用于音频深度伪造检测器的黑盒自动化红队，多样性反馈机制设计巧妙，显著提升了攻击多样性与成功率。然而，方法对超参数敏感且未在真实商业检测器上验证，开源代码缺失严重削弱了其实用说服力与可复现性。 ...

From Inpainting to Editing: Unlocking Robust Mask-Free Visual Dubbing via Generative Bootstrapping

📄 From Inpainting to Editing: Unlocking Robust Mask-Free Visual Dubbing via Generative Bootstrapping #扩散模型 #多模态模型 7.6/10 | 创新 1.7/2 | 严谨 1.2/1.5 | 实验 1.2/1.5 | 清晰 0.6/1 | 影响 0.9/1.5 | 开源 0.5/1.5 | 复现 0.3/0.5 | 工程 1.2/1.5 ✅ 7.6/10 | 前25% | #扩散模型 | #扩散模型 | #多模态模型 | arxiv 👥 作者与机构第一作者：Xu He（清华大学深圳国际研究生院）通讯作者：Zhiyong Wu（清华大学深圳国际研究生院, 香港中文大学）作者列表：Xu He（清华大学深圳国际研究生院）、Haoxian Zhang（快手Kling团队）、Hejia Chen（快手Kling团队）、Changyuan Zheng（清华大学深圳国际研究生院）、Liyang Chen（清华大学深圳国际研究生院）、Songlin Tang（快手Kling团队）、Jiehui Huang（香港科技大学）、Xiaoqiang Liu（快手Kling团队）、Pengfei Wan（快手Kling团队）、Zhiyong Wu（清华大学深圳国际研究生院 / 香港中文大学） 💡 毒舌点评亮点：论文提出了一种极具洞察力的“生成式自举”范式，从根本上解决了视觉配音领域因掩码修复带来的唇形泄露、身份漂移等顽疾，实现了无掩码、高保真的视觉配音。时间步自适应多阶段学习策略巧妙解耦了编辑任务中的多目标冲突，模型在复杂场景下的鲁棒性令人印象深刻。短板：技术方案对预训练 DiT 和 Whisper 等强大先验的依赖程度过高，自身基础方法的创新有限，且未能提供对基底模型更换后的鲁棒性分析。提出的 X-DubBench 数据集和模型权重均未公开，仅有的推理代码严重限制了社区复现与公平对比。 ...

From Talking to Singing: A New Challenge for Audio-Visual Deepfake Detection

📄 From Talking to Singing: A New Challenge for Audio-Visual Deepfake Detection 6.9/10 | 创新 1.4/2 | 严谨 1.2/1.5 | 实验 1.3/1.5 | 清晰 0.9/1 | 影响 1/1.5 | 开源 0.2/1.5 | 复现 0.3/0.5 | 工程 0.6/1.5 ✅ 6.9/10 | 前50% | #音视频理解 | #多模态模型 | arxiv 👥 作者与机构第一作者：Ke Liu（电子科技大学计算机科学与工程学院未来媒体研究中心）通讯作者：Jiwei Wei（电子科技大学计算机科学与工程学院未来媒体研究中心，mathematic6@gmail.com）作者列表：Ke Liu、Jiwei Wei、Wenyu Zhang、Shuchang Zhou、Ruikun Chai、Yutao Dai、Chaoning Zhang、Yang Yang。所有作者均隶属于电子科技大学计算机科学与工程学院未来媒体研究中心。 💡 毒舌点评论文敏锐地抓住了“说话→唱歌”的域迁移痛点，并构建了首个唱歌头深度伪造数据集SHDF，为社区填补了重要的评估空白。然而，方法论层面新意有限，其面部语义对比学习与差分权重融合的架构本质上是Alpha-CLIP与预训练唇读模型的组合，且手工设定的调制向量显得过于工程化，依赖人工调参，缺少自适应的优雅性。此外，开源信息极为模糊，仅有项目页面但代码、模型权重、数据集下载链接均未明确提供，严重影响了工作的实用参考价值与可复现性。 📌 核心摘要本论文针对现有音视频深度伪造检测方法在“唱歌”场景下性能大幅退化的问题，首次将检测场景从“说话”扩展到“唱歌”。为填补基准空白，作者构建了Singing Head DeepFake（SHDF）数据集，包含2600段真实唱歌视频和3000段由节奏感知生成模型合成的伪造视频。方法上，提出Text-guided Audio-Visual Forgery Detection（T-AVFD）框架，核心是利用Alpha-CLIP与多粒度文本描述进行对比学习，提取泛化的面部真实性模式（FAPL），并通过多模态差分权重学习（MMDWL）动态融合面部语义模式与预训练唇读模型提取的音视频对齐特征。实验在三个说话数据集（AVLips、FKAV、THB）及新提出的SHDF上大幅领先无监督基线，尤其在SHDF上AUC从接近50%的随机水平提升至80.2%，并在多种图像扰动下保持鲁棒性。该工作为音视频伪造检测提供了更具挑战性的评测基准和一种可行的跨场景泛化策略。主要局限性在于检测仍为二分类，缺乏伪造溯源能力，且数据集规模和生成器多样性仍可进一步扩充。 ...

FutureOmni: Evaluating Future Forecasting from Omni-Modal Context for Multimodal LLMs

📄 FutureOmni: Evaluating Future Forecasting from Omni-Modal Context for Multimodal LLMs #音视频问答 #指令微调 8/10 | 创新 1.3/2 | 严谨 1.2/1.5 | 实验 1.1/1.5 | 清晰 0.7/1 | 影响 1.1/1.5 | 开源 1.1/1.5 | 复现 0.3/0.5 | 工程 1.2/1.5 🔥 8/10 | 前25% | #音视频问答 | #指令微调 | arxiv 👥 作者与机构第一作者：Qian Chen（复旦大学，上海）通讯作者：Jinlan Fu（复旦大学，上海）作者列表：Qian Chen（复旦大学，上海）、Jinlan Fu（复旦大学，上海）、Changsong Li（复旦大学，上海；上海创新研究院）、Min Zhang（哈尔滨工业大学，深圳）、See-Kiong Ng（新加坡国立大学）、Xipeng Qiu（复旦大学，上海；上海创新研究院） 💡 毒舌点评 FutureOmni 精准地抓住了当前多模态 LLM 评估中“回顾性理解”泛滥而“前瞻性预测”缺失的真实痛处，尤其是首次将音频拉入未来预测评估的核心，这使得它天生比纯视觉的未来预测基准高出一个段位。然而，OFF 训练策略本质是标准指令微调加上因果推理数据，在方法论上缺乏令人惊喜的架构创新，更像是一次精心设计的数据集和评估框架贡献，而非全新的建模范式。 📌 核心摘要要解决的问题：现有多模态大语言模型（MLLM）评估主要聚焦于回顾性理解，忽视了从音视频联合上下文中预测未来事件的能力，尤其是音频模态在预测中的关键作用长期未被系统性地评估。方法核心：构建了首个面向 Omni-modal 未来预测的基准测试 FutureOmni（含 919 个视频、1,034 条多选 QA），并提出 OFF （Omni-Modal Future Forecasting）训练策略。该策略基于 7, 761 条指令微调数据，训练模型基于历史音视频片段进行因果推理和预测。与已有方法的不同：区别于纯视觉（VLEP、IntentQA）或纯文本的未来预测基准，FutureOmni 首次将音频模态作为预测的核心信息来源。引入了四种对抗性干扰项（仅视觉、仅音频、延迟、逆因果），迫使模型进行真正的跨模态因果推理。主要实验结果：在 20 个模型上进行了评估，表现最佳的商用模型 Gemini 3 Flash 准确率仅为 64.8%，而最强开源 Omni 模型 Qwen3-Omni 为 53.05%。OFF 训练策略使得 Qwen2.5-Omni 在语音密集型场景中提升了近 10%（37.83% → 47.75%），video-SALMONN 2 提升了 3.87%。此外，OFF训练还展现了对通用音视频基准的泛化能力提升。模型 Cartoon Edu Emerg Surv Daily Movie Game Doc Avg AVicuna 7B 31.62 39.00 26.09 35.21 32.81 28.19 33.73 20.83 30.37 VideoLLaMA2 7B 43.59 47.00 29.35 53.52 40.62 32.60 57.83 31.94 40.75 Qwen2.5-Omni 3B 37.61 51.00 29.35 57.75 35.94 32.16 51.81 25.00 38.91 video-SALMONN 2 7B 43.59 55.00 39.13 57.04 48.44 40.97 57.83 34.72 46.03 Qwen3-Omni 30B 52.94 68.00 32.88 62.71 59.05 45.60 62.65 49.25 53.05 Gemini 3 Flash 62.71 75.00 58.70 80.28 68.75 59.03 65.06 53.47 64.80 GPT-4o (video-only) 44.06 65.00 34.78 57.74 52.34 50.22 51.80 36.11 49.70 实际意义：为多模态 LLM 的预测推理能力提供了标准化的评估框架，有望推动自动驾驶、人机交互等需要前瞻性感知的应用场景研究。主要局限性：数据集规模相对较小（919个视频），视频时长分布不均，中长视频样本不足导致分析结论可能不稳定。OFF 训练策略创新性有限。评估仅限选择题形式，缺乏开放式生成评估，可能无法完整反映模型的预测能力。 🔗 开源详情代码：提供了 GitHub 链接：https://github.com/OpenMOSS/FutureOmni 模型权重：未提供 OFF 微调后的模型检查点。数据集：FutureOmni 评测基准和 FutureOmni-7K 指令微调数据集可通过上述 GitHub 仓库获取。 Demo：未提及。复现材料：训练和推理配置见附录，代码仓库提供了实现脚本。论文本身未提供可直接运行的完整训练配置文件或详细的数据预处理脚本。 🏗️ 方法概述和架构 FutureOmni 的核心方法包括基准构建流水线、评估框架设计和 OFF 训练策略三大部分。 ...

Group Cognition Learning: Making Everything Better Through Controlled Two-Stage Agents Collaboration

📄 Group Cognition Learning: Making Everything Better Through Controlled Two-Stage Agents Collaboration #音视频理解 #多模态模型 7.3/10 | 创新 1.5/2 | 严谨 1.2/1.5 | 实验 1.3/1.5 | 清晰 0.9/1 | 影响 1/1.5 | 开源 0/1.5 | 复现 0.3/0.5 | 工程 1.1/1.5 ✅ 7.3/10 | 前50% | #音视频理解 | #多模态模型 | arxiv 👥 作者与机构第一作者：Chunlei Meng（复旦大学智能机器人研究院与先进制造技术学院）通讯作者：Chun Ouyang（复旦大学智能机器人研究院与先进制造技术学院）作者列表：Chunlei Meng（复旦大学）、Pengbin Feng（南加州大学）、Rong Fu（澳门大学）、Hoi Leong Lee（玻璃市马来西亚大学）、Xiaojing Du（阿德莱德大学）、Zhaolu Kang（北京大学）、Zeyu Zhang（澳大利亚国立大学）、Weilin Zhou（新疆大学）、Chun Ouyang（复旦大学）、Zhongxue Gan（复旦大学） 💡 毒舌点评本文用“治理化协作”这一概念为多模态融合引入了清晰的控制流，选择性交互和共识形成两个阶段的设计相当完整，消融实验也很扎实。但整篇像是多个精巧loss拼凑成的代理系统，四类代理各司其职却也让方法过于臃肿，超参数敏感性实验只覆盖了少数关键项，且没有公开代码，复现难度较高。 📌 核心摘要要解决的问题：多模态学习中常见的模态支配（梯度集中于最强模态）和伪模态耦合（过拟合偶然共现），导致模型脆弱且可解释性差。方法核心：提出“群体认知学习 (GCL)”，用两阶段治理化协议取代隐式融合。阶段一（选择性交互）由路由代理提议有向交互路径，审计代理基于边际预测增益动态控制信息传递；阶段二（共识形成）由公共因子代理提取共享语义，聚合代理依据贡献感知的权重形成最终预测。与已有方法的区别：不同于简单加权融合、事后解耦或基于梯度的优化干预，GCL 首次将交互过程显式地建模为可审计、可门控的代理系统协议，在样本级别根据预测增益直接决定是否进行跨模态通信，并显式惩罚冗余耦合。主要实验结果：在 CMU-MOSI (MAE 0.685, Acc-7 49.06), CMU-MOSEI (MAE 0.520, Acc-7 55.36) 和 MIntRec (Acc 72.74) 上达到 SOTA，消融表明去掉选择性交互或共识模块都导致性能显著下降，在噪声和置换压力测试及跨任务/跨模态组合泛化实验中鲁棒性明显优于基线。实际意义：为多模态情感分析和意图识别提供了一种可解释、抗噪声的融合范式，有望迁移到其他需要审计交叉模态贡献的领域（如健康监测、法庭证据合成）。主要局限性：代理结构复杂、超参数较多，训练需要额外的教师增益信号，且论文未公开代码，工业落地前需更多验证。同时，所有实验基于预提取特征，缺少端到端训练验证。 🔗 开源详情代码：论文中未提及代码链接模型权重：论文中未提及数据集：论文使用了 CMU-MOSI、CMU-MOSEI、MIntRec、CREMA-D、UCF101、AVE、Food101 等公开数据集，但未提供直接下载链接 Demo：论文中未提及复现材料：论文中给出了部分实验环境与超参数（PyTorch、Adam、batch size 128、weight decay \(1\times 10^{-4}\)、A100 32GB、早停 patience 6），含附录 A/B，但未提供代码、检查点或配置文件论文中引用的开源项目：未提及（论文仅以参考文献形式引用各方方法，未给出代码仓库或项目链接） 🏗️ 方法概述和架构 GCL 是一个两阶段治理化多模态学习框架。输入为三种模态的语言 (l)、声学 (a)、视觉 (v) 经过模态特定编码器得到的独立特征，输出为最终预测。整个流程由四个功能显式定义、协同工作的代理执行，不依赖隐式融合。 ...