多模态模型

Cosmos 3: Omnimodal World Models for Physical AI

📄 Cosmos 3: Omnimodal World Models for Physical AI #多模态模型 #扩散模型 #音频生成 #强化学习 10/10 | 创新 1.8/2 | 严谨 1.4/1.5 | 实验 1.5/1.5 | 清晰 1/1 | 影响 1.3/1.5 | 开源 1.5/1.5 | 复现 0.5/0.5 | 工程 1.3/1.5 🔥 10/10 | 前10% | #音频生成 | #强化学习 | #多模态模型 #扩散模型 | arxiv 👥 作者与机构论文作者：NVIDIA（英伟达）。贡献者来自NVIDIA的多个部门，包括模型架构、Reasoner预训练/后训练数据、生成器数据、训练、基础设施、结果和基准测试等团队。 💡 毒舌点评 Cosmos 3是一篇典型的“巨无霸”式工业技术报告，旨在通过发布一个全模态（语言、图像、视频、音频、动作）统一模型，为Physical AI（机器人、自动驾驶）提供一个通用的骨干网络。其核心动机——打破理解、生成和行动模型的分离——是清晰且有价值的。模型在架构上（MoT）和训练策略上（分阶段、多模态课程）都有扎实的工程实践，并在多个SOTA榜单上取得了优异成绩。然而，它的优势很大程度上源于NVIDIA庞大的资源和数据工程能力，而非基础科学层面的颠覆性创新。论文本身是出色的工程集成和系统设计的展示，但在分析某个具体子问题（如长尾物理规律的建模、跨具身迁移的理论基础）时深度有限。更关键的是，作为一篇技术报告，其“自我声明”的局限性部分（sim-to-real gap等）论述得相当克制，甚至可以说是轻描淡写，对于一篇宣称要解决真实世界Physical AI问题的工作来说，这需要读者自己更批判性地审视。开源程度很高，但模型的巨大规模和复杂的基础设施栈，使得真正的“可复现性”对普通研究者而言几乎是一个伪命题。 📌 核心摘要 Cosmos 3 是一个统一的全模态世界模型家族，旨在联合处理和生成语言、图像、视频、音频和动作序列，以支持Physical AI（具身智能）。其核心架构是基于Mixture-of-Transformers (MoT) 的双塔结构：一个自回归Reasoner路径负责理解和推理，一个扩散Generator路径负责生成，两者通过双流联合注意力机制交互。模型采用多阶段训练流程，Reasoner先在大规模图文/视频-文本数据上预训练，再在Physical AI任务上微调；Generator则采用渐进式多模态课程训练，从图像、视频、音频预训练开始，逐步引入动作和传输数据进行中期训练，最后在特定领域数据上进行后训练。评估显示，Cosmos 3在多个理解与生成基准测试上达到或超越了当时的开源及部分闭源模型的最佳水平，其后训练版本在Artificial Analysis榜单上被评为最佳开源文生图和图生视频模型，在RoboArena上被评为最佳机器人策略模型。论文同时开源了代码、模型权重、合成数据集和评估基准。 ...

Foley-Omni: A Unified Multimodal Generation Model from Task-Level Audio Synthesis to Complete Video Soundtrack Generation

📄 Foley-Omni: A Unified Multimodal Generation Model from Task-Level Audio Synthesis to Complete Video Soundtrack Generation #音频生成 #语音合成 #音乐生成 #多模态模型 #课程学习 #扩散模型 7/10 | 创新 1.6/2 | 严谨 1.3/1.5 | 实验 1.1/1.5 | 清晰 1/1 | 影响 1.4/1.5 | 开源 0.3/1.5 | 复现 0.3/0.5 | 工程 0/1.5 ✅ 7/10 | 前25% | #音频生成 | #课程学习 | #语音合成 #音乐生成 | arxiv 👥 作者与机构作者：Ye Tao, Lupeng Liu, Xuenan Xu, Jiasun Feng, Jiarui Wang, Ying Qin, Shuiyang Mao, Wei Liu, Shuai Wang 机构：南京大学智能科学与技术学院，Video Rebirth，上海交通大学，北京交通大学，上海人工智能实验室 ...

MoDAl: Self-Supervised Neural Modality Discovery via Decorrelation for Speech Neuroprosthesis

📄 MoDAl: Self-Supervised Neural Modality Discovery via Decorrelation for Speech Neuroprosthesis #自监督学习 #对比学习 #多模态模型 #参数高效微调 6.6/10 | 创新 1.5/2 | 严谨 1.2/1.5 | 实验 1/1.5 | 清晰 1/1 | 影响 0.6/1.5 | 开源 0.3/1.5 | 复现 0.5/0.5 | 工程 0.5/1.5 ✅ 6.6/10 | 前25% | #自监督学习 | #自监督学习 | #对比学习 #多模态模型 | arxiv 👥 作者与机构作者：Yuanhao Chen, Peter Chin 机构：Dartmouth College, Hanover, NH, USA 💡 毒舌点评一篇动机良好、理论包装扎实的工作，但将一个在单个数据集、单个参与者上的工程优化，拔高到了“模态发现”的哲学高度。最大的卖点——Area 44信号的“起死回生”——其普适性存疑，且缺乏与最先进级联系统的公平比较。理论命题（Proposition 3.1 & 3.2）虽优雅，但与现实训练条件（τ为有限值）脱节，更像一个解释现象的后验故事而非设计指南。代码未开源是硬伤，严重阻碍了验证与复现。 ...

OmniHalluc-L: Counterfactual Benchmarking and Modality-Perturbation Reliability Calibration for Long-Form Omni Hallucination

📄 OmniHalluc-L: Counterfactual Benchmarking and Modality-Perturbation Reliability Calibration for Long-Form Omni Hallucination #多模态模型 #模型评估 7.8/10 | 创新 1.6/2 | 严谨 1.3/1.5 | 实验 1.2/1.5 | 清晰 1/1 | 影响 1/1.5 | 开源 0.5/1.5 | 复现 0.5/0.5 | 工程 0.7/1.5 ✅ 7.8/10 | 前25% | #多模态模型 | #模型评估 | arxiv 👥 作者与机构 Zixuan Dong, Jiafu Tang, Zhide Lei, Zhe Cao, Zijie Zhang, Yanghai Wang, Shihao Li, Xiaodong Wang, Baoyun Peng, Jiaheng Liu. 作者来自国防科技大学和南京大学。 ...

SegTune: Structured and Fine-Grained Control for Song Generation

📄 SegTune: Structured and Fine-Grained Control for Song Generation #音乐生成 #生成模型 #多模态模型 #数据增强 #参数高效微调 8.5/10 | 创新 1.5/2 | 严谨 1.2/1.5 | 实验 1.1/1.5 | 清晰 1/1 | 影响 1.5/1.5 | 开源 0.2/1.5 | 复现 0.5/0.5 | 工程 1.5/1.5 🔥 8.5/10 | 前25% | #音乐生成 | #数据增强 | #生成模型 #多模态模型 | arxiv 👥 作者与机构 Yuejiao Wang, Zihao Ji, Pengfei Cai, Xu Li, Haorui Zheng, Zewen Song, Zhongliang Liu, Chen Zhang, Pengfei Wan。机构为Kling Team, Kuaishou Technology；University of Science and Technology of China；Peking University。论文在Kuaishou Technology的Kling Team实习期间完成。 ...

SketchSong: Hierarchical Song Generation with Sketch Planning and Fine-Grained Multi-Track Modeling

📄 SketchSong: Hierarchical Song Generation with Sketch Planning and Fine-Grained Multi-Track Modeling #音乐生成 #音频生成 #多模态模型 #数据增强 #低资源 8.6/10 | 创新 1.5/2 | 严谨 1.2/1.5 | 实验 1.3/1.5 | 清晰 1/1 | 影响 1.5/1.5 | 开源 0.2/1.5 | 复现 0.5/0.5 | 工程 1.4/1.5 🔥 8.6/10 | 前25% | #音乐生成 | #数据增强 | #音频生成 #多模态模型 | arxiv 👥 作者与机构论文作者：Xiaoyue Duan, Nanxing Hu, Yutang Feng, Xudong Yan, Jiatao Chen, Jinchao Zhang, Jie Zhou 机构：腾讯微信AI模式识别中心 (Pattern Recognition Center, WeChat AI, Tencent Inc.) 通讯作者：Jinchao Zhang (†Work done during an internship at WeChat AI, Tencent Inc. ‡Corresponding author) 💡 毒舌点评这篇工作在概念层面抓住了当前歌曲生成模型的两个痛点：宏观结构规划不足和伴奏部分建模粗糙。提出的“草图规划”和“四轨建模”思路直接、清晰，且能互补。实验设计比较扎实，消融研究有力地支撑了各自组件的贡献。然而，方法的工程实现存在明显的“补丁”感，尤其是第二阶段多轨道模型却沿用第一阶段（或基线）为混合信号训练的伴奏解码器，这就像声称做了精细分轨烹饪，最后却用同一个大锅炒在一起，严重削弱了“细粒度”声称的冲击力。论文在局限性部分诚实地指出了这一点，但这也使得其作为一项完整工作的贡献打了折扣。与经过充分后训练（如DPO、对齐优化）的开源系统相比，本系统在部分主观指标上仍有差距，这进一步说明了其“潜力”与“现状”的差距。总体而言，这是一篇扎实的系统性工作，但缺乏一个令人惊艳的、完全自洽的闭环。 ...

SpeakerCard-1M: An Evidence-Grounded Speaker Card Corpus for In-the-Wild Speaker Verification

📄 SpeakerCard-1M: An Evidence-Grounded Speaker Card Corpus for In-the-Wild Speaker Verification #说话人验证 #多模态模型 #数据集 #自监督学习 #预训练 7.4/10 | 创新 1.3/2 | 严谨 1.2/1.5 | 实验 1.2/1.5 | 清晰 1/1 | 影响 0.8/1.5 | 开源 0.2/1.5 | 复现 0.5/0.5 | 工程 1.2/1.5 ✅ 7.4/10 | 前25% | #说话人验证 | #自监督学习 | #多模态模型 #数据集 | arxiv 👥 作者与机构 Junyi Peng, Oldřich Plchot, Xiao Song, Dading Chong, Lichun Fan, Hang Su, Themos Stafylakis, Junjie Li, Kong Aik Lee, Shuai Wang, Jan Černocký （论文未在摘要中提供具体机构，通常包括布拉格捷克技术大学、小米、OPPO等） ...

SVHalluc: Benchmarking Speech-Vision Hallucination in Audio-Visual Large Language Models

📄 SVHalluc: Benchmarking Speech-Vision Hallucination in Audio-Visual Large Language Models #语音识别 #多模态模型 8.7/10 | 创新 1.5/2 | 严谨 1.2/1.5 | 实验 1.5/1.5 | 清晰 1/1 | 影响 1.5/1.5 | 开源 0/1.5 | 复现 0.5/0.5 | 工程 1.5/1.5 🔥 8.7/10 | 前25% | #语音识别 | #多模态模型 | arxiv 👥 作者与机构作者：Chenshuang Zhang, Kyeong Seon Kim, Chengxin Liu, Tae-Hyun Oh 机构：KAIST 💡 毒舌点评这篇论文填补了一个明显但重要的空白：当前的音频-视觉幻觉基准大多盯着狗叫警笛，而忽略了更复杂、更日常的语音内容本身可能引发的“胡说八道”。作者很敏锐地抓住了这一点。然而，作为一个基准测试论文，它的“方法”本质上是一套精心设计的问卷和数据构建流水线，技术深度有上限。最大的槽点在于数据集完全依赖YouCook2，这意味着评测场景被锁定在“厨房教学解说”这一高度同质化的模式上，对现实世界中多变的语音风格（对话、旁白、嘈杂环境）和视频内容的泛化能力存疑。所有任务都用选择题，这更像是在测“辨别力”而非真正的“生成式幻觉”，可能高估了模型在实际对话场景中的可靠性。尽管如此，它系统性地揭示了开源模型在语音-视觉对齐上的无能，以及与商业模型的巨大鸿沟，这点功劳必须认可。 📌 核心摘要本文指出，现有的音频-视觉大语言模型（AV-LLMs）幻觉基准主要评估环境声音（如狗叫）引发的幻觉，忽略了人类语音内容本身蕴含的丰富语义和时间结构可能导致的、更根本的跨模态对齐失败。为此，作者提出了SVHalluc，这是首个专门评估AV-LLMs中语音-视觉幻觉的综合基准。该基准从“语义幻觉”和“时间幻觉”两个互补维度进行诊断，并分别为每个维度设计了三个由粗到细的任务（共六个）。在六个开源及商业AV-LLMs上的零样本评估表明，开源模型在多个任务上表现接近随机猜测，而Gemini 2.5 Pro显著优于所有开源模型，揭示了巨大差距。深入分析表明，模型失败的根源在于有限的跨模态信息整合与推理能力，而非单模态感知（如语音识别）的不足。 🔗 开源详情代码：论文中未提及代码链接。模型权重：论文中未提及具体模型权重的下载链接。论文评估了多个开源模型（Qwen3-Omni, Qwen2.5-Omni, video-SALMONN 2, VideoLLaMA 2）和商业模型（Gemini 2.5 Pro），但未提供它们的HuggingFace或ModelScope链接。数据集：论文构建了名为 SVHalluc 的基准数据集。该数据集基于公开的 YouCook2 数据集构建，使用了其验证集，并通过自动化流程（使用Whisper模型进行语音转写，GPT模型辅助生成负样本）进行增强。论文中未提供SVHalluc数据集本身的直接下载链接，但提供了项目主页：https://chenshuang-zhang.github.io/projects/svhalluc/，可能包含获取信息。 Demo：论文中未提及。复现材料：数据集构建细节：论文详细描述了SVHalluc数据集的自动构建流程，包括使用GPT模型提取动作和对象的提示词（见附录B）、数据集质量控制策略（见附录C）。评估指标：对于二分类任务，报告了准确率、精确率、召回率和F1分数；对于多分类任务，报告了准确率。实验设置：论文明确指出所有评估均在零样本（zero-shot）设置下进行，无需额外训练。论文中引用的开源项目： YouCook2: 数据集。论文中用于构建SVHalluc基准。未提供直接链接。 Whisper: 自动语音识别模型。论文中用于获取视频的语音转录文本。项目链接：https://github.com/openai/whisper Silero-VAD: 语音活动检测模型。论文中用于生成语音活动检测的伪标签，以评估模型的时间定位能力。项目链接：https://github.com/snakers4/silero-vad 🏗️ 方法概述和架构本文提出的方法是构建名为SVHalluc的基准测试，用于诊断AV-LLMs中的语音-视觉幻觉。其核心架构与流程可分为两个主要部分：基准任务设计和数据集构建流水线。 ...

The DeepSpeak-Agentic Dataset

📄 The DeepSpeak-Agentic Dataset #语音合成 #语音识别 #多模态模型 8.7/10 | 创新 1.6/2 | 严谨 1/1.5 | 实验 1.4/1.5 | 清晰 1/1 | 影响 1/1.5 | 开源 1/1.5 | 复现 0.5/0.5 | 工程 1.2/1.5 🔥 8.7/10 | 前50% | #语音合成 | #语音识别 | #多模态模型 | arxiv 👥 作者与机构 Sarah Barrington (University of California, Berkeley), Maty Bohacek (Stanford University), Hany Farid (University of California, Berkeley). *表示共同第一作者。 💡 毒舌点评这篇论文做了一件重要且及时的事：为快速兴起的实时交互式AI代理建立一个大规模、多模态的数据集。数据集本身（37小时视听对话）和为构建它而设计的自动化系统是主要贡献。然而，审稿人必须指出几个显著的短板。首先，论文的核心技术挑战——代理的响应延迟（平均3.79秒）——只是被报告了，却没有进行任何优化尝试或深入分析其对交互质量和检测的影响，这使其“基准”意义打折扣。其次，实验评估部分虽全面，但对数据集特性的挖掘不够深入。例如，论文提到了人类判断的线索，但未深入分析不同线索（如视觉、听觉、对话模式）在不同代理配置或场景下的出现频率差异。再者，论文自称解决了“实时交互”的记录问题，但方法概述部分对系统架构的描述过于简略，缺乏关键组件（如会话同步、错误处理、延迟补偿）的细节，使得“可扩展自动化系统”的 claim 缺乏足够的技术支撑。最后，关于隐私、伦理的讨论仅停留在“IRB批准”和“内容审核”层面，对于公开发布包含人脸、声音的对话数据可能引发的长期风险（如声音克隆、行为模仿）的深入探讨缺失。总体而言，这是一个好的资源论文，但在技术深度和反思性上仍有不足。 📌 核心摘要本文介绍了DeepSpeak-Agentic数据集，这是一个包含200个、超过37小时实时交互式人机对话的视听数据集，旨在为研究快速发展的具身AI代理提供一个基准。作者构建了一个可扩展的自动化数据采集系统，该系统能随机组合不同的LLM（如Llama-4, GPT-4o）、合成语音（ElevenLabs等）和视觉形象（Tavus, HeyGen）来创建AI代理，并与通过Prolific招募的人类参与者进行随机配对对话。对话内容涵盖四种场景。基于该数据集的分析表明：1）人类能快速识别AI代理（80.5%在10秒内），主要线索是不自然的动作和声音；2）现有取证检测器表现不佳，最佳音频和视频检测器的等错误率（EER）分别高达23%和33%，仅文本检测器（Desklib）表现良好（EER 8%）。该数据集公开发布，可用于多模态取证评估、人机交互研究以及未来AI代理的基准测试。 ...

Wavelet as Tokenizer: Preliminary Results on a Shared Wavelet Token Schema for Natural Signals

📄 Wavelet as Tokenizer: Preliminary Results on a Shared Wavelet Token Schema for Natural Signals #多模态模型 5.4/10 | 创新 1.5/2 | 严谨 1.2/1.5 | 实验 0.6/1.5 | 清晰 0.9/1 | 影响 0.7/1.5 | 开源 0/1.5 | 复现 0.3/0.5 | 工程 0.2/1.5 📝 5.4/10 | 后50% | #多模态模型 | #多模态模型 | arxiv 👥 作者与机构作者：Shenghao Ding 机构：Yet Another AI 💡 毒舌点评这是一篇典型的“想法很有趣，但离实用还很远”的初步探索论文。作者试图为音频、图像、视频这三种模态寻找一个基于小波的统一令牌语法，这个动机本身是有价值的。然而，论文的局限性过于明显，以至于其核心贡献被实验的玩具性质所削弱。使用\(64\times64\)的图像和\(8\)帧视频，在极小的数据集上只做自编码重建，然后声称看到了“跨模态的希望”，这说服力不足。更关键的是，作为一个“令牌化”方案，它完全没有进行离散化、熵编码，也没有任何下游生成任务的验证，这使其本质上只是一篇关于“共享小波系数表示”的技术报告，而非一个完整的令牌化解决方案。写作清晰，自我定位诚实（自称“初步结果”），但这也意味着它离顶会要求的完整贡献和扎实验证相去甚远。 📌 核心摘要本文提出了一个称为“Wavelet as Tokenizer (WAT)”的框架，旨在探索能否为音频、图像和视频定义一种基于小波系数的统一令牌语法。论文采用了一级Haar离散小波变换（DWT）作为前端，将不同模态信号转换为系数令牌，每个令牌包含值和显式元数据（模态、等级、尺度、子带、位置）。模型使用一个共享的、无注意力机制的令牌级连续潜在编码器/解码器（仅含LayerNorm-MLP）进行处理，并通过模态特定的逆变换重建信号。主要实验发现包括：1）在小型自编码任务中，共享的波系数令牌方案对三种模态均可行；2）对音频系数进行缩放（\(s_{\mathrm{audio}}=4\)）对于平衡各模态表现至关重要；3）基于波系数能量的非参数稀疏令牌选择是一种有效的跨模态分配信号；4）简单的加性元数据嵌入并非总是有益，其效果模态依赖且不一致。在匹配的连续潜在标量预算下，共享模型在图像和视频重建上优于独立模型。然而，该工作明确被定位为早期实证研究，存在根本性局限：实验在极低分辨率和小数据集上进行，结果为单次运行；采用连续令牌而非离散化，因此无法评估真正的比特率或进行率失真比较；模型架构简单；完全缺乏下游生成任务的验证。论文支持统一波形令牌模式和稀疏接口的可行性，但尚未建立通用的离散词汇表。 🔗 开源详情代码：论文中未提及代码链接。模型权重：论文中未提及模型权重链接。数据集：论文中提及使用以下公开数据集，但未提供具体获取链接： Speech Commands (v0.02) EuroSAT RGB DAVIS 2017 Demo：论文中未提及。复现材料：论文在附录A中提供了详细的实验配置，包括数据预处理方式、共享自编码器架构参数（token宽度32，潜在维度16，隐藏维度64）、优化器设置（AdamW，学习率\(10^{-3}\)）、批量大小（2）、训练步数（300）以及评估细节。这些信息可用于复现实验，但论文中未提供预训练权重或完整代码。论文中引用的开源项目：论文在相关工作和背景部分引用了多个开源项目（如Cosmos Tokenizer, VQ-VAE, VQGAN, OmniTokenizer, MAGVIT, SoundStream, EnCodec, WavTokenizer, JPEG 2000），但均未提供具体链接。 🏗️ 方法概述和架构 WAT框架的核心是定义一个跨模态（1D音频、2D图像、3D视频）的统一、结构化的小波系数令牌，并证明一个共享的神经网络可以处理这些令牌以实现信号重建。其方法可分解为以下关键组件和步骤： ...