流匹配 | 语音/音频论文速递

AlignSep: Temporally-Aligned Video-Queried Sound Separation with Flow Matching

📄 AlignSep: Temporally-Aligned Video-Queried Sound Separation with Flow Matching #语音分离 #流匹配 #音视频 #基准测试 #生成模型 🔥 8.0/10 | 前25% | #语音分离 | #流匹配 | #音视频 #基准测试学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：未说明（论文注明 Xize Cheng, Chenyuhao Wen, Tianhao Wang 为平等贡献）通讯作者：未说明作者列表：Xize Cheng（浙江大学），Chenyuhao Wen（浙江大学），Tianhao Wang（独立作者），Yongqi Wang（浙江大学），Zehan Wang（浙江大学），Rongjie Huang（浙江大学），Tao Jin（浙江大学），Zhou Zhao（浙江大学） 💡 毒舌点评本文最大的亮点在于将流匹配生成范式成功引入视频查询声音分离任务，并系统性地分析了该任务作为“多条件生成”与传统流匹配任务的本质区别，这种对任务特性的深刻洞察比单纯提升几个点更有价值。然而，其构建的VGGSound-Hard新基准仅包含118个测试对，虽然难度高但规模偏小，其对结论的普适性支撑稍显不足；此外，作为生成模型，其推理速度（2.17 FPS）距实时处理仍有差距，论文中未探讨如何在效率上做进一步优化。 🔗 开源详情代码：论文明确承诺在接收后公开代码仓库，但未提供具体链接（论文中未提及代码链接）。模型权重：论文明确承诺在接收后公开预训练模型权重（未提及具体链接）。数据集：VGGSound-Hard作为新提出的基准，论文未说明其具体下载方式，但提及由VGGSound测试集筛选而来。VGGSound-Hard的筛选脚本可能会随代码公开。 Demo：论文提供了项目主页链接 https://AlignSep.github.io ，其中包含更多结果和音频示例，可视为一种在线演示。复现材料：附录A提供了非常详细的实现细节，包括音频VAE（表4）和向量场估计器（表5）的架构超参数、数据预处理方式、推理步数选择等关键信息。引用的开源项目：论文依赖并引用了多个开源项目：CAVP视觉编码器 (Luo et al., 2023), 音频VAE (Liu et al., 2023a), BigVGAN声码器 (Lee et al., 2022), ImageBind (Han et al., 2023) 等。 📌 核心摘要本文旨在解决视频查询声音分离（VQSS）任务中现有方法面临的两大挑战：1) 在声源同质（如多只同类狗叫）的干扰下，因缺乏精细时序建模而无法区分屏幕内外声音；2) 基于掩码的判别式方法在处理重叠声轨时易产生频谱空洞和不完整分离。方法核心是提出AlignSep，这是首个基于条件流匹配的生成式VQSS模型。与已有方法不同，AlignSep通过设计一个时序对齐的向量场估计器（采用跨模态特征拼接和无交叉注意力的Transformer），并配合预训练的CAVP视觉时序编码器，显式地学习和维护音视频之间的时序对应关系，从而在生成过程中实现精确对齐。与已有方法相比，新在两点：1) 范式上，采用生成式流程替代判别式掩码预测，能更好地处理重叠信号并避免频谱空洞；2) 建模上，明确引入并强化了时序对齐机制，而非仅依赖语义特征。此外，论文深入分析了VQSS作为多条件生成任务对标准流匹配范式提出的新挑战。主要实验结果显示，AlignSep在三个基准上均达到最优性能。在MUSIC-Clean和VGGSound-Clean上，其时序对齐准确率（TA-V）分别达到66.67%和96.88%，大幅超越最强基线OmniSep（分别为68.89%和81.25%）。在专门为测试时序对齐能力构建的更具挑战性的VGGSound-Hard基准上，AlignSep的TA-V达到95.76%，而OmniSep仅为76.27%。人类感知评估（MOS）也证实了AlignSep在噪声残留、音视频一致性、音频质量和整体评分上的优势。实际意义在于，AlignSep为解决真实复杂视听场景下的声音分离问题提供了新的、更鲁棒的框架，有助于提升视频编辑、内容理解等应用的体验。主要局限性包括：1) 新提出的VGGSound-Hard基准规模较小（仅118对）；2) 作为生成模型，推理效率有提升空间；3) 论文未深入探讨该生成范式在更复杂、多源场景下的扩展能力。 ...

Aurelius: Relation Aware Text-to-Audio Generation At Scale

📄 Aurelius: Relation Aware Text-to-Audio Generation At Scale #音频生成 #基准测试 #流匹配 #数据集 #模型评估 🔥 8.0/10 | 前25% | #音频生成 | #基准测试 #流匹配 | #基准测试 #流匹配学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Yuhang He（微软研究院 Microsoft Research）通讯作者：Yuhang He（微软研究院 Microsoft Research）作者列表：Yuhang He（微软研究院 Microsoft Research），He Liang（未说明），Yash Jain（牛津大学计算机系），Andrew Markham（牛津大学计算机系），Vibhav Vineet（微软研究院 Microsoft Research） 💡 毒舌点评这篇论文的亮点在于它没有追逐提出又一个“全新”的生成模型，而是系统性地构建了大规模、高质量的基准数据集（AudioEventSet, AudioRelSet）和评估体系，直指当前文本到音频生成领域在关系建模上的系统性短板。其短板在于，论文本身提出的AudioRelGen框架核心创新相对有限，更多是基于现有最强模型（如TangoFlux）的微调和评估，缺乏一个能够从根本上解决关系建模难题的、具有强原创性的生成架构。 🔗 开源详情代码：提供代码仓库链接：https://github.com/yuhanghe01/Aurelius 模型权重：论文中未提及公开微调后或专门训练的模型权重。基准测试中使用的是各基线模型的官方公开权重。数据集：AudioEventSet和AudioRelSet已公开，可通过项目主页或代码仓库获取。论文描述了数据集获取和构建方式。 Demo：未提及在线演示。复现材料：提供了训练数据集构建策略、评估协议（MSR）、基线模型的推理设置（表III）以及代码。但关键训练超参数（微调/从头训练的学习率、batch size等）未在论文中说明。论文中引用的开源项目：依赖的开源模型/工具包括：PANNs（用于特征提取和微调）、VGGish、Qwen2系列大语言模型（用于智能体实验）、各基准TTA模型的官方代码库（如AudioLDM, TangoFlux等）。数据来源包括freesound.org和FSD50K。 📌 核心摘要问题：现有的文本到音频（TTA）生成模型在处理需要理解音频事件间复杂关系（如空间、时间、逻辑关系）的文本描述时能力严重不足，这限制了TTA技术向更复杂、更真实的应用场景发展。方法核心：本文提出Aurelius框架，其核心是构建两个大规模、结构化的语料库：包含110个事件类别的AudioEventSet和包含100种关系的AudioRelSet。通过解耦的事件-关系组合策略，可系统性地生成海量的<text, audio>训练对，用于评估和提升模型的“关系感知”生成能力。创新点：与之前工作（如RiTTA）相比，本文的新在于：a) 将事件和关系语料库规模提升了数量级（事件从~25到110，关系从11到100）；b) 提出了一个更全面、可扩展的关系分类法（包括嵌套组合）；c) 提供了基于解耦策略的、可大规模生成训练数据的流水线；d) 对多种主流TTA模型进行了前所未有的系统性基准测试。主要实验结果：基准测试了9个主流TTA模型。结果显示，即使是最好的模型（AudioGen， mAMSR=2.22%； TangoFlux， mAMSR=1.77%），其在关系感知指标（Presence, Relation Correctness, Parsimony）上的表现也极差（均低于15%）。微调实验表明，在Aurelius数据集上微调能显著提升模型的关系建模能力（如TangoFlux的mAMSR从1.77%提升至5.58%）。具体关键结果见下表。模型参数量 FAD ↓ mAPre (%) mARel (%) mAPar (%) mAMSR (%) AudioGen 1.5B 7.97 11.3 2.84 9.13 2.22 TangoFlux 576M 6.01 12.38 3.34 7.28 1.77 TangoFlux (微调) 576M 1.29 28.57 8.02 20.84 5.58 表：零样本基准测试（上）与微调实验（下）关键结果对比实际意义：本工作为“关系感知TTA”这一重要但被忽视的研究方向，首次提供了标准化的大规模基准数据集、评估协议和基线方法，系统地揭示了当前技术的瓶颈，为未来研究指明了方向（如需要设计能显式建模事件-关系依赖的架构）。主要局限性：a) 论文主要贡献是构建基准和揭示问题，提出的AudioRelGen框架本身（解耦生成再混合）并非解决该问题的终极方案；b) 训练数据规模（100小时）虽然远超之前相关工作，但对于真正的大规模生成模型训练可能仍显不足；c) 关系评估依赖的自动检测模型（事件分类器、关系分类器）的性能上限，可能影响评估结果的绝对准确性。 🏗️ 模型架构论文提出的AudioRelGen框架（图4）核心思想是解耦建模，其流程并非一个端到端的单一生成模型，而是一个数据生成与评估的范式： ...

Continuous Audio Language Models

📄 Continuous Audio Language Models #音频生成 #音乐生成 #自回归模型 #流匹配 #语音合成 🔥 9.5/10 | 前10% | #音频生成 #音乐生成 | #自回归模型 #流匹配 | #音频生成 #音乐生成学术质量 6.5/7 | 选题价值 1.8/2 | 复现加成 1.0 | 置信度高 👥 作者与机构第一作者：Simon Rouard（Kyutai；IRCAM-CNRS Sorbonne Univ.）通讯作者：未说明（论文未明确指定，通常对应邮箱作者为Simon Rouard和Alexandre Défossez）作者列表：Simon Rouard（Kyutai；IRCAM-CNRS Sorbonne Univ.），Manu Orsini（Kyutai），Axel Roebel（IRCAM-CNRS Sorbonne Univ.），Neil Zeghidour（Kyutai），Alexandre Défossez（Kyutai） 💡 毒舌点评这篇论文的亮点在于其系统性思维，它没有孤立地提出一个新模块，而是为“连续音频生成”这个目标设计了一整套涵盖编码、建模、采样和蒸馏的完整流水线（CALM），并通过“Pocket TTS”将学术想法落到了实处。然而，其短板在于音乐生成的实验数据集规模（400K歌曲）相比工业级模型仍显局促，这或许限制了其在最复杂音乐场景下潜力的完全展现，且论文未公开其训练数据集。 🔗 开源详情代码：论文中提及了代码仓库链接：github.com/kyutai-labs/pocket-tts (用于Pocket TTS)。主论文代码链接在摘要中提及为：iclr-continuous-audio-language-models.github.io。模型权重：明确提供了开源的“Pocket TTS”模型权重（100M参数），可在上述GitHub仓库获取。对于论文中的大型实验模型（如1.35B音乐模型），未提及是否开源。数据集：论文详述了训练所用的数据集名称（如Emilia, LAION-Disco-12M等）和规模，但未提供统一的下载链接，部分数据集可能是公共的，部分可能为内部或受限数据集。 Demo：摘要中提到了示例音频网站 iclr-continuous-audio-language-models.github.io。复现材料：提供了极其详尽的附录，包括：表14（VAE超参数）、表15（模型与训练超参数）、各任务的具体数据处理细节（附录D、F、G）、消融实验（表6，表10）、补充实验（表7，表8，表9，表11，表12，表13）、以及人类评估方法详细说明（附录H）。论文中引用的开源项目：论文主要基于并引用了以下开源项目/模型：Mimi (Défossez et al., 2024b), WavLM (Chen et al., 2021b), Helium-1 (Kyutai, 2025), Mistral 7B (Jiang et al., 2023), CLAP (Elizalde et al., 2023), SentencePiece (Kudo & Richardson, 2018), fairseq (Ott et al., 2019), Whisper (Radford et al., 2022)。 📌 核心摘要要解决什么问题：现有音频语言模型（ALM）依赖有损的离散音频令牌（如RVQ），导致生成高质量音频必须生成更多令牌，从而在保真度和计算成本之间存在根本矛盾。方法核心是什么：提出连续音频语言模型（CALM），在VAE的连续潜空间中进行自回归建模。核心是一个大型因果Transformer（长上下文）处理带噪声的历史潜变量，一个轻量Transformer（短上下文）处理干净的近期潜变量，两者结合后条件化一个小型一致性模型（MLP），以单步生成下一个干净的连续潜变量。与已有方法相比新在哪里：完全避免了有损量化，用一致性模型替代了离散模型的RQ-Transformer头或扩散模型的多步采样头，实现了质量与效率的同步提升。创新性地提出了“噪声长上下文+干净短上下文”的双Transformer设计、潜在分类器引导（Latent CFG）和潜在蒸馏（Latent Distillation）等技术。主要实验结果如何：在语音延续、文本到语音（TTS）和音乐延续任务上全面超越了最先进的离散模型基线。 TTS任务（表3）：CALM模型WER为1.81，优于F5-TTS的2.42和DSM的1.95，声学质量MUSHRA得分61.1。音乐延续任务（表4）：CALM一致性模型（4步）的FAD（0.71）优于32-RVQ RQ-Transformer基线（1.06），整体推理速度提升1.9倍，采样头速度提升5.4倍。语音延续任务（表2）：CALM在声学质量和有意义性上均超越8-RVQ RQ-Transformer。消融研究（表6）：证明短上下文Transformer和噪声增强是模型高性能的关键。实际意义是什么：使得在轻量级设备（如笔记本电脑CPU）上运行高质量的实时音频生成成为可能。开源的“Pocket TTS”（100M参数）模型实现了这一目标，具有极高的实际应用价值。主要局限性是什么：论文中音乐生成的训练数据集规模（约20K小时）相对有限；连续表示可能在某些细粒度控制上（如精确的音高、时长编辑）面临挑战；论文未提供其主训练数据集的下载链接。 🏗️ 模型架构 CALM的整体架构（图1）是一个端到端的连续自回归生成系统，由VAE编码器、双Transformer骨干和一致性模型头组成。 ...

Flow2GAN: Hybrid Flow Matching and GAN with Multi-Resolution Network for Few-step High-Fidelity Audio Generation

📄 Flow2GAN: Hybrid Flow Matching and GAN with Multi-Resolution Network for Few-step High-Fidelity Audio Generation #音频生成 #流匹配 #生成模型 #语音合成 #模型比较 🔥 8.0/10 | 前25% | #音频生成 | #流匹配 | #生成模型 #语音合成学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Zengwei Yao (Xiaomi Corp., Beijing, China) 通讯作者：Daniel Povey (Xiaomi Corp., Beijing, China, dpovey@xiaomi.com) 作者列表：Zengwei Yao (小米公司), Wei Kang (小米公司), Han Zhu (小米公司), Liyong Guo (小米公司), Lingxuan Ye (小米公司), Fangjun Kuang (小米公司), Weiji Zhuang (小米公司), Zhaoqing Li (小米公司), Zhifeng Han (小米公司), Long Lin (小米公司), Daniel Povey (小米公司) 💡 毒舌点评论文创新性地将流匹配的稳定训练与GAN的细节增强能力结合，通过一个设计精巧的两阶段框架，实现了少步高保真音频生成，在质量和效率间取得了优异的平衡，这是一个扎实的工程优化工作。然而，其模型参数量（约79M）显著大于Vocos（13.5M）和RFWave（18.1M）等强基线，在资源敏感的部署场景下可能构成劣势。 ...

FlowBind: Efficient Any-to-Any Generation with Bidirectional Flows

📄 FlowBind: Efficient Any-to-Any Generation with Bidirectional Flows #跨模态 #流匹配 #多模态模型 #音频生成 #模型评估 🔥 8.0/10 | 前25% | #音频生成 | #流匹配 | #跨模态 #多模态模型学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Yeonwoo Cha* (KAIST) 通讯作者：未说明作者列表：Yeonwoo Cha (KAIST), Semin Kim (KAIST), Jinhyeon Kwon (KAIST), Seunghoon Hong (KAIST) 💡 毒舌点评这篇论文用一个相当优雅的设计——引入一个可学习的共享潜空间作为“中央车站”，让每个模态通过自己的可逆流列车与之连接——漂亮地绕过了现有任意到任意生成模型对全配对数据和复杂多阶段训练的依赖，实现了效率上的巨大提升。然而，其核心贡献更偏向于工程框架的整合与效率优化，而非对生成模型基础理论的突破，且评估主要局限于文本、图像、音频三种模态，对“任意到任意”这一宏大目标的验证广度稍显不足。 🔗 开源详情代码：论文提供了项目页面链接：https://yeonwoo378.github.io/official_flowbind，暗示将开源代码。模型权重：论文中未明确提及是否公开预训练模型权重。数据集：论文中明确说明不使用三元组数据，并列出了使用的三种配对数据集（LAION-COCO, Flickr-30k, AudioCaps v2, VGGSound）。这些数据集均为公开数据集，但论文未提供其具体预处理后的下载链接或说明。 Demo：未提及。复现材料：论文附录C（实现细节）和D（评估设置）提供了较详细的训练超参数、模型架构描述、评估协议和数据集划分，为复现提供了重要信息。引用的开源项目：依赖了多个预训练模型和工具，包括：EmbeddingGemma (Team et al., 2025)、CLIP (Radford et al., 2021)、Stable-UnCLIP (HuggingFace, 2025)、CLAP (Elizalde et al., 2023)、AudioLDM (Liu et al., 2023)、Gemma3-1B (Team et al., 2025) 用于文本解码器初始化、FLUX.1 (Black Forest Labs, 2024) 用于构建评估数据集。总体情况：论文有明确的开源意愿并提供了必要的复现细节，但具体代码和模型的开放状态在提供文本中未完全明确。 📌 核心摘要解决的问题：现有的基于流的任意到任意多模态生成方法（如CoDi, OmniFlow）存在效率瓶颈：依赖大规模、配对约束严格的数据集；建模联合分布导致计算成本高昂；训练流程复杂，通常需要多阶段优化。方法核心：提出FlowBind框架。其核心思想是引入一个可学习的共享潜空间，用于捕捉跨模态共性信息。每个模态通过一个独立的、可逆的流模型与这个共享潜空间相连。整个框架（共享潜空间编码器和所有模态的流网络）在单一的流匹配目标下进行端到端联合训练。与已有方法相比新在哪里：a) 解耦设计：将多模态交互分解为“共享潜空间”与“模态特定流”的连接，避免了直接建模高维联合分布。b) 训练灵活性：每个流网络只需学习其对应模态与共享潜空间的映射，因此天然支持利用任意部分配对数据进行训练，大幅降低了数据要求。c) 训练简化：所有组件通过一个统一的流匹配损失优化，无需CoDi或OmniFlow那样的多阶段、分组件训练流程。d) 推理直接性：推理时，每个模态的流网络既可当编码器（从模态到潜空间），也可当解码器（从潜空间到模态），实现了直接的跨模态翻译。主要实验结果：在文本、图像、音频的一对一生成（6种任务）和多对多生成任务上进行了评估。关键定量结果如下：效率对比：参数量仅为OmniFlow的1/6（568M vs 3.2B），训练耗时减少约10倍（48 GPU-hrs vs 480 GPU-hrs*），训练数据用量仅为CoDi的0.15%或OmniFlow的1.79%。质量对比：在表2（保真度）和表3（对齐度）中，FlowBind在多数一对一生成任务上取得了与基线模型相当或更优的指标。例如，在图像到音频(I→A)任务上，FAD达到2.50（优于CoDi的14.58和OmniFlow的5.67），AIS达到82.89（优于基线）。在表4（多对一）和表5（一对多）中，FlowBind在整合多个模态条件方面表现出更强的平衡性和对齐能力。消融与分析：实验验证了可学习共享潜空间相比固定文本锚点的优势（表6），并分析了共享潜空间具有更强的跨模态对齐性（表7，CKNNA指标）。实际意义：为构建高效、灵活、数据需求友好的通用多模态生成模型提供了一种新范式。其低计算和低数据门槛使得在实际场景中训练此类模型成为可能，推动了多模态AI从“专家”向“通才”的发展。主要局限性：a) 论文中的“任意模态”实验主要集中在文本、图像、音频三种模态，虽然扩展到了3D点云，但未涉及视频等其他重要模态，对普适性的验证有限。b) 在一些任务上（如文本到图像对齐），其性能未超越专门的单任务专家模型（如FLUX.1），表明在极致生成质量上仍有提升空间。c) 共享潜空间的具体可解释性有待进一步探索。 🏗️ 模型架构 FlowBind的整体架构如图1所示，包含训练阶段（图1a）和推理阶段（图1b）。 ...

Gogo: Group-wise granularity-ordered codec for stable and efficient speech generation

📄 Gogo: Group-wise granularity-ordered codec for stable and efficient speech generation #语音合成 #流匹配 #自回归模型 #零样本 #语音大模型 🔥 8.5/10 | 前25% | #语音合成 | #流匹配 | #自回归模型 #零样本学术质量 6.5/7 | 选题价值 1.8/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Weidong Chen (香港中文大学电子工程系) 通讯作者：Xixin Wu (香港中文大学电子工程系) 作者列表：Weidong Chen (香港中文大学电子工程系), Helen M. Meng (香港中文大学电子工程系), Xixin Wu (香港中文大学电子工程系) 💡 毒舌点评论文的亮点在于巧妙地将“组级量化”与“粒度排序”结合，从根源上解决了语音编解码器既要“高层抽象利于建模”又要“低层细节保证音质”的矛盾，设计思路清晰且优雅。但短板在于其框架组件繁多（编解码器、两阶段生成模型、额外训练的分配器），训练流程复杂，且token分配器的优化与主模型分离，可能并非全局最优，工程实现的门槛不低。 🔗 开源详情代码：论文中未提及官方代码仓库链接。模型权重：未提及公开预训练模型权重。数据集：训练使用Emilia（英文子集），评估使用LibriTTS和Seed-TTS，均为已有公开数据集。论文未提及提供新的数据集。 Demo：提供了在线演示链接：https://happycolor.github.io/gogo。复现材料：附录（A-M）提供了极其详细的实现细节、训练配置、评估设置、消融实验说明和可视化，复现信息非常充分。论文中引用的开源项目：Vocos (声码器), LLaMA-3.2-1B-Instruct (SLM基础模型), PyTorch等常见框架。对比实验中引用了EnCodec, DAC, SpeechTokenizer, Mimi, SNAC, WavTokenizer等众多开源编码器模型。 📌 核心摘要本文旨在解决当前语音语言模型中核心的语音编解码器面临的双重挑战：传统帧级量化难以捕获高层语义信息，以及固定比特率分配忽略了语音信号信息分布的不均匀性。为此，作者提出了Gogo编解码器，它创新性地将连续帧分组，并为每组生成从粗到细、粒度有序的令牌，粗令牌编码高层抽象，细令牌逐步恢复声学细节。基于此，设计了GogoSpeech两阶段语音生成模型：第一阶段以极低令牌率生成高层语音骨架，第二阶段再丰富细节。此外，引入了一个基于GRPO训练的令牌分配器，根据语音片段的复杂度自适应分配细粒度令牌的预算，以提升效率。实验表明，在47 Hz的令牌率下，Gogo在多项重建指标（如UT-MOS 4.19, DNS-MOS 3.99）上优于其他SOTA编解码器。在零样本语音合成任务中，GogoSpeech取得了最佳的说话人相似度（SIM 0.667）和综合质量评分（SMOS 4.381, CMOS +1.832），并证明了令牌分配器能在几乎不损质量的前提下将平均令牌率从47 Hz降至36 Hz。这项工作为高效、稳定的语音生成提供了新的范式。其局限性在于依赖固定的分组策略，且令牌分配器的训练与主生成模型解耦，可能存在优化不足。 ...

InterActHuman: Multi-Concept Human Animation with Layout-Aligned Audio Conditions

📄 InterActHuman: Multi-Concept Human Animation with Layout-Aligned Audio Conditions #视频生成 #扩散模型 #音视频 #多模态模型 #流匹配 🔥 9.0/10 | 前25% | #视频生成 | #扩散模型 | #音视频 #多模态模型学术质量 6.5/7 | 选题价值 1.8/2 | 复现加成 0.8 | 置信度高 👥 作者与机构第一作者：Zhenzhi Wang（香港中文大学，与Jiaqi Yang、Jianwen Jiang贡献相等，按署名顺序列为第一）通讯作者：Jianwen Jiang（字节跳动）作者列表：Zhenzhi Wang（香港中文大学）、Jiaqi Yang（字节跳动）、Jianwen Jiang（字节跳动）、Chao Liang（字节跳动）、Gaojie Lin（字节跳动）、Zerong Zheng（字节跳动）、Ceyuan Yang（字节跳动）、Yuan Zhang（字节跳动）、Mingyuan Gao（字节跳动）、Dahua Lin（香港中文大学） 💡 毒舌点评亮点在于它优雅地解决了多人动画中“条件应该给谁”这个棘手问题，通过一个轻量级的掩码预测器在扩散去噪过程中动态地为每个身份划分“领地”，并据此注入音频，设计精巧且实用。短板是尽管方法强大，但其核心依赖高质量的参考图像和清晰的身份边界，对于重叠严重、遮挡复杂或风格高度抽象的场景，其掩码预测器的鲁棒性和最终生成质量可能面临挑战，论文对此讨论有限。 🔗 开源详情代码：提供了代码仓库链接（基于Wan2.1重新实现），并包含了数据处理和模型推理的伪代码。模型权重：提到了公开的预训练模型权重。数据集：论文中提及的数据集“OpenHumanVid”及其处理管线代码已开源，但完整的训练数据集本身未提及公开下载方式。 Demo：论文提供了视频演示链接：https://zhenzhiwang.github.io/interacthuman/ 复现材料：提供了详细的训练细节（硬件、批大小、学习率）、模型架构说明、消融实验设置以及完整的算法伪代码，复现信息非常充分。引用的开源项目：基础模型Wan2.1；wav2vec 2.0；Qwen2.5-VL / Qwen2-VL；Grounding-SAM2；Florence-2；PySceneDetect；PaddleOCR；Q-align；RAFT；RTMpose；SyncNet；PyTorch FSDP。 📌 核心摘要问题：现有音频驱动或图像定制的视频生成方法大多基于单一主体假设，将条件信息全局注入，无法处理多人对话、人与物体交互等需要为不同身份独立控制外观和声音的多概念复杂场景。方法核心：提出了InterActHuman框架。核心是在预训练的DiT视频生成模型中集成一个轻量级的掩码预测器，该预测器通过交叉注意力机制，从噪声视频特征和参考图像特征中显式预测每个参考身份在视频帧中的时空布局（掩码）。在推理时，采用迭代缓存策略：用前一去噪步骤预测的掩码作为先验，指导当前步骤的局部音频条件注入，将每个身份对应的音频特征仅注入到其掩码区域内。创新点：与依赖隐式特征融合的现有方法不同，本工作首次为多概念人类动画引入了显式、布局对齐的局部条件注入范式。这打破了单一实体假设，实现了对多个身份外观和声音的精确、独立控制。主要实验结果：在多人音频驱动视频生成任务上，本文方法在唇形同步精度（Sync-D↓：6.670 vs OmniHuman的9.482）、视频整体质量（FVD↓：22.881 vs 33.895）和运动多样性（HKV↑：59.635）等关键指标上显著优于所有基线。在多概念定制任务上，也在概念保真度（CLIP-I↑：0.744）和视频质量（IQA↑：4.903）上达到最优。用户研究也显示其在唇形同步和主体一致性方面最受青睐。方法 Sync-D↓ FVD↓ IQA↑ AES↑ OmniHuman (全局音频) 9.482 33.895 4.768 3.466 OmniHuman (固定掩码) 7.068 40.239 4.690 3.369 Ours (预测掩码) 6.670 22.881 4.757 3.467 实际意义：为多模态、多概念的人类动画生成建立了有效基线，可直接应用于多人视频对话、虚拟角色互动、基于多张图片的视频定制等场景。主要局限性：训练数据主要集中于2-3人的场景，可能限制其向更多人（>3）场景的泛化能力；生成能力受限于人类中心领域，对复杂多样的文本提示遵循能力弱于通用视频生成模型。 🏗️ 模型架构模型整体是一个基于MMDiT（Multi-Modal Diffusion Transformer）的视频生成框架，其核心创新在于加入了掩码预测与局部条件注入机制。 ...

JavisDiT++: Unified Modeling and Optimization for Joint Audio-Video Generation

📄 JavisDiT++: Unified Modeling and Optimization for Joint Audio-Video Generation #音视频生成 #流匹配 #扩散模型 #多模态模型 ✅ 7.5/10 | 前25% | #音视频生成 | #流匹配 | #扩散模型 #多模态模型学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Kai Liu, Yanhao Zheng, Kai Wang（共同第一作者） Kai Liu：浙江大学，与HiThink Research有关 Yanhao Zheng：未明确说明机构 Kai Wang：多伦多大学通讯作者：Hao Fei（新加坡国立大学）作者列表： Kai Liu (浙江大学, HiThink Research) Yanhao Zheng (未说明具体机构) Kai Wang (多伦多大学) Shengqiong Wu (新加坡国立大学) Rongjunchen Zhang (HiThink Research) Jiebo Luo (罗切斯特大学) Dimitrios Hatzinakos (多伦多大学) Ziwei Liu (南洋理工大学) Hao Fei (新加坡国立大学，通讯作者) Tat-Seng Chua (新加坡国立大学) 💡 毒舌点评论文的最大亮点在于提出了一个简洁且高效的统一框架（MS-MoE + TA-RoPE），显著缩小了开源联合音视频生成模型与商业模型Veo3之间的差距。然而，所有实验仅在标准学术基准（JavisBench）上进行，缺乏对真实世界长尾场景、复杂语义或大规模生成能力的验证，其声称的“里程碑”意义有待更广泛的应用场景检验。 ...

LayerSync: Self-aligning Intermediate Layers

📄 LayerSync: Self-aligning Intermediate Layers #生成模型 #扩散模型 #流匹配 #自监督学习 ✅ 7.5/10 | 前25% | #生成模型 | #扩散模型 | #流匹配 #自监督学习学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Yasaman Haghighi (EPFL，与Bastien van Delft共同第一作者) 通讯作者：Alexandre Alahi (EPFL) 作者列表：Yasaman Haghighi (EPFL VITA实验室)， Bastien van Delft (EPFL VITA实验室)， Mariam Hassan (EPFL VITA实验室)， Alexandre Alahi (EPFL VITA实验室) 💡 毒舌点评亮点：本文用一个极其简单（对齐两个层的特征）且零开销的插件，就在多个模态上实现了显著的训练加速和质量提升，堪称扩散模型领域的“高效内部教练”，实用价值很高。短板：所谓的“内部强层指导弱层”缺乏坚实的理论分析，层的选择（如“避开最后20%”）更像是经验性的“土方子”，其有效性边界和内在机理有待更深入的剖析。 🔗 开源详情代码：论文提供代码仓库链接：https://github.com/vita-epfl/LayerSync.git。模型权重：论文中未提及公开训练好的模型权重。数据集：使用公开数据集（ImageNet， MTG-Jamendo， HumanML3D， CLEVRER， MixKit），获取方式遵循各数据集原有许可，论文中未特别说明。 Demo：论文中未提及在线演示。复现材料：提供了非常详细的超参数设置表（表18，19）、模型架构细节（表20）、算法伪代码（算法1）以及计算资源描述。复现信息充分。引用的开源项目：论文中引用并依赖以下开源项目/模型：SiT， Stable Diffusion VAE， Stable Audio Open VAE， DINOv2， MDM等。 📌 核心摘要解决的问题：扩散模型（如DiT/SiT）训练成本高昂。已有工作通过将模型内部表征与外部强大预训练模型（如DINOv2， VLM）对齐来加速训练，但这种方法依赖外部模型、引入计算开销且跨领域泛化能力有限。方法核心：提出LayerSync，一种自包含、即插即用的正则化方法。核心思想是利用扩散模型自身深度网络中表征质量的异质性，将语义信息更丰富的深层块（强层）的输出作为目标，通过最大化相似度（如余弦相似度）来对齐并指导浅层块（弱层）的表征学习，从而实现模型内部的自我提升。与已有方法相比的新意：与依赖外部模型的对齐方法（如REPA， REED）不同，LayerSync无需任何外部模型或数据，计算开销几乎为零。与另一种自包含方法Dispersive Loss（鼓励表征分散）相比，LayerSync提供了更直接的定向学习信号（强层对齐弱层）。主要实验结果：图像生成（ImageNet 256x256）：使用LayerSync的SiT-XL/2模型，训练800 epochs后FID达到1.89（使用CFG），比基线SiT-XL/2的2.06降低了8.3%，在纯自监督生成方法中达到SOTA。相比基线SiT-XL/2，训练160 epochs时的FID（8.29）已低于基线训练1400 epochs时的FID（8.3），实现了超过8.75倍的训练加速。相比Dispersive Loss，在相同epoch下FID改进幅度平均高出约20个百分点。音频生成（MTG-Jamendo）：使用LayerSync的SiT-XL模型，在650 epochs时FAD（CLAP）为0.199，相比基线的0.251降低了20.7%。收敛速度提升约23%。人体运动生成（HumanML3D）：使用LayerSync的MDM模型，在600K迭代后FID为0.4801，相比基线的0.5206降低了7.7%。表示分析：在相同生成质量（FID）下，使用LayerSync的模型在分类（+32.4%）和语义分割（+63.3%）任务的线性探测精度上远超基线模型，表明其学到了更优质、更同质化的内部表征。实际意义：提供了一种简单、通用且高效的扩散模型训练加速方案，可无缝应用于不同模态（图像、音频、视频、运动），为降低生成模型训练门槛、推动其广泛应用提供了新思路。主要局限性：对齐的层对选择依赖启发式规则（如避开最后20%的解码层、保证一定距离），其最优策略可能因架构而异；缺乏对“为何此对齐有效”的理论解释；虽然实验跨领域，但在更复杂任务（如高分辨率视频生成）上的大规模验证尚不充分。 🏗️ 模型架构本文的核心贡献并非提出新的生成模型架构，而是为现有的扩散/流匹配Transformer架构（如SiT）提供一个即插即用的训练正则化模块。 ...

NExT-OMNI: Towards Any-to-Any Omnimodal Foundation Models with Discrete Flow Matching

📄 NExT-OMNI: Towards Any-to-Any Omnimodal Foundation Models with Discrete Flow Matching #多模态模型 #流匹配 #音频生成 #语音对话系统 🔥 8.5/10 | 前25% | #多模态模型 | #流匹配 | #音频生成 #语音对话系统学术质量 6.0/7 | 选题价值 2.0/2 | 复现加成 1.0 | 置信度高 👥 作者与机构第一作者：Run Luo（中国科学院深圳先进技术研究院，中国科学院大学）通讯作者：Xiaobo Xia（新加坡国立大学，中国科学技术大学）；Min Yang（中国科学院深圳先进技术研究院，深圳大学先进技术研究院）作者列表：Run Luo（中国科学院深圳先进技术研究院，中国科学院大学）、Xiaobo Xia（新加坡国立大学，中国科学技术大学）、Lu Wang（Rtizz-AI）、Longze Chen（中国科学院深圳先进技术研究院，中国科学院大学）、Renke Shan（Rtizz-AI）、Jing Luo（中国科学院深圳先进技术研究院，中国科学院大学）、Min Yang（中国科学院深圳先进技术研究院，深圳大学先进技术研究院）、Tat-Seng Chua（新加坡国立大学） 💡 毒舌点评亮点在于其架构的简洁与统一性，用单一DFM骨干取代了常见的AR+Diffusion混合或解耦设计，这在处理需要深度融合的多模态检索任务时确实显示出优势，实验也验证了这一点。短板则受限于“论文中未说明”训练硬件的具体规格和训练总时长，且其核心贡献——DFM在统一建模上的潜力——受限于仅7B的参数规模，大规模Scaling下的表现未知，使得“下一代范式”的论断稍显仓促。 🔗 开源详情代码：是，提供了GitHub仓库链接：https://github.com/ritzz-ai/Next-OMNI 模型权重：是，论文明确提到“开源”模型检查点，并提供了链接。数据集：部分公开。论文中使用的大部分数据集为公开数据集（如LAION, LibriSpeech等），但也包含“私有数据”。论文未提供统一的训练数据下载链接，但详细列出了数据来源和构成（表8）。 Demo：论文中未提及在线演示。复现材料：非常充分。附录中提供了模型设计细节（D）、数据策展详情（E）、训练配方（F，表9）和额外的实验与可视化结果（G, H, I）。论文中引用的开源项目：主要包括：Qwen2.5系列（骨干/对齐损失）、CLIP-ViT（视觉编码器初始化）、Whisper（音频编码器初始化）、FLUX（图像生成数据合成）、MMEvol（指令数据增强）、以及训练数据相关的多个公开数据集工具（如LAION, Common Crawl）。 📌 核心摘要本文旨在解决现有统一多模态模型在理解和生成任务间存在固有冲突、架构冗余（混合/解耦设计）导致难以支持跨模态检索等更通用场景的问题。核心方法是提出NExT-OMNI，首个完全基于离散流匹配（DFM）的开源全能态基础模型。与已有的自回归或混合架构相比，其新在：1）完全摒弃自回归范式，采用DFM进行并行去噪，原生支持双向信息融合；2）设计了带有重建损失的统一表征编码器，为生成、理解和检索任务提供一体化特征；3）引入动态长度生成策略和自适应缓存机制以提升效率。主要实验结果如下：在全能态理解基准（OmniBench, WorldSense, AV-Odyssey）上，平均得分39.7，优于OpenOmni（36.5）；在多轮视觉交互（OpenING）上，平均分55.0，显著高于前代模型；在多模态检索（MMEBEDIR子集）上，平均Top-5准确率32.9，优于所有对比模型（MMaDA为31.8）；在语音交互（Spoken QA）上取得有竞争力的结果。实际意义在于，它为构建更统一、高效的全能态基础模型提供了一个有前景的新范式。主要局限性在于，受限于计算资源，模型仅在7B规模上训练和验证，其在大规模下的潜力尚未证明。 ...