TangoFlux: Super Fast and Faithful Text to Audio Generation with Flow Matching and Clap-Ranked Preference Optimization

📄 TangoFlux: Super Fast and Faithful Text to Audio Generation with Flow Matching and Clap-Ranked Preference Optimization #音频生成 #流匹配 #偏好优化 #扩散模型 #开源模型 🔥 8.0/10 | 前25% | #音频生成 | #流匹配 | #偏好优化 #扩散模型 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Chia-Yu Hung (Nanyang Technological University, NTU) 通讯作者:Navonil Majumder (NTU), Soujanya Poria (NTU) 作者列表:Chia-Yu Hung (NTU), Navonil Majumder (NTU), Zhifeng Kong (NVIDIA), Ambuj Mehrish (Ca’ Foscari University of Venice), Amir Ali Bagherzadeh (Lambda Labs), Chuan Li (Lambda Labs), Rafael Valle (NVIDIA), Bryan Catanzaro (NVIDIA), Soujanya Poria (NTU) 💡 毒舌点评 这篇论文巧妙地将CLAP作为“裁判”来解决音频生成对齐中缺乏自动评价标准的痛点,提出的CRPO“自弈”优化思路确实让模型性能在迭代中不断提升,效果立竿见影。但依赖CLAP这个“裁判”本身的偏好(可能偏向特定音频风格或描述理解能力)进行优化,是否会让模型学会“讨好裁判”而非真正理解复杂、抽象的文本描述?这是CRPO框架需要面对的更深层问题。 ...

2026-05-04 · 更新于 2026-06-15 · 5 min · 1000 words

Unified Multi-Modal Interactive and Reactive 3D Motion Generation via Rectified Flow

📄 Unified Multi-Modal Interactive and Reactive 3D Motion Generation via Rectified Flow #动作生成 #流匹配 #检索增强 #多模态 #扩散模型 ✅ 7.5/10 | 前25% | #动作生成 | #流匹配 | #检索增强 #多模态 学术质量 5.5/7 | 选题价值 1.0/2 | 复现加成 1.0 | 置信度 高 👥 作者与机构 第一作者:Prerit Gupta (Purdue University, Department of Computer Science) 通讯作者:未说明(但Aniket Bera为最后作者,通常为通讯作者) 作者列表:Prerit Gupta (Purdue University), Shourya Verma (Purdue University), Ananth Grama (Purdue University), Aniket Bera (Purdue University) 💡 毒舌点评 亮点在于将交互和反应式双人动作生成统一到一个框架中,并创新性地为动作生成引入了基于LLM分解的检索增强生成,有效提升了语义对齐。短板在于该领域相对小众,实际应用场景(如VR/AR游戏)的验证可能有限,且模型参数量(456M)相比基线(224M)显著增大,提升了部署门槛。 🔗 开源详情 代码:论文明确承诺将开源代码(“Full code for this project… will be made open source… upon paper acceptance”),但未提供具体链接。 模型权重:承诺将提供训练好的检查点。 数据集:使用了InterHuman-AS、DD100、MDD三个公开数据集,论文中给出了获取参考。 Demo:未提及在线演示。 复现材料:附录提供了详尽的LLM提示词设计、架构细节(公式)、损失权重配置、超参数选择等,复现信息充分。 引用的开源项目:SMPL模型(动作表示),CLIP(文本编码),Jukebox(音乐编码),GPT-4o(文本分解),FlashAttention(加速)。 📌 核心摘要 问题:生成真实、与上下文相关的双人3D动作,需同时支持交互式(双向协调)和反应式(单向响应)两种模式,且能融合文本、音乐等多种模态条件输入,是当前计算机图形学和具身AI的挑战。 方法:提出DualFlow,首个基于矫正流匹配(Rectified Flow)的统一框架。通过可切换的“双流块”架构,同一模型可处理交互与反应任务;引入专为双人动作设计的检索增强生成模块,利用GPT-4o分解文本为空间关系、身体动作和节奏三类描述,并结合音乐特征检索动作范例,以增强生成动作的语义准确性;采用对比矫正流匹配目标,提升运动嵌入与条件信号的对齐度。 创新:(1) 统一架构实现交互与反应任务的无缝切换;(2) 首个用于双人动作的RAG框架;(3) 结合同步损失的对比矫正流匹配,提升生成质量与采样效率。 实验结果:在MDD、InterHuman-AS、DD100三个数据集上进行广泛评估。在MDD的交互任务上,DualFlow(Both)的R-Precision@3达0.513,MMDist为0.513;在反应任务上,FID为0.686,R-Precision@3为0.471,均优于基线。相比InterGen,DualFlow仅需20步(2.5倍加速)即可达到更优的FID。 意义:为VR/AR、游戏、社交机器人等需要协调人际行为的领域提供了高效且高质量的多模态动作生成方案。 局限:在长序列生成时可能存在节奏偏移;反应模式下可能出现轻微的肢体穿插;RAG检索质量依赖于库的覆盖度与查询的清晰度。 🏗️ 模型架构 DualFlow是一个基于Transformer和矫正流匹配的统一生成框架,其核心是多模态条件注入与“双流块”架构设计。 ...

2026-05-04 · 更新于 2026-06-15 · 2 min · 340 words

AC-Foley: Reference-Audio-Guided Video-to-Audio Synthesis with Acoustic Transfer

📄 AC-Foley: Reference-Audio-Guided Video-to-Audio Synthesis with Acoustic Transfer #音频生成 #流匹配 #多模态模型 #音视频 #零样本 ✅ 7.5/10 | 前25% | #音频生成 | #流匹配 | #多模态模型 #音视频 学术质量 6.5/7 | 选题价值 2.0/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Pengjun Fang(The Hong Kong University of Science and Technology) 通讯作者:Harry Yang(The Hong Kong University of Science and Technology,标注有邮箱B) 作者列表:Pengjun Fang(香港科技大学)、Yingqing He(香港科技大学)、Yazhou Xing(香港科技大学)、Qifeng Chen(香港科技大学,标注有邮箱B)、Ser-Nam Lim(University of Central Florida,标注有邮箱B)、Harry Yang(香港科技大学,标注有邮箱B) 💡 毒舌点评 亮点:巧妙地利用“参考音频”作为控制信号,绕过了文本描述的语义模糊和粒度不足问题,实现了真正细粒度(如不同狗叫)和创意性(如音色迁移)的音效生成,两阶段训练策略的设计也颇具巧思。短板:核心生成模型(多模态Transformer+Flow Matching)是已有框架的整合,原创性集中在“控制方式”和“训练技巧”上;论文坦诚的指出,在处理复杂多声源场景时仍显力不从心,这限制了其在真实世界复杂声景中的即刻应用。 🔗 开源详情 代码:论文中未提及代码链接。 模型权重:未提及。 数据集:未提及公开专用数据集。所使用的VGGSound、AudioCaps、WavCaps均为已有公开数据集。 Demo:未提及。 复现材料:提供了极其详细的训练细节(附录A)、网络架构细节(附录B)以及方法描述,为复现奠定了坚实基础。 引用的开源项目:论文引用了多个开源工具或模型,包括:CLIP、Synchformer、BigVGAN(声码器)、ImageBind(用于数据筛选)、AdamW优化器、EMA技术等。 开源计划:论文中未提及开源计划。 📌 核心摘要 要解决什么问题:现有视频到音频(V2A)生成方法主要依赖文本提示,存在两大瓶颈:训练数据中的语义粒度模糊(如将不同的狗叫统称为“狗叫”)和文本难以描述微声学特征(如“金属碰撞声”无法区分锤击和链条声),导致无法进行精细的声音合成控制。 方法核心是什么:提出AC-Foley,一个参考音频引导的V2A生成框架。它直接利用一段参考音频的声学特征(而非语义)作为条件,结合视频和文本信息,通过多模态Transformer和条件流匹配模型,生成与视频同步且具有目标音色特征的声音。 与已有方法相比新在哪里:a) 控制维度升级:从文本/视频语义控制升级为直接的声学特征控制,实现细粒度合成和音色迁移。b) 训练策略创新:采用两阶段训练(重叠与非重叠条件学习),使模型既能从对齐样本中学习声学特征,又能泛化到非对齐的时序上下文中,避免简单复制。c) 零样本生成能力:通过参考音频条件,能生成训练集中未见过的声音类别(如带消音器的枪声)。 主要实验结果如何:在VGGSound测试集上,AC-Foley在音频条件控制设置下,所有指标均优于基线(如MMAudio+CLAP)。例如,其FDPaSST为56.00(优于基线70.80),MCD为11.37(优于基线14.63)。在无音频条件的纯V2A任务中,AC-Foley(w/o audio)也达到或接近SOTA水平(FDPaSST 64.90)。在音色迁移任务(Greatest Hits数据集)上,即使未在此数据集训练,AC-Foley的MCD(3.39)也显著优于CondFoley(4.18)。人工评估显示,在声学保真度上,83.5%的参与者认为AC-Foley生成的音频更接近真实音频。 实际意义是什么:为影视、游戏、动画等内容创作者提供了强大的音效设计工具,能够根据示例音频快速生成、修改或替换音轨中的声音元素,极大提升了创作灵活性和效率。 主要局限性是什么:当输入视频和参考音频包含多个重叠声源(如对话、环境声、动作声混合)时,模型难以将特定声音元素与对应的视觉事件精确对齐。参考音频与视频内容节奏差异过大时,生成质量会下降。 🏗️ 模型架构 整体架构是一个基于条件流匹配(Conditional Flow Matching) 的多模态Transformer模型,旨在生成与视频同步、受参考音频和文本条件控制的梅尔谱图,最终通过声码器转换为波形。 ...

2026-05-02 · 更新于 2026-06-15 · 2 min · 382 words

AlignSep: Temporally-Aligned Video-Queried Sound Separation with Flow Matching

📄 AlignSep: Temporally-Aligned Video-Queried Sound Separation with Flow Matching #语音分离 #流匹配 #音视频 #基准测试 #生成模型 🔥 8.0/10 | 前25% | #语音分离 | #流匹配 | #音视频 #基准测试 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:未说明(论文注明 Xize Cheng, Chenyuhao Wen, Tianhao Wang 为平等贡献) 通讯作者:未说明 作者列表:Xize Cheng(浙江大学),Chenyuhao Wen(浙江大学),Tianhao Wang(独立作者),Yongqi Wang(浙江大学),Zehan Wang(浙江大学),Rongjie Huang(浙江大学),Tao Jin(浙江大学),Zhou Zhao(浙江大学) 💡 毒舌点评 本文最大的亮点在于将流匹配生成范式成功引入视频查询声音分离任务,并系统性地分析了该任务作为“多条件生成”与传统流匹配任务的本质区别,这种对任务特性的深刻洞察比单纯提升几个点更有价值。然而,其构建的VGGSound-Hard新基准仅包含118个测试对,虽然难度高但规模偏小,其对结论的普适性支撑稍显不足;此外,作为生成模型,其推理速度(2.17 FPS)距实时处理仍有差距,论文中未探讨如何在效率上做进一步优化。 🔗 开源详情 代码:论文明确承诺在接收后公开代码仓库,但未提供具体链接(论文中未提及代码链接)。 模型权重:论文明确承诺在接收后公开预训练模型权重(未提及具体链接)。 数据集:VGGSound-Hard作为新提出的基准,论文未说明其具体下载方式,但提及由VGGSound测试集筛选而来。VGGSound-Hard的筛选脚本可能会随代码公开。 Demo:论文提供了项目主页链接 https://AlignSep.github.io ,其中包含更多结果和音频示例,可视为一种在线演示。 复现材料:附录A提供了非常详细的实现细节,包括音频VAE(表4)和向量场估计器(表5)的架构超参数、数据预处理方式、推理步数选择等关键信息。 引用的开源项目:论文依赖并引用了多个开源项目:CAVP视觉编码器 (Luo et al., 2023), 音频VAE (Liu et al., 2023a), BigVGAN声码器 (Lee et al., 2022), ImageBind (Han et al., 2023) 等。 📌 核心摘要 本文旨在解决视频查询声音分离(VQSS)任务中现有方法面临的两大挑战:1) 在声源同质(如多只同类狗叫)的干扰下,因缺乏精细时序建模而无法区分屏幕内外声音;2) 基于掩码的判别式方法在处理重叠声轨时易产生频谱空洞和不完整分离。 方法核心是提出AlignSep,这是首个基于条件流匹配的生成式VQSS模型。与已有方法不同,AlignSep通过设计一个时序对齐的向量场估计器(采用跨模态特征拼接和无交叉注意力的Transformer),并配合预训练的CAVP视觉时序编码器,显式地学习和维护音视频之间的时序对应关系,从而在生成过程中实现精确对齐。 与已有方法相比,新在两点:1) 范式上,采用生成式流程替代判别式掩码预测,能更好地处理重叠信号并避免频谱空洞;2) 建模上,明确引入并强化了时序对齐机制,而非仅依赖语义特征。此外,论文深入分析了VQSS作为多条件生成任务对标准流匹配范式提出的新挑战。 主要实验结果显示,AlignSep在三个基准上均达到最优性能。在MUSIC-Clean和VGGSound-Clean上,其时序对齐准确率(TA-V)分别达到66.67%和96.88%,大幅超越最强基线OmniSep(分别为68.89%和81.25%)。在专门为测试时序对齐能力构建的更具挑战性的VGGSound-Hard基准上,AlignSep的TA-V达到95.76%,而OmniSep仅为76.27%。人类感知评估(MOS)也证实了AlignSep在噪声残留、音视频一致性、音频质量和整体评分上的优势。 实际意义在于,AlignSep为解决真实复杂视听场景下的声音分离问题提供了新的、更鲁棒的框架,有助于提升视频编辑、内容理解等应用的体验。 主要局限性包括:1) 新提出的VGGSound-Hard基准规模较小(仅118对);2) 作为生成模型,推理效率有提升空间;3) 论文未深入探讨该生成范式在更复杂、多源场景下的扩展能力。 ...

2026-05-02 · 更新于 2026-06-15 · 3 min · 441 words

Aurelius: Relation Aware Text-to-Audio Generation At Scale

📄 Aurelius: Relation Aware Text-to-Audio Generation At Scale #音频生成 #基准测试 #流匹配 #数据集 #模型评估 🔥 8.0/10 | 前25% | #音频生成 | #基准测试 #流匹配 | #基准测试 #流匹配 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Yuhang He(微软研究院 Microsoft Research) 通讯作者:Yuhang He(微软研究院 Microsoft Research) 作者列表:Yuhang He(微软研究院 Microsoft Research),He Liang(未说明),Yash Jain(牛津大学计算机系),Andrew Markham(牛津大学计算机系),Vibhav Vineet(微软研究院 Microsoft Research) 💡 毒舌点评 这篇论文的亮点在于它没有追逐提出又一个“全新”的生成模型,而是系统性地构建了大规模、高质量的基准数据集(AudioEventSet, AudioRelSet)和评估体系,直指当前文本到音频生成领域在关系建模上的系统性短板。其短板在于,论文本身提出的AudioRelGen框架核心创新相对有限,更多是基于现有最强模型(如TangoFlux)的微调和评估,缺乏一个能够从根本上解决关系建模难题的、具有强原创性的生成架构。 🔗 开源详情 代码:提供代码仓库链接:https://github.com/yuhanghe01/Aurelius 模型权重:论文中未提及公开微调后或专门训练的模型权重。基准测试中使用的是各基线模型的官方公开权重。 数据集:AudioEventSet和AudioRelSet已公开,可通过项目主页或代码仓库获取。论文描述了数据集获取和构建方式。 Demo:未提及在线演示。 复现材料:提供了训练数据集构建策略、评估协议(MSR)、基线模型的推理设置(表III)以及代码。但关键训练超参数(微调/从头训练的学习率、batch size等)未在论文中说明。 论文中引用的开源项目:依赖的开源模型/工具包括:PANNs(用于特征提取和微调)、VGGish、Qwen2系列大语言模型(用于智能体实验)、各基准TTA模型的官方代码库(如AudioLDM, TangoFlux等)。数据来源包括freesound.org和FSD50K。 📌 核心摘要 问题:现有的文本到音频(TTA)生成模型在处理需要理解音频事件间复杂关系(如空间、时间、逻辑关系)的文本描述时能力严重不足,这限制了TTA技术向更复杂、更真实的应用场景发展。 方法核心:本文提出Aurelius框架,其核心是构建两个大规模、结构化的语料库:包含110个事件类别的AudioEventSet和包含100种关系的AudioRelSet。通过解耦的事件-关系组合策略,可系统性地生成海量的<text, audio>训练对,用于评估和提升模型的“关系感知”生成能力。 创新点:与之前工作(如RiTTA)相比,本文的新在于:a) 将事件和关系语料库规模提升了数量级(事件从~25到110,关系从11到100);b) 提出了一个更全面、可扩展的关系分类法(包括嵌套组合);c) 提供了基于解耦策略的、可大规模生成训练数据的流水线;d) 对多种主流TTA模型进行了前所未有的系统性基准测试。 主要实验结果:基准测试了9个主流TTA模型。结果显示,即使是最好的模型(AudioGen, mAMSR=2.22%; TangoFlux, mAMSR=1.77%),其在关系感知指标(Presence, Relation Correctness, Parsimony)上的表现也极差(均低于15%)。微调实验表明,在Aurelius数据集上微调能显著提升模型的关系建模能力(如TangoFlux的mAMSR从1.77%提升至5.58%)。具体关键结果见下表。 模型 参数量 FAD ↓ mAPre (%) mARel (%) mAPar (%) mAMSR (%) AudioGen 1.5B 7.97 11.3 2.84 9.13 2.22 TangoFlux 576M 6.01 12.38 3.34 7.28 1.77 TangoFlux (微调) 576M 1.29 28.57 8.02 20.84 5.58 表:零样本基准测试(上)与微调实验(下)关键结果对比 实际意义:本工作为“关系感知TTA”这一重要但被忽视的研究方向,首次提供了标准化的大规模基准数据集、评估协议和基线方法,系统地揭示了当前技术的瓶颈,为未来研究指明了方向(如需要设计能显式建模事件-关系依赖的架构)。 主要局限性:a) 论文主要贡献是构建基准和揭示问题,提出的AudioRelGen框架本身(解耦生成再混合)并非解决该问题的终极方案;b) 训练数据规模(100小时)虽然远超之前相关工作,但对于真正的大规模生成模型训练可能仍显不足;c) 关系评估依赖的自动检测模型(事件分类器、关系分类器)的性能上限,可能影响评估结果的绝对准确性。 🏗️ 模型架构 论文提出的AudioRelGen框架(图4)核心思想是解耦建模,其流程并非一个端到端的单一生成模型,而是一个数据生成与评估的范式: ...

2026-05-02 · 更新于 2026-06-15 · 2 min · 386 words

Continuous Audio Language Models

📄 Continuous Audio Language Models #音频生成 #音乐生成 #自回归模型 #流匹配 #语音合成 🔥 9.5/10 | 前10% | #音频生成 #音乐生成 | #自回归模型 #流匹配 | #音频生成 #音乐生成 学术质量 6.5/7 | 选题价值 1.8/2 | 复现加成 1.0 | 置信度 高 👥 作者与机构 第一作者:Simon Rouard(Kyutai;IRCAM-CNRS Sorbonne Univ.) 通讯作者:未说明(论文未明确指定,通常对应邮箱作者为Simon Rouard和Alexandre Défossez) 作者列表:Simon Rouard(Kyutai;IRCAM-CNRS Sorbonne Univ.),Manu Orsini(Kyutai),Axel Roebel(IRCAM-CNRS Sorbonne Univ.),Neil Zeghidour(Kyutai),Alexandre Défossez(Kyutai) 💡 毒舌点评 这篇论文的亮点在于其系统性思维,它没有孤立地提出一个新模块,而是为“连续音频生成”这个目标设计了一整套涵盖编码、建模、采样和蒸馏的完整流水线(CALM),并通过“Pocket TTS”将学术想法落到了实处。然而,其短板在于音乐生成的实验数据集规模(400K歌曲)相比工业级模型仍显局促,这或许限制了其在最复杂音乐场景下潜力的完全展现,且论文未公开其训练数据集。 🔗 开源详情 代码:论文中提及了代码仓库链接:github.com/kyutai-labs/pocket-tts (用于Pocket TTS)。主论文代码链接在摘要中提及为:iclr-continuous-audio-language-models.github.io。 模型权重:明确提供了开源的“Pocket TTS”模型权重(100M参数),可在上述GitHub仓库获取。对于论文中的大型实验模型(如1.35B音乐模型),未提及是否开源。 数据集:论文详述了训练所用的数据集名称(如Emilia, LAION-Disco-12M等)和规模,但未提供统一的下载链接,部分数据集可能是公共的,部分可能为内部或受限数据集。 Demo:摘要中提到了示例音频网站 iclr-continuous-audio-language-models.github.io。 复现材料:提供了极其详尽的附录,包括:表14(VAE超参数)、表15(模型与训练超参数)、各任务的具体数据处理细节(附录D、F、G)、消融实验(表6, 表10)、补充实验(表7, 表8, 表9, 表11, 表12, 表13)、以及人类评估方法详细说明(附录H)。 论文中引用的开源项目:论文主要基于并引用了以下开源项目/模型:Mimi (Défossez et al., 2024b), WavLM (Chen et al., 2021b), Helium-1 (Kyutai, 2025), Mistral 7B (Jiang et al., 2023), CLAP (Elizalde et al., 2023), SentencePiece (Kudo & Richardson, 2018), fairseq (Ott et al., 2019), Whisper (Radford et al., 2022)。 📌 核心摘要 要解决什么问题:现有音频语言模型(ALM)依赖有损的离散音频令牌(如RVQ),导致生成高质量音频必须生成更多令牌,从而在保真度和计算成本之间存在根本矛盾。 方法核心是什么:提出连续音频语言模型(CALM),在VAE的连续潜空间中进行自回归建模。核心是一个大型因果Transformer(长上下文)处理带噪声的历史潜变量,一个轻量Transformer(短上下文)处理干净的近期潜变量,两者结合后条件化一个小型一致性模型(MLP),以单步生成下一个干净的连续潜变量。 与已有方法相比新在哪里:完全避免了有损量化,用一致性模型替代了离散模型的RQ-Transformer头或扩散模型的多步采样头,实现了质量与效率的同步提升。创新性地提出了“噪声长上下文+干净短上下文”的双Transformer设计、潜在分类器引导(Latent CFG)和潜在蒸馏(Latent Distillation)等技术。 主要实验结果如何:在语音延续、文本到语音(TTS)和音乐延续任务上全面超越了最先进的离散模型基线。 TTS任务(表3):CALM模型WER为1.81,优于F5-TTS的2.42和DSM的1.95,声学质量MUSHRA得分61.1。 音乐延续任务(表4):CALM一致性模型(4步)的FAD(0.71)优于32-RVQ RQ-Transformer基线(1.06),整体推理速度提升1.9倍,采样头速度提升5.4倍。 语音延续任务(表2):CALM在声学质量和有意义性上均超越8-RVQ RQ-Transformer。 消融研究(表6):证明短上下文Transformer和噪声增强是模型高性能的关键。 实际意义是什么:使得在轻量级设备(如笔记本电脑CPU)上运行高质量的实时音频生成成为可能。开源的“Pocket TTS”(100M参数)模型实现了这一目标,具有极高的实际应用价值。 主要局限性是什么:论文中音乐生成的训练数据集规模(约20K小时)相对有限;连续表示可能在某些细粒度控制上(如精确的音高、时长编辑)面临挑战;论文未提供其主训练数据集的下载链接。 🏗️ 模型架构 CALM的整体架构(图1)是一个端到端的连续自回归生成系统,由VAE编码器、双Transformer骨干和一致性模型头组成。 ...

2026-05-02 · 更新于 2026-06-15 · 3 min · 587 words

Flow2GAN: Hybrid Flow Matching and GAN with Multi-Resolution Network for Few-step High-Fidelity Audio Generation

📄 Flow2GAN: Hybrid Flow Matching and GAN with Multi-Resolution Network for Few-step High-Fidelity Audio Generation #音频生成 #流匹配 #生成模型 #语音合成 #模型比较 🔥 8.0/10 | 前25% | #音频生成 | #流匹配 | #生成模型 #语音合成 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Zengwei Yao (Xiaomi Corp., Beijing, China) 通讯作者:Daniel Povey (Xiaomi Corp., Beijing, China, dpovey@xiaomi.com) 作者列表:Zengwei Yao (小米公司), Wei Kang (小米公司), Han Zhu (小米公司), Liyong Guo (小米公司), Lingxuan Ye (小米公司), Fangjun Kuang (小米公司), Weiji Zhuang (小米公司), Zhaoqing Li (小米公司), Zhifeng Han (小米公司), Long Lin (小米公司), Daniel Povey (小米公司) 💡 毒舌点评 论文创新性地将流匹配的稳定训练与GAN的细节增强能力结合,通过一个设计精巧的两阶段框架,实现了少步高保真音频生成,在质量和效率间取得了优异的平衡,这是一个扎实的工程优化工作。然而,其模型参数量(约79M)显著大于Vocos(13.5M)和RFWave(18.1M)等强基线,在资源敏感的部署场景下可能构成劣势。 ...

2026-05-02 · 更新于 2026-06-15 · 2 min · 353 words

FlowBind: Efficient Any-to-Any Generation with Bidirectional Flows

📄 FlowBind: Efficient Any-to-Any Generation with Bidirectional Flows #跨模态 #流匹配 #多模态模型 #音频生成 #模型评估 🔥 8.0/10 | 前25% | #音频生成 | #流匹配 | #跨模态 #多模态模型 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Yeonwoo Cha* (KAIST) 通讯作者:未说明 作者列表:Yeonwoo Cha (KAIST), Semin Kim (KAIST), Jinhyeon Kwon (KAIST), Seunghoon Hong (KAIST) 💡 毒舌点评 这篇论文用一个相当优雅的设计——引入一个可学习的共享潜空间作为“中央车站”,让每个模态通过自己的可逆流列车与之连接——漂亮地绕过了现有任意到任意生成模型对全配对数据和复杂多阶段训练的依赖,实现了效率上的巨大提升。然而,其核心贡献更偏向于工程框架的整合与效率优化,而非对生成模型基础理论的突破,且评估主要局限于文本、图像、音频三种模态,对“任意到任意”这一宏大目标的验证广度稍显不足。 🔗 开源详情 代码:论文提供了项目页面链接:https://yeonwoo378.github.io/official_flowbind,暗示将开源代码。 模型权重:论文中未明确提及是否公开预训练模型权重。 数据集:论文中明确说明不使用三元组数据,并列出了使用的三种配对数据集(LAION-COCO, Flickr-30k, AudioCaps v2, VGGSound)。这些数据集均为公开数据集,但论文未提供其具体预处理后的下载链接或说明。 Demo:未提及。 复现材料:论文附录C(实现细节)和D(评估设置)提供了较详细的训练超参数、模型架构描述、评估协议和数据集划分,为复现提供了重要信息。 引用的开源项目:依赖了多个预训练模型和工具,包括:EmbeddingGemma (Team et al., 2025)、CLIP (Radford et al., 2021)、Stable-UnCLIP (HuggingFace, 2025)、CLAP (Elizalde et al., 2023)、AudioLDM (Liu et al., 2023)、Gemma3-1B (Team et al., 2025) 用于文本解码器初始化、FLUX.1 (Black Forest Labs, 2024) 用于构建评估数据集。 总体情况:论文有明确的开源意愿并提供了必要的复现细节,但具体代码和模型的开放状态在提供文本中未完全明确。 📌 核心摘要 解决的问题:现有的基于流的任意到任意多模态生成方法(如CoDi, OmniFlow)存在效率瓶颈:依赖大规模、配对约束严格的数据集;建模联合分布导致计算成本高昂;训练流程复杂,通常需要多阶段优化。 方法核心:提出FlowBind框架。其核心思想是引入一个可学习的共享潜空间,用于捕捉跨模态共性信息。每个模态通过一个独立的、可逆的流模型与这个共享潜空间相连。整个框架(共享潜空间编码器和所有模态的流网络)在单一的流匹配目标下进行端到端联合训练。 与已有方法相比新在哪里:a) 解耦设计:将多模态交互分解为“共享潜空间”与“模态特定流”的连接,避免了直接建模高维联合分布。b) 训练灵活性:每个流网络只需学习其对应模态与共享潜空间的映射,因此天然支持利用任意部分配对数据进行训练,大幅降低了数据要求。c) 训练简化:所有组件通过一个统一的流匹配损失优化,无需CoDi或OmniFlow那样的多阶段、分组件训练流程。d) 推理直接性:推理时,每个模态的流网络既可当编码器(从模态到潜空间),也可当解码器(从潜空间到模态),实现了直接的跨模态翻译。 主要实验结果:在文本、图像、音频的一对一生成(6种任务)和多对多生成任务上进行了评估。关键定量结果如下: 效率对比:参数量仅为OmniFlow的1/6(568M vs 3.2B),训练耗时减少约10倍(48 GPU-hrs vs 480 GPU-hrs*),训练数据用量仅为CoDi的0.15%或OmniFlow的1.79%。 质量对比:在表2(保真度)和表3(对齐度)中,FlowBind在多数一对一生成任务上取得了与基线模型相当或更优的指标。例如,在图像到音频(I→A)任务上,FAD达到2.50(优于CoDi的14.58和OmniFlow的5.67),AIS达到82.89(优于基线)。在表4(多对一)和表5(一对多)中,FlowBind在整合多个模态条件方面表现出更强的平衡性和对齐能力。 消融与分析:实验验证了可学习共享潜空间相比固定文本锚点的优势(表6),并分析了共享潜空间具有更强的跨模态对齐性(表7,CKNNA指标)。 实际意义:为构建高效、灵活、数据需求友好的通用多模态生成模型提供了一种新范式。其低计算和低数据门槛使得在实际场景中训练此类模型成为可能,推动了多模态AI从“专家”向“通才”的发展。 主要局限性:a) 论文中的“任意模态”实验主要集中在文本、图像、音频三种模态,虽然扩展到了3D点云,但未涉及视频等其他重要模态,对普适性的验证有限。b) 在一些任务上(如文本到图像对齐),其性能未超越专门的单任务专家模型(如FLUX.1),表明在极致生成质量上仍有提升空间。c) 共享潜空间的具体可解释性有待进一步探索。 🏗️ 模型架构 FlowBind的整体架构如图1所示,包含训练阶段(图1a) 和推理阶段(图1b)。 ...

2026-05-02 · 更新于 2026-06-15 · 3 min · 431 words

Gogo: Group-wise granularity-ordered codec for stable and efficient speech generation

📄 Gogo: Group-wise granularity-ordered codec for stable and efficient speech generation #语音合成 #流匹配 #自回归模型 #零样本 #语音大模型 🔥 8.5/10 | 前25% | #语音合成 | #流匹配 | #自回归模型 #零样本 学术质量 6.5/7 | 选题价值 1.8/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Weidong Chen (香港中文大学电子工程系) 通讯作者:Xixin Wu (香港中文大学电子工程系) 作者列表:Weidong Chen (香港中文大学电子工程系), Helen M. Meng (香港中文大学电子工程系), Xixin Wu (香港中文大学电子工程系) 💡 毒舌点评 论文的亮点在于巧妙地将“组级量化”与“粒度排序”结合,从根源上解决了语音编解码器既要“高层抽象利于建模”又要“低层细节保证音质”的矛盾,设计思路清晰且优雅。但短板在于其框架组件繁多(编解码器、两阶段生成模型、额外训练的分配器),训练流程复杂,且token分配器的优化与主模型分离,可能并非全局最优,工程实现的门槛不低。 🔗 开源详情 代码:论文中未提及官方代码仓库链接。 模型权重:未提及公开预训练模型权重。 数据集:训练使用Emilia(英文子集),评估使用LibriTTS和Seed-TTS,均为已有公开数据集。论文未提及提供新的数据集。 Demo:提供了在线演示链接:https://happycolor.github.io/gogo。 复现材料:附录(A-M)提供了极其详细的实现细节、训练配置、评估设置、消融实验说明和可视化,复现信息非常充分。 论文中引用的开源项目:Vocos (声码器), LLaMA-3.2-1B-Instruct (SLM基础模型), PyTorch等常见框架。对比实验中引用了EnCodec, DAC, SpeechTokenizer, Mimi, SNAC, WavTokenizer等众多开源编码器模型。 📌 核心摘要 本文旨在解决当前语音语言模型中核心的语音编解码器面临的双重挑战:传统帧级量化难以捕获高层语义信息,以及固定比特率分配忽略了语音信号信息分布的不均匀性。为此,作者提出了Gogo编解码器,它创新性地将连续帧分组,并为每组生成从粗到细、粒度有序的令牌,粗令牌编码高层抽象,细令牌逐步恢复声学细节。基于此,设计了GogoSpeech两阶段语音生成模型:第一阶段以极低令牌率生成高层语音骨架,第二阶段再丰富细节。此外,引入了一个基于GRPO训练的令牌分配器,根据语音片段的复杂度自适应分配细粒度令牌的预算,以提升效率。实验表明,在47 Hz的令牌率下,Gogo在多项重建指标(如UT-MOS 4.19, DNS-MOS 3.99)上优于其他SOTA编解码器。在零样本语音合成任务中,GogoSpeech取得了最佳的说话人相似度(SIM 0.667)和综合质量评分(SMOS 4.381, CMOS +1.832),并证明了令牌分配器能在几乎不损质量的前提下将平均令牌率从47 Hz降至36 Hz。这项工作为高效、稳定的语音生成提供了新的范式。其局限性在于依赖固定的分组策略,且令牌分配器的训练与主生成模型解耦,可能存在优化不足。 ...

2026-05-02 · 更新于 2026-06-15 · 2 min · 372 words

InterActHuman: Multi-Concept Human Animation with Layout-Aligned Audio Conditions

📄 InterActHuman: Multi-Concept Human Animation with Layout-Aligned Audio Conditions #视频生成 #扩散模型 #音视频 #多模态模型 #流匹配 🔥 9.0/10 | 前25% | #视频生成 | #扩散模型 | #音视频 #多模态模型 学术质量 6.5/7 | 选题价值 1.8/2 | 复现加成 0.8 | 置信度 高 👥 作者与机构 第一作者:Zhenzhi Wang(香港中文大学,与Jiaqi Yang、Jianwen Jiang贡献相等,按署名顺序列为第一) 通讯作者:Jianwen Jiang(字节跳动) 作者列表:Zhenzhi Wang(香港中文大学)、Jiaqi Yang(字节跳动)、Jianwen Jiang(字节跳动)、Chao Liang(字节跳动)、Gaojie Lin(字节跳动)、Zerong Zheng(字节跳动)、Ceyuan Yang(字节跳动)、Yuan Zhang(字节跳动)、Mingyuan Gao(字节跳动)、Dahua Lin(香港中文大学) 💡 毒舌点评 亮点在于它优雅地解决了多人动画中“条件应该给谁”这个棘手问题,通过一个轻量级的掩码预测器在扩散去噪过程中动态地为每个身份划分“领地”,并据此注入音频,设计精巧且实用。短板是尽管方法强大,但其核心依赖高质量的参考图像和清晰的身份边界,对于重叠严重、遮挡复杂或风格高度抽象的场景,其掩码预测器的鲁棒性和最终生成质量可能面临挑战,论文对此讨论有限。 🔗 开源详情 代码:提供了代码仓库链接(基于Wan2.1重新实现),并包含了数据处理和模型推理的伪代码。 模型权重:提到了公开的预训练模型权重。 数据集:论文中提及的数据集“OpenHumanVid”及其处理管线代码已开源,但完整的训练数据集本身未提及公开下载方式。 Demo:论文提供了视频演示链接:https://zhenzhiwang.github.io/interacthuman/ 复现材料:提供了详细的训练细节(硬件、批大小、学习率)、模型架构说明、消融实验设置以及完整的算法伪代码,复现信息非常充分。 引用的开源项目:基础模型Wan2.1;wav2vec 2.0;Qwen2.5-VL / Qwen2-VL;Grounding-SAM2;Florence-2;PySceneDetect;PaddleOCR;Q-align;RAFT;RTMpose;SyncNet;PyTorch FSDP。 📌 核心摘要 问题:现有音频驱动或图像定制的视频生成方法大多基于单一主体假设,将条件信息全局注入,无法处理多人对话、人与物体交互等需要为不同身份独立控制外观和声音的多概念复杂场景。 方法核心:提出了InterActHuman框架。核心是在预训练的DiT视频生成模型中集成一个轻量级的掩码预测器,该预测器通过交叉注意力机制,从噪声视频特征和参考图像特征中显式预测每个参考身份在视频帧中的时空布局(掩码)。在推理时,采用迭代缓存策略:用前一去噪步骤预测的掩码作为先验,指导当前步骤的局部音频条件注入,将每个身份对应的音频特征仅注入到其掩码区域内。 创新点:与依赖隐式特征融合的现有方法不同,本工作首次为多概念人类动画引入了显式、布局对齐的局部条件注入范式。这打破了单一实体假设,实现了对多个身份外观和声音的精确、独立控制。 主要实验结果:在多人音频驱动视频生成任务上,本文方法在唇形同步精度(Sync-D↓:6.670 vs OmniHuman的9.482)、视频整体质量(FVD↓:22.881 vs 33.895)和运动多样性(HKV↑:59.635)等关键指标上显著优于所有基线。在多概念定制任务上,也在概念保真度(CLIP-I↑:0.744)和视频质量(IQA↑:4.903)上达到最优。用户研究也显示其在唇形同步和主体一致性方面最受青睐。 方法 Sync-D↓ FVD↓ IQA↑ AES↑ OmniHuman (全局音频) 9.482 33.895 4.768 3.466 OmniHuman (固定掩码) 7.068 40.239 4.690 3.369 Ours (预测掩码) 6.670 22.881 4.757 3.467 实际意义:为多模态、多概念的人类动画生成建立了有效基线,可直接应用于多人视频对话、虚拟角色互动、基于多张图片的视频定制等场景。 主要局限性:训练数据主要集中于2-3人的场景,可能限制其向更多人(>3)场景的泛化能力;生成能力受限于人类中心领域,对复杂多样的文本提示遵循能力弱于通用视频生成模型。 🏗️ 模型架构 模型整体是一个基于MMDiT(Multi-Modal Diffusion Transformer)的视频生成框架,其核心创新在于加入了掩码预测与局部条件注入机制。 ...

2026-05-02 · 更新于 2026-06-15 · 2 min · 350 words