流匹配 | 语音/音乐/音频论文速递

Flow2GAN: Hybrid Flow Matching and GAN with Multi-Resolution Network for Few-step High-Fidelity Audio Generation

📄 Flow2GAN: Hybrid Flow Matching and GAN with Multi-Resolution Network for Few-step High-Fidelity Audio Generation #音频生成 #流匹配 #生成模型 #语音合成 #模型比较 🔥 8.0/10 | 前25% | #音频生成 | #流匹配 | #生成模型 #语音合成学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Zengwei Yao (Xiaomi Corp., Beijing, China) 通讯作者：Daniel Povey (Xiaomi Corp., Beijing, China, dpovey@xiaomi.com) 作者列表：Zengwei Yao (小米公司), Wei Kang (小米公司), Han Zhu (小米公司), Liyong Guo (小米公司), Lingxuan Ye (小米公司), Fangjun Kuang (小米公司), Weiji Zhuang (小米公司), Zhaoqing Li (小米公司), Zhifeng Han (小米公司), Long Lin (小米公司), Daniel Povey (小米公司) 💡 毒舌点评论文创新性地将流匹配的稳定训练与GAN的细节增强能力结合，通过一个设计精巧的两阶段框架，实现了少步高保真音频生成，在质量和效率间取得了优异的平衡，这是一个扎实的工程优化工作。然而，其模型参数量（约79M）显著大于Vocos（13.5M）和RFWave（18.1M）等强基线，在资源敏感的部署场景下可能构成劣势。 ...

FlowBind: Efficient Any-to-Any Generation with Bidirectional Flows

📄 FlowBind: Efficient Any-to-Any Generation with Bidirectional Flows #跨模态 #流匹配 #多模态模型 #音频生成 #模型评估 🔥 8.0/10 | 前25% | #音频生成 | #流匹配 | #跨模态 #多模态模型学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Yeonwoo Cha* (KAIST) 通讯作者：未说明作者列表：Yeonwoo Cha (KAIST), Semin Kim (KAIST), Jinhyeon Kwon (KAIST), Seunghoon Hong (KAIST) 💡 毒舌点评这篇论文用一个相当优雅的设计——引入一个可学习的共享潜空间作为“中央车站”，让每个模态通过自己的可逆流列车与之连接——漂亮地绕过了现有任意到任意生成模型对全配对数据和复杂多阶段训练的依赖，实现了效率上的巨大提升。然而，其核心贡献更偏向于工程框架的整合与效率优化，而非对生成模型基础理论的突破，且评估主要局限于文本、图像、音频三种模态，对“任意到任意”这一宏大目标的验证广度稍显不足。 🔗 开源详情代码：论文提供了项目页面链接：https://yeonwoo378.github.io/official_flowbind，暗示将开源代码。模型权重：论文中未明确提及是否公开预训练模型权重。数据集：论文中明确说明不使用三元组数据，并列出了使用的三种配对数据集（LAION-COCO, Flickr-30k, AudioCaps v2, VGGSound）。这些数据集均为公开数据集，但论文未提供其具体预处理后的下载链接或说明。 Demo：未提及。复现材料：论文附录C（实现细节）和D（评估设置）提供了较详细的训练超参数、模型架构描述、评估协议和数据集划分，为复现提供了重要信息。引用的开源项目：依赖了多个预训练模型和工具，包括：EmbeddingGemma (Team et al., 2025)、CLIP (Radford et al., 2021)、Stable-UnCLIP (HuggingFace, 2025)、CLAP (Elizalde et al., 2023)、AudioLDM (Liu et al., 2023)、Gemma3-1B (Team et al., 2025) 用于文本解码器初始化、FLUX.1 (Black Forest Labs, 2024) 用于构建评估数据集。总体情况：论文有明确的开源意愿并提供了必要的复现细节，但具体代码和模型的开放状态在提供文本中未完全明确。 📌 核心摘要解决的问题：现有的基于流的任意到任意多模态生成方法（如CoDi, OmniFlow）存在效率瓶颈：依赖大规模、配对约束严格的数据集；建模联合分布导致计算成本高昂；训练流程复杂，通常需要多阶段优化。方法核心：提出FlowBind框架。其核心思想是引入一个可学习的共享潜空间，用于捕捉跨模态共性信息。每个模态通过一个独立的、可逆的流模型与这个共享潜空间相连。整个框架（共享潜空间编码器和所有模态的流网络）在单一的流匹配目标下进行端到端联合训练。与已有方法相比新在哪里：a) 解耦设计：将多模态交互分解为“共享潜空间”与“模态特定流”的连接，避免了直接建模高维联合分布。b) 训练灵活性：每个流网络只需学习其对应模态与共享潜空间的映射，因此天然支持利用任意部分配对数据进行训练，大幅降低了数据要求。c) 训练简化：所有组件通过一个统一的流匹配损失优化，无需CoDi或OmniFlow那样的多阶段、分组件训练流程。d) 推理直接性：推理时，每个模态的流网络既可当编码器（从模态到潜空间），也可当解码器（从潜空间到模态），实现了直接的跨模态翻译。主要实验结果：在文本、图像、音频的一对一生成（6种任务）和多对多生成任务上进行了评估。关键定量结果如下：效率对比：参数量仅为OmniFlow的1/6（568M vs 3.2B），训练耗时减少约10倍（48 GPU-hrs vs 480 GPU-hrs*），训练数据用量仅为CoDi的0.15%或OmniFlow的1.79%。质量对比：在表2（保真度）和表3（对齐度）中，FlowBind在多数一对一生成任务上取得了与基线模型相当或更优的指标。例如，在图像到音频(I→A)任务上，FAD达到2.50（优于CoDi的14.58和OmniFlow的5.67），AIS达到82.89（优于基线）。在表4（多对一）和表5（一对多）中，FlowBind在整合多个模态条件方面表现出更强的平衡性和对齐能力。消融与分析：实验验证了可学习共享潜空间相比固定文本锚点的优势（表6），并分析了共享潜空间具有更强的跨模态对齐性（表7，CKNNA指标）。实际意义：为构建高效、灵活、数据需求友好的通用多模态生成模型提供了一种新范式。其低计算和低数据门槛使得在实际场景中训练此类模型成为可能，推动了多模态AI从“专家”向“通才”的发展。主要局限性：a) 论文中的“任意模态”实验主要集中在文本、图像、音频三种模态，虽然扩展到了3D点云，但未涉及视频等其他重要模态，对普适性的验证有限。b) 在一些任务上（如文本到图像对齐），其性能未超越专门的单任务专家模型（如FLUX.1），表明在极致生成质量上仍有提升空间。c) 共享潜空间的具体可解释性有待进一步探索。 🏗️ 模型架构 FlowBind的整体架构如图1所示，包含训练阶段（图1a）和推理阶段（图1b）。 ...

Gogo: Group-wise granularity-ordered codec for stable and efficient speech generation

📄 Gogo: Group-wise granularity-ordered codec for stable and efficient speech generation #语音合成 #流匹配 #自回归模型 #零样本 #语音大模型 🔥 8.5/10 | 前25% | #语音合成 | #流匹配 | #自回归模型 #零样本学术质量 6.5/7 | 选题价值 1.8/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Weidong Chen (香港中文大学电子工程系) 通讯作者：Xixin Wu (香港中文大学电子工程系) 作者列表：Weidong Chen (香港中文大学电子工程系), Helen M. Meng (香港中文大学电子工程系), Xixin Wu (香港中文大学电子工程系) 💡 毒舌点评论文的亮点在于巧妙地将“组级量化”与“粒度排序”结合，从根源上解决了语音编解码器既要“高层抽象利于建模”又要“低层细节保证音质”的矛盾，设计思路清晰且优雅。但短板在于其框架组件繁多（编解码器、两阶段生成模型、额外训练的分配器），训练流程复杂，且token分配器的优化与主模型分离，可能并非全局最优，工程实现的门槛不低。 🔗 开源详情代码：论文中未提及官方代码仓库链接。模型权重：未提及公开预训练模型权重。数据集：训练使用Emilia（英文子集），评估使用LibriTTS和Seed-TTS，均为已有公开数据集。论文未提及提供新的数据集。 Demo：提供了在线演示链接：https://happycolor.github.io/gogo。复现材料：附录（A-M）提供了极其详细的实现细节、训练配置、评估设置、消融实验说明和可视化，复现信息非常充分。论文中引用的开源项目：Vocos (声码器), LLaMA-3.2-1B-Instruct (SLM基础模型), PyTorch等常见框架。对比实验中引用了EnCodec, DAC, SpeechTokenizer, Mimi, SNAC, WavTokenizer等众多开源编码器模型。 📌 核心摘要本文旨在解决当前语音语言模型中核心的语音编解码器面临的双重挑战：传统帧级量化难以捕获高层语义信息，以及固定比特率分配忽略了语音信号信息分布的不均匀性。为此，作者提出了Gogo编解码器，它创新性地将连续帧分组，并为每组生成从粗到细、粒度有序的令牌，粗令牌编码高层抽象，细令牌逐步恢复声学细节。基于此，设计了GogoSpeech两阶段语音生成模型：第一阶段以极低令牌率生成高层语音骨架，第二阶段再丰富细节。此外，引入了一个基于GRPO训练的令牌分配器，根据语音片段的复杂度自适应分配细粒度令牌的预算，以提升效率。实验表明，在47 Hz的令牌率下，Gogo在多项重建指标（如UT-MOS 4.19, DNS-MOS 3.99）上优于其他SOTA编解码器。在零样本语音合成任务中，GogoSpeech取得了最佳的说话人相似度（SIM 0.667）和综合质量评分（SMOS 4.381, CMOS +1.832），并证明了令牌分配器能在几乎不损质量的前提下将平均令牌率从47 Hz降至36 Hz。这项工作为高效、稳定的语音生成提供了新的范式。其局限性在于依赖固定的分组策略，且令牌分配器的训练与主生成模型解耦，可能存在优化不足。 ...

InterActHuman: Multi-Concept Human Animation with Layout-Aligned Audio Conditions

📄 InterActHuman: Multi-Concept Human Animation with Layout-Aligned Audio Conditions #视频生成 #扩散模型 #音视频 #多模态模型 #流匹配 🔥 9.0/10 | 前25% | #视频生成 | #扩散模型 | #音视频 #多模态模型学术质量 6.5/7 | 选题价值 1.8/2 | 复现加成 0.8 | 置信度高 👥 作者与机构第一作者：Zhenzhi Wang（香港中文大学，与Jiaqi Yang、Jianwen Jiang贡献相等，按署名顺序列为第一）通讯作者：Jianwen Jiang（字节跳动）作者列表：Zhenzhi Wang（香港中文大学）、Jiaqi Yang（字节跳动）、Jianwen Jiang（字节跳动）、Chao Liang（字节跳动）、Gaojie Lin（字节跳动）、Zerong Zheng（字节跳动）、Ceyuan Yang（字节跳动）、Yuan Zhang（字节跳动）、Mingyuan Gao（字节跳动）、Dahua Lin（香港中文大学） 💡 毒舌点评亮点在于它优雅地解决了多人动画中“条件应该给谁”这个棘手问题，通过一个轻量级的掩码预测器在扩散去噪过程中动态地为每个身份划分“领地”，并据此注入音频，设计精巧且实用。短板是尽管方法强大，但其核心依赖高质量的参考图像和清晰的身份边界，对于重叠严重、遮挡复杂或风格高度抽象的场景，其掩码预测器的鲁棒性和最终生成质量可能面临挑战，论文对此讨论有限。 🔗 开源详情代码：提供了代码仓库链接（基于Wan2.1重新实现），并包含了数据处理和模型推理的伪代码。模型权重：提到了公开的预训练模型权重。数据集：论文中提及的数据集“OpenHumanVid”及其处理管线代码已开源，但完整的训练数据集本身未提及公开下载方式。 Demo：论文提供了视频演示链接：https://zhenzhiwang.github.io/interacthuman/ 复现材料：提供了详细的训练细节（硬件、批大小、学习率）、模型架构说明、消融实验设置以及完整的算法伪代码，复现信息非常充分。引用的开源项目：基础模型Wan2.1；wav2vec 2.0；Qwen2.5-VL / Qwen2-VL；Grounding-SAM2；Florence-2；PySceneDetect；PaddleOCR；Q-align；RAFT；RTMpose；SyncNet；PyTorch FSDP。 📌 核心摘要问题：现有音频驱动或图像定制的视频生成方法大多基于单一主体假设，将条件信息全局注入，无法处理多人对话、人与物体交互等需要为不同身份独立控制外观和声音的多概念复杂场景。方法核心：提出了InterActHuman框架。核心是在预训练的DiT视频生成模型中集成一个轻量级的掩码预测器，该预测器通过交叉注意力机制，从噪声视频特征和参考图像特征中显式预测每个参考身份在视频帧中的时空布局（掩码）。在推理时，采用迭代缓存策略：用前一去噪步骤预测的掩码作为先验，指导当前步骤的局部音频条件注入，将每个身份对应的音频特征仅注入到其掩码区域内。创新点：与依赖隐式特征融合的现有方法不同，本工作首次为多概念人类动画引入了显式、布局对齐的局部条件注入范式。这打破了单一实体假设，实现了对多个身份外观和声音的精确、独立控制。主要实验结果：在多人音频驱动视频生成任务上，本文方法在唇形同步精度（Sync-D↓：6.670 vs OmniHuman的9.482）、视频整体质量（FVD↓：22.881 vs 33.895）和运动多样性（HKV↑：59.635）等关键指标上显著优于所有基线。在多概念定制任务上，也在概念保真度（CLIP-I↑：0.744）和视频质量（IQA↑：4.903）上达到最优。用户研究也显示其在唇形同步和主体一致性方面最受青睐。方法 Sync-D↓ FVD↓ IQA↑ AES↑ OmniHuman (全局音频) 9.482 33.895 4.768 3.466 OmniHuman (固定掩码) 7.068 40.239 4.690 3.369 Ours (预测掩码) 6.670 22.881 4.757 3.467 实际意义：为多模态、多概念的人类动画生成建立了有效基线，可直接应用于多人视频对话、虚拟角色互动、基于多张图片的视频定制等场景。主要局限性：训练数据主要集中于2-3人的场景，可能限制其向更多人（>3）场景的泛化能力；生成能力受限于人类中心领域，对复杂多样的文本提示遵循能力弱于通用视频生成模型。 🏗️ 模型架构模型整体是一个基于MMDiT（Multi-Modal Diffusion Transformer）的视频生成框架，其核心创新在于加入了掩码预测与局部条件注入机制。 ...

JavisDiT++: Unified Modeling and Optimization for Joint Audio-Video Generation

📄 JavisDiT++: Unified Modeling and Optimization for Joint Audio-Video Generation #音视频生成 #流匹配 #扩散模型 #多模态模型 ✅ 7.5/10 | 前25% | #音视频生成 | #流匹配 | #扩散模型 #多模态模型学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Kai Liu, Yanhao Zheng, Kai Wang（共同第一作者） Kai Liu：浙江大学，与HiThink Research有关 Yanhao Zheng：未明确说明机构 Kai Wang：多伦多大学通讯作者：Hao Fei（新加坡国立大学）作者列表： Kai Liu (浙江大学, HiThink Research) Yanhao Zheng (未说明具体机构) Kai Wang (多伦多大学) Shengqiong Wu (新加坡国立大学) Rongjunchen Zhang (HiThink Research) Jiebo Luo (罗切斯特大学) Dimitrios Hatzinakos (多伦多大学) Ziwei Liu (南洋理工大学) Hao Fei (新加坡国立大学，通讯作者) Tat-Seng Chua (新加坡国立大学) 💡 毒舌点评论文的最大亮点在于提出了一个简洁且高效的统一框架（MS-MoE + TA-RoPE），显著缩小了开源联合音视频生成模型与商业模型Veo3之间的差距。然而，所有实验仅在标准学术基准（JavisBench）上进行，缺乏对真实世界长尾场景、复杂语义或大规模生成能力的验证，其声称的“里程碑”意义有待更广泛的应用场景检验。 ...

LayerSync: Self-aligning Intermediate Layers

📄 LayerSync: Self-aligning Intermediate Layers #生成模型 #扩散模型 #流匹配 #自监督学习 ✅ 7.5/10 | 前25% | #生成模型 | #扩散模型 | #流匹配 #自监督学习学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Yasaman Haghighi (EPFL，与Bastien van Delft共同第一作者) 通讯作者：Alexandre Alahi (EPFL) 作者列表：Yasaman Haghighi (EPFL VITA实验室)， Bastien van Delft (EPFL VITA实验室)， Mariam Hassan (EPFL VITA实验室)， Alexandre Alahi (EPFL VITA实验室) 💡 毒舌点评亮点：本文用一个极其简单（对齐两个层的特征）且零开销的插件，就在多个模态上实现了显著的训练加速和质量提升，堪称扩散模型领域的“高效内部教练”，实用价值很高。短板：所谓的“内部强层指导弱层”缺乏坚实的理论分析，层的选择（如“避开最后20%”）更像是经验性的“土方子”，其有效性边界和内在机理有待更深入的剖析。 🔗 开源详情代码：论文提供代码仓库链接：https://github.com/vita-epfl/LayerSync.git。模型权重：论文中未提及公开训练好的模型权重。数据集：使用公开数据集（ImageNet， MTG-Jamendo， HumanML3D， CLEVRER， MixKit），获取方式遵循各数据集原有许可，论文中未特别说明。 Demo：论文中未提及在线演示。复现材料：提供了非常详细的超参数设置表（表18，19）、模型架构细节（表20）、算法伪代码（算法1）以及计算资源描述。复现信息充分。引用的开源项目：论文中引用并依赖以下开源项目/模型：SiT， Stable Diffusion VAE， Stable Audio Open VAE， DINOv2， MDM等。 📌 核心摘要解决的问题：扩散模型（如DiT/SiT）训练成本高昂。已有工作通过将模型内部表征与外部强大预训练模型（如DINOv2， VLM）对齐来加速训练，但这种方法依赖外部模型、引入计算开销且跨领域泛化能力有限。方法核心：提出LayerSync，一种自包含、即插即用的正则化方法。核心思想是利用扩散模型自身深度网络中表征质量的异质性，将语义信息更丰富的深层块（强层）的输出作为目标，通过最大化相似度（如余弦相似度）来对齐并指导浅层块（弱层）的表征学习，从而实现模型内部的自我提升。与已有方法相比的新意：与依赖外部模型的对齐方法（如REPA， REED）不同，LayerSync无需任何外部模型或数据，计算开销几乎为零。与另一种自包含方法Dispersive Loss（鼓励表征分散）相比，LayerSync提供了更直接的定向学习信号（强层对齐弱层）。主要实验结果：图像生成（ImageNet 256x256）：使用LayerSync的SiT-XL/2模型，训练800 epochs后FID达到1.89（使用CFG），比基线SiT-XL/2的2.06降低了8.3%，在纯自监督生成方法中达到SOTA。相比基线SiT-XL/2，训练160 epochs时的FID（8.29）已低于基线训练1400 epochs时的FID（8.3），实现了超过8.75倍的训练加速。相比Dispersive Loss，在相同epoch下FID改进幅度平均高出约20个百分点。音频生成（MTG-Jamendo）：使用LayerSync的SiT-XL模型，在650 epochs时FAD（CLAP）为0.199，相比基线的0.251降低了20.7%。收敛速度提升约23%。人体运动生成（HumanML3D）：使用LayerSync的MDM模型，在600K迭代后FID为0.4801，相比基线的0.5206降低了7.7%。表示分析：在相同生成质量（FID）下，使用LayerSync的模型在分类（+32.4%）和语义分割（+63.3%）任务的线性探测精度上远超基线模型，表明其学到了更优质、更同质化的内部表征。实际意义：提供了一种简单、通用且高效的扩散模型训练加速方案，可无缝应用于不同模态（图像、音频、视频、运动），为降低生成模型训练门槛、推动其广泛应用提供了新思路。主要局限性：对齐的层对选择依赖启发式规则（如避开最后20%的解码层、保证一定距离），其最优策略可能因架构而异；缺乏对“为何此对齐有效”的理论解释；虽然实验跨领域，但在更复杂任务（如高分辨率视频生成）上的大规模验证尚不充分。 🏗️ 模型架构本文的核心贡献并非提出新的生成模型架构，而是为现有的扩散/流匹配Transformer架构（如SiT）提供一个即插即用的训练正则化模块。 ...

NExT-OMNI: Towards Any-to-Any Omnimodal Foundation Models with Discrete Flow Matching

📄 NExT-OMNI: Towards Any-to-Any Omnimodal Foundation Models with Discrete Flow Matching #多模态模型 #流匹配 #音频生成 #语音对话系统 🔥 8.5/10 | 前25% | #多模态模型 | #流匹配 | #音频生成 #语音对话系统学术质量 6.0/7 | 选题价值 2.0/2 | 复现加成 1.0 | 置信度高 👥 作者与机构第一作者：Run Luo（中国科学院深圳先进技术研究院，中国科学院大学）通讯作者：Xiaobo Xia（新加坡国立大学，中国科学技术大学）；Min Yang（中国科学院深圳先进技术研究院，深圳大学先进技术研究院）作者列表：Run Luo（中国科学院深圳先进技术研究院，中国科学院大学）、Xiaobo Xia（新加坡国立大学，中国科学技术大学）、Lu Wang（Rtizz-AI）、Longze Chen（中国科学院深圳先进技术研究院，中国科学院大学）、Renke Shan（Rtizz-AI）、Jing Luo（中国科学院深圳先进技术研究院，中国科学院大学）、Min Yang（中国科学院深圳先进技术研究院，深圳大学先进技术研究院）、Tat-Seng Chua（新加坡国立大学） 💡 毒舌点评亮点在于其架构的简洁与统一性，用单一DFM骨干取代了常见的AR+Diffusion混合或解耦设计，这在处理需要深度融合的多模态检索任务时确实显示出优势，实验也验证了这一点。短板则受限于“论文中未说明”训练硬件的具体规格和训练总时长，且其核心贡献——DFM在统一建模上的潜力——受限于仅7B的参数规模，大规模Scaling下的表现未知，使得“下一代范式”的论断稍显仓促。 🔗 开源详情代码：是，提供了GitHub仓库链接：https://github.com/ritzz-ai/Next-OMNI 模型权重：是，论文明确提到“开源”模型检查点，并提供了链接。数据集：部分公开。论文中使用的大部分数据集为公开数据集（如LAION, LibriSpeech等），但也包含“私有数据”。论文未提供统一的训练数据下载链接，但详细列出了数据来源和构成（表8）。 Demo：论文中未提及在线演示。复现材料：非常充分。附录中提供了模型设计细节（D）、数据策展详情（E）、训练配方（F，表9）和额外的实验与可视化结果（G, H, I）。论文中引用的开源项目：主要包括：Qwen2.5系列（骨干/对齐损失）、CLIP-ViT（视觉编码器初始化）、Whisper（音频编码器初始化）、FLUX（图像生成数据合成）、MMEvol（指令数据增强）、以及训练数据相关的多个公开数据集工具（如LAION, Common Crawl）。 📌 核心摘要本文旨在解决现有统一多模态模型在理解和生成任务间存在固有冲突、架构冗余（混合/解耦设计）导致难以支持跨模态检索等更通用场景的问题。核心方法是提出NExT-OMNI，首个完全基于离散流匹配（DFM）的开源全能态基础模型。与已有的自回归或混合架构相比，其新在：1）完全摒弃自回归范式，采用DFM进行并行去噪，原生支持双向信息融合；2）设计了带有重建损失的统一表征编码器，为生成、理解和检索任务提供一体化特征；3）引入动态长度生成策略和自适应缓存机制以提升效率。主要实验结果如下：在全能态理解基准（OmniBench, WorldSense, AV-Odyssey）上，平均得分39.7，优于OpenOmni（36.5）；在多轮视觉交互（OpenING）上，平均分55.0，显著高于前代模型；在多模态检索（MMEBEDIR子集）上，平均Top-5准确率32.9，优于所有对比模型（MMaDA为31.8）；在语音交互（Spoken QA）上取得有竞争力的结果。实际意义在于，它为构建更统一、高效的全能态基础模型提供了一个有前景的新范式。主要局限性在于，受限于计算资源，模型仅在7B规模上训练和验证，其在大规模下的潜力尚未证明。 ...

Resp-Agent: An Agent-Based System for Multimodal Respiratory Sound Generation and Disease Diagnosis

📄 Resp-Agent: An Agent-Based System for Multimodal Respiratory Sound Generation and Disease Diagnosis #音频分类 #音频生成 #多模态模型 #流匹配 #大语言模型 🔥 8.5/10 | 前25% | #音频分类 | #多模态模型 | #音频生成 #流匹配学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0.8 | 置信度高 👥 作者与机构第一作者：Pengfei Zhang (香港科技大学（广州）) 通讯作者：Li Liu (香港科技大学（广州），邮箱：avrillliu@hkust-gz.edu.cn) 作者列表：Pengfei Zhang（香港科技大学（广州）），Tianxin Xie（未说明），Minghao Yang（未说明），Li Liu（香港科技大学（广州）） 💡 毒舌点评这篇论文最大的亮点是系统设计的“闭环”思想——用LLM规划器（Thinker）主动识别诊断弱点并指导生成器合成针对性数据，这比简单的过采样或数据增强要高明得多，且在数据集稀缺的医疗场景下思路很对路。短板则在于，虽然名为“Agent”，但其中的LLM规划器更多扮演了静态调度器的角色，论文对其“自主性”（如在线从诊断反馈中学习并调整策略）的展示和验证不足，削弱了Agent这一概念的冲击力；另外，多模态融合中，文本临床叙事的加入虽然带来了提升，但其具体贡献的“可解释性”与医生直觉的关联可以挖掘得更深。 🔗 开源详情代码：提供。论文中给出了GitHub仓库链接：https://github.com/zpforlove/Resp-Agent 模型权重：提供。论文中给出了HuggingFace模型权重链接：https://huggingface.co/AustinZhang/resp-agent-models 数据集：提供。论文中给出了HuggingFace数据集链接：https://huggingface.co/datasets/AustinZhang/resp-agent-dataset Demo：论文中未提及在线演示。复现材料：提供了训练和推理脚本、配置文件、完整的超参数设置（附录C）、训练细节和检查点，复现信息非常充分。论文中引用的开源项目：依赖的开源工具/模型包括：DeepSeek系列模型（V3.2-Exp, R1-Distill-Qwen-7B）、Qwen3-0.6B-Base、BEATs、Longformer、Vocos声码器、Conformer、AST、Whisper等。 📌 核心摘要这篇论文旨在解决深度学习在呼吸音听诊分析中面临的两个根本挑战：单模态表示的信息损失和标注数据的稀缺与不均衡。为此，论文提出了Resp-Agent，一个由中央规划器（Thinker-A2CA）编排的多智能体闭环系统。核心方法包括：1）一个可控生成器（Resp-MLLM），通过模态注入将大语言模型改造为多模态生成器，并结合流匹配解码器合成指定病理内容和声学风格的呼吸音；2）一个融合诊断器，通过模态编织将临床文本与音频嵌入在输入层融合，并利用稀疏全局注意力（音频锚点）捕捉瞬态声学事件。作为基础，论文构建了大规模多模态基准数据集Resp-229k（22.9万条记录）。主要实验结果表明，Resp-Agent在ICBHI数据集上以72.7的Score刷新了官方榜单记录，在Resp-229k跨域测试集上，其生成器配合规划器可将诊断器的宏F1分数从基线的0.212大幅提升至0.598。该工作为数据稀缺的医疗音频分析提供了整合生成与诊断的新范式，但其Agent的自主适应能力及系统在真实临床环境中的部署复杂度是其主要局限。模型/设置数据集指标数值备注 ICBHI 官方排行榜 (表2) 最佳先前方法 (Dong et al.) ICBHI Score (%) 67.55 SOTA Resp-Agent [Ours] ICBHI Score (%) 72.70 (+5.15) Resp-229k 跨域测试集 (表3, 表8) 音频基线 (Conformer) Test-CD Accuracy / Macro-F1 0.720 / 0.1935 仅音频，原始不平衡 Resp-Agent (无合成) Test-CD Accuracy / Macro-F1 0.849 / 0.212 多模态诊断器 Resp-Agent (Thinker-A2CA 合成) Test-CD Accuracy / Macro-F1 0.887 / 0.598 生成数据平衡后主要创新在于：1）首次提出并实现了针对呼吸音分析的“分析-生成”闭环Agent系统；2）创建了Resp-229k大规模、带临床文本的呼吸音基准，填补了数据空白；3）设计了融合文本与音频的模态编织诊断器，通过音频锚点机制提升了对瞬态病理性声音的捕捉能力。 ...

Scaling Speech Tokenizers with Diffusion Autoencoders

📄 Scaling Speech Tokenizers with Diffusion Autoencoders #语音分词 #扩散模型 #流匹配 #语音大模型 #语音识别 ✅ 7.5/10 | 前25% | #语音分词 | #扩散模型 | #流匹配 #语音大模型学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Yuancheng Wang（Meta超级智能实验室、香港中文大学（深圳））通讯作者：未明确说明（论文中提供了第一作者的邮箱地址 yuanchengwang@link.cuhk.edu.cn）作者列表：Yuancheng Wang（Meta超级智能实验室、香港中文大学（深圳））、Zhenyu Tang（Meta超级智能实验室）、Yun Wang（Meta超级智能实验室）、Arthur Hinsvark（Meta超级智能实验室）、Yingru Liu（Meta超级智能实验室）、Yinghao Li（Meta超级智能实验室）、Kainan Peng（Meta超级智能实验室）、Junyi Ao（Meta超级智能实验室、香港中文大学（深圳））、Mingbo Ma（Meta超级智能实验室）、Mike Seltzer（Meta超级智能实验室）、Qing He（Meta超级智能实验室）、Xubo Liu（Meta超级智能实验室） 💡 毒舌点评亮点：论文提出的SiTok在极低比特率（0.2 kbps）和极低帧率（12.5 Hz）下实现了领先的语音重建质量和下游任务性能，为语音大模型提供了高效的离散化接口，技术路径清晰且实验全面。短板：模型规模巨大（1.6B参数）且依赖未公开的200万小时内部数据进行训练，这对于大多数研究团队而言复现门槛极高，其性能是否完全来自架构创新还是数据规模红利需要进一步厘清。 🔗 开源详情代码：论文附录D提供了详细的伪代码，且承诺将在论文正式发表后发布完整的推理代码和预训练模型检查点至公共、仅限研究使用的数据集。但未提供当前可用的代码仓库链接。模型权重：未提及当前是否提供公开的预训练权重。承诺未来发布。数据集：训练数据为200万小时内部数据，未公开，无法获取。 Demo：提供了在线演示网站链接：https://sitok-demo.github.io/。复现材料：提供了非常详细的模型架构（附录A）、伪代码（附录D.1， D.2）、训练超参数（附录D.3）和消融研究配置，复现信息（除数据和硬件外）较充分。论文中引用的开源项目：主要引用了Llama系列模型架构、RoPE位置编码、Vocos声码器、AdamW优化器��通用组件。未提及依赖其他特定的开源语音分词或扩散模型工具。 📌 核心摘要问题：现有语音分词器在平衡语义理解（需要压缩）与声学保真（需要细节）方面存在根本矛盾，尤其在极低比特率/帧率设置下，传统基于向量量化和回归损失的优化方式存在结构性瓶颈。方法核心：提出SiTok，一种基于扩散自编码器的语音分词器。其核心是端到端地联合优化离散量化与生成式重建，并引入一个基于CTC损失的辅助解码器对量化后的离散潜空间进行语义正则化，以学习同时具备高保真度和丰富语义的离散表示。创新点：a) 采用流匹配（扩散模型的一种）作为解码目标，替代传统回归损失或GAN，更有效地从激进压缩的离散码中恢复语音；b) 端到端联合训练量化器与扩散解码器，避免了两阶段训练导致的次优离散码；c) 直接对离散潜变量施加CTC语言监督，确保令牌的语义一致性；d) 探索了快捷微调等高效解码策略，将扩散推理步数大幅减少至2-4步。主要实验结果：SiTok在0.2 kbps和12.5 Hz的极端压缩设置下，重建WER为3.34（使用Classifier-Free Guidance），说话人相似度（SIM）达0.682（使用解码器微调），在语音重建和多项理解任务（ASR、情感识别、说话人验证、关键词检测）上均显著优于所有对比的强基线模型（见下表关键数据）。消融研究验证了扩散损失、语义正则化、模型缩放等关键设计的有效性。模型比特率(kbps) WER (↓) SIM (↑) UTMOS (↑) LLM ASR (↓) Ground Truth - 2.14 0.730 3.53 - Mimi (Baseline) 0.825 4.51 0.527 3.09 23.1 StableCodec (Baseline) 0.40 11.1 0.410 3.87 28.0 SiTok (CN=1, 基础) 0.20 4.06 0.641 3.44 4.95 SiTok (CN=1, +解码器微调) 0.20 3.79 0.682 3.48 - SiTok (CN=1, +Token CFG) 0.20 3.34 0.635 3.60 - 实际意义：为构建统一的、高效的语音大模型（同时处理理解和生成）提供了关键的离散化接口。其极低的令牌速率能显著缩短序列长度，提升语言模型的推理效率。主要局限性：a) 性能仍低于连续特征表示；b) 扩散解码器本身对流式生成不友好；c) 训练依赖大规模内部数据集，可获取性未说明。 🏗️ 模型架构 SiTok是一个基于扩散自编码器的语音分词系统，整体流程为：梅尔频谱图 -> 下采样 -> 编码器 -> 向量量化 -> 离散令牌 -> 扩散解码器 -> 重建梅尔频谱图。 ...

Stable Video Infinity: Infinite-Length Video Generation with Error Recycling

📄 Stable Video Infinity: Infinite-Length Video Generation with Error Recycling #视频生成 #流匹配 #数据增强 #多模态模型 🔥 8.8/10 | 前10% | #视频生成 | #数据增强 | #流匹配 #多模态模型学术质量 6.5/7 | 选题价值 1.8/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Wuyang Li（EPFL VITA实验室）通讯作者：Alexandre Alahi（EPFL VITA实验室）作者列表：Wuyang Li（EPFL VITA实验室）、Wentao Pan（EPFL VITA实验室）、Po-Chien Luan（EPFL VITA实验室）、Yang Gao（EPFL VITA实验室）、Alexandre Alahi（EPFL VITA实验室） 💡 毒舌点评亮点：论文将长视频生成的“误差累积”问题从现象层面（如何缓解）深刻剖析到根源层面（训练与推理的假设鸿沟），并巧妙地将模型的“弱点”（自身错误）转化为训练的“资源”（监督信号），这种“以毒攻毒”的闭环反馈思想极具启发性和理论美感。短板：论文的方法高度依赖于自回归的片段式生成范式，尽管声称“无限”，但其生成质量的长期稳定性（如分钟级甚至小时级）仍需更严苛的验证；此外，误差银行的记忆管理策略（如仅用L2距离替换）可能过于简单，或难以捕捉复杂多样的错误模式。 🔗 开源详情代码：论文中未提及代码链接，但承��将公开“full codebase”。模型权重：论文中提到将公开模型，但未提供具体链接或平台。数据集：论文构建了新的基准数据集（一致、创造性、条件生成），并承诺将开源所有“benchmark datasets”。 Demo：未提及在线演示。复现材料：提供了非常详细的训练超参数（Tab. 12）、数据集描述、架构修改说明和消融实验设置，复现指南较为充分。论文中引用的开源项目：依赖的基础模型为Wan 2.1，以及Kong et al. (2025)的音频交叉注意力、Wang et al. (2025b)的骨架注入方法。 📌 核心摘要问题：现有长视频生成方法受限于误差累积（漂移），生成长度通常在10秒到1分钟左右。根本原因在于训练时假设历史轨迹无误差（误差自由假设），但自回归推理时却依赖自身含有误差的输出，造成训练-测试的假设鸿沟。核心方法：提出Stable Video Infinity (SVI)，其核心是误差回收微调（ERFT）。该方法打破误差自由假设，主动将模型自身生成的错误（误差）注入到干净输入中，训练模型预测一个指向干净目标的“误差回收速度”，从而让模型学会识别和纠正自身错误。创新与差异：不同于以往通过修改噪声调度器、锚定参考帧或改进采样策略来缓解误差，SVI通过误差回收机制主动纠正误差本身。具体包括：(i) 在流匹配的起始、中间、终点注入三类误差来模拟累积退化；(ii) 通过单步双向积分高效计算误差；(iii) 设计误差重放缓存池，根据时间步动态存取和采样误差。主要结果：在三个基准（一致性、创造性、条件生成）上均达到SOTA。在250秒超长一致性视频生成中，SVI-Shot的主体一致性达到97.89%，仅比短设置下降0.63%，而基线方法下降显著（如FramePack降13.71%）。在创造性视频生成中，SVI-Film能根据文本流生成平滑的场景切换，而基线方法失败。具体实验结果见下表：模型场景主体一致性背景一致性美学质量图像质量一致视频生成 (50秒) Wan 2.1 单一 92.45% 56.40% 65.70% 12.68% FramePack 单一 94.72% 63.57% 66.72% 7.75% SVI-Shot (Ours) 单一 98.19% 63.84% 71.88% 17.61% 超长一致视频生成 (250秒) Wan 2.1 单一 87.27% 56.19% 65.37% 14.29% FramePack 单一 86.64% 55.66% 57.61% 0.00% SVI-Shot (Ours) 单一 97.89% 65.75% 71.54% 21.43% 实际意义：首次实现了从“秒”到“无限”的非循环超长视频生成，突破了现有长度限制，为端到端长片创作、互动叙事和世界模型模拟开辟了新可能。主要局限：当测试时图像风格与训练分布不符时，模型可能误将风格差异当作“错误”进行“纠正”，导致相邻片段颜色偏移；目前模型基于并行生成，尚未实现实时流式输出；在复杂多镜头创意生成中，长期身份一致性仍有挑战。 🏗️ 模型架构 SVI的核心架构是基于视频扩散Transformer (DiT)，并通过误差回收微调（ERFT）进行增强，其主要流程如下： ...