扩散模型 | 语音/音乐/音频论文速递

Native Audio-Visual Alignment for Generation

📄 Native Audio-Visual Alignment for Generation #音频生成 #多模态模型 #扩散模型 ✅ 7.8/10 | 前50% | #音频生成 | #多模态模型 | #扩散模型 | arxiv 学术质量 8.0/7 | 影响力 7.0/2 | 可复现性 0.2/2 | 置信度高 👥 作者与机构作者：Longbin Ji, Guan Wang, Xuan Wei, Chenye Yang, Xiangrui Liu, Zhenyu Zhang, Shuohuan Wang, Yu Sun, Jingzhou He 单位：ERNIE Team, Baidu Inc. 💡 毒舌点评这篇论文的工作是扎实的，但在某些关键细节的阐述上如同雾里看花。所谓“原生对齐”和“上下文条件解耦”听起来很美，但具体的模态交互机制（自注意力的具体实现、位置编码的细节）和“对齐”是如何通过优化目标学习到的，描述得不够透明，这让方法的可复现性和理论深度打了折扣。评估部分，尽管指标全面，但自家提出的指标（如IB-Score）和自家模型拿最优，而通用指标（如FD）并非最佳，这种选择性最优需要更审慎的解读。此外，声称“显著优于”基线，但在部分关键指标（如TI2AV任务下的总体质量）上优势并不明显，结论稍显强势。开源方面，除了一个项目主页，代码、权重、数据均未见踪影，这对于一篇声称复现重要性的论文来说是重大减分项。总体而言，这是一篇工程完成度高、有一定启发性的工作，但距离“完美”或“无可辩驳的优越”还有距离，其“严苛”之处在于对技术黑箱和评估话术的审视。 📌 核心摘要本文针对音视频联合生成中同步性与语义条件控制耦合的问题，提出了NAVA（Native Audio-Visual Alignment）框架。该框架的核心思想是将音频-视频的同步对齐与外部文本/音色条件的注入解耦：首先在一个专用的“对齐空间”内让音频和视频令牌通过自注意力交互，建立原生的事件级对应关系；随后，通过交叉注意力注入文本和音色等上下文条件，指导去噪过程。这一解耦由“Align-then-Fuse MMDiT”架构实现，前10层为分层对齐层（HAL），后20层为统一融合层（UFL）。为实现可控的多说话人生成，论文提出了“Timbre-in-Context Conditioning”机制，将参考音色表示为上下文令牌并绑定到对应的语音片段。训练采用三阶段渐进式多任务策略。实验在Verse-Bench和Seed-TTS基准上进行，结果表明，NAVA以6.3B参数在音视频同步性（Sync-C）和视频质量（IB-Score）上达到了最优水平，并在音色控制任务中取得了最佳的说话人相似度，同时保持了有竞争力的音频质量。 🔗 开源详情代码：论文中未提供代码仓库链接。仅给出项目主页 ernie-research.github.io/NAVA，通常此类主页会链接到代码，但当前页面未直接提供开源代码地址。模型权重：论文中未提供模型权重的下载链接。虽提及从Wan2.2-5B初始化，但未说明Wan2.2系列模型的具体获取方式。数据集：论文中未提供训练数据集的下载链接。详细描述了构建约1500万片段的训练语料库的流程，但未提供这些数据的公开获取地址。复现材料：附录详细描述了数据构建流程、数据统计信息、提示词工程模板以及训练基础设施与成本（约107，520 H100 GPU小时）。但未提供具体的训练超参数配置文件、中间检查点或最终模型的下载。 🏗️ 方法概述和架构 NAVA框架旨在实现“原生音视频对齐”（Native Audio-Visual Alignment），即在生成过程中直接建立音频和视频的同步对应，同时将外部条件（如文本、音色）作为独立于同步过程的引导信号。 ...

Dasheng AudioGen: A Unified Model for Generating Coherent Audio Scenes from Text

📄 Dasheng AudioGen: A Unified Model for Generating Coherent Audio Scenes from Text #音频生成 #语音合成 #音乐生成 #多模态模型 #扩散模型 #流匹配 #模型评估 #数据增强 🔥 8.6/10 | 前25% | #音频生成 | #数据增强 | #语音合成 #音乐生成 | arxiv 学术质量 6.6/7 | 影响力 1.6/2 | 可复现性 0.4/2 👥 作者与机构作者: Jiahao Mei (1, 2), Heinrich Dinkel (2), Yadong Niu (2), Xingwei Sun (2), Gang Li (2), Yifan Liao (2), Jiahao Zhou (2), Junbo Zhang (2), Jian Luan (2), Mengyue Wu (1) 机构: 1: X-LANCE Lab, Shanghai Jiao Tong University, Shanghai, China 2: MiLM Plus, Xiaomi Inc., Beijing, China ...

DEMON: Diffusion Engine for Musical Orchestrated Noise

📄 DEMON: Diffusion Engine for Musical Orchestrated Noise #音乐生成 #扩散模型 ✅ 6.0/10 | 前50% | #音乐生成 | #扩散模型 | arxiv 学术质量 6.0/7 | 影响力 6.5/2 | 可复现性 0.5/2 | 置信度中 👥 作者与机构作者：Ryan Fosdick。机构：论文中未提及。 💡 毒舌点评这篇论文更像是一份“实时音频扩散系统的工程实现报告”，而非一篇典型的机器学习研究论文。其核心贡献是构建了一个整合现有技术（ACE-Step, StreamDiffusion, TensorRT）的复杂管线，并对其控制参数的传播特性进行了细致的工程分析。论文的亮点在于对“参数传播延迟”这一实际部署问题的深入剖析和量化，这对于构建交互式系统至关重要。然而，其弱点也同样明显：缺乏任何形式的用户研究或正式的听觉感知评估。所有的“音乐性”、“控制性”和“质量”主张都建立在客观指标（CLAP, SNR, FAD）和延迟测量之上，这使得论文的核心价值——“将去噪过程变为可演奏的乐器”——显得根基不稳。作者在讨论中坦承了这一局限，但这恰恰是本文最大的软肋。它证明了系统“能跑”，但未能有力证明系统“好用”且“好玩”。对于一篇以“乐器”和“表演”为旗号的论文，这种缺失是致命的。此外，论文声称的创新点（如per-slot异构调度）在工程上很有意义，但作为学术贡献，其新颖性和普适性有待更强的论证。 📌 核心摘要本文介绍了DEMON，一个基于扩散模型的实时音乐生成引擎，旨在将去噪过程转化为一个低延迟、高吞吐量的交互式音乐控制界面。其核心架构构建于ACE-Step 1.5音乐生成模型和StreamDiffusion的环形缓冲区流式框架之上，并集成了TensorRT混合精度加速与窗口化VAE解码。论文的主要技术贡献在于提出了一个关于控制参数在流式扩散管线中传播特性的四类分析框架（每请求、迁移调度、每步共享可变、模型权重），并设计了per-slot异构去噪调度与基于SDE的per-frame源混合控制，以在维持高吞吐量的同时，实现参数变化的快速响应。实验在单张RTX 5090上实现了每秒12.3次针对60秒音乐的解码完成（窗口化VAE解码带来8.0倍加速），并量化了不同控制路径的延迟特性。然而，论文的局限性在于其所有质量与交互性主张均缺乏正式的听觉测试或用户研究支撑，且控制局限于去噪动态参数，无法直接操纵音符、和弦等音乐内容。系统的价值主要体现在工程集成与对实时交互延迟的深入分析上，而非提出新的生成模型。 🔗 开源详情代码：论文中未提供代码链接。模型权重：论文中未提供模型权重链接。数据集：实验评估中使用了FMA-small数据集的一个500轨道子集（用于FAD计算），FMA-small是公开数据集：https://huggingface.co/datasets/marsyas/gtzan。 Demo：项目主页包含实验音频示例：https://daydreamlive.github.io/DEMON/#experiments。复现材料：论文提及有补充发布，包含一些逐tick的测量表格，但未提供具体的训练配置、检查点或独立的复现指南。相关补充材料链接同项目主页。论文中引用的开源项目： StreamDiffusion：https://github.com/StreamDiffusion/StreamDiffusion ACE-Step：https://github.com/ace-step/ACE-Step StreamV2V：https://github.com/FramePack-Video/StreamV2V DDSP：https://github.com/magenta/ddsp RAVE：https://github.com/acids-ircam/RAVE 🏗️ 方法概述和架构 DEMON是一个五阶段的流式音频生成管线（Figure 1），其设计目标是将扩散模型的去噪过程转化为一个宽频（多参数、逐帧调控）且响应迅速的实时乐器。 Session API（用户接口层）：功能：作为系统入口，负责处理用户输入（如MIDI旋钮、参数），完成文本编码、源音频准备、LoRA（低秩适配器）的加载与管理，并缓存模型加载和torch.compile预热结果以加速后续生成。实现：此阶段封装了底层复杂性，为流式管线提供准备好的条件输入（文本嵌入、源潜变量、LoRA状态）。 StreamPipeline（流式核心）：功能：维持一个深度为\(D\)的环形缓冲区，其中包含多个处于不同去噪阶段的“在飞”生成任务。每个时钟周期（tick）执行一次批量前向传播，推进所有槽位（slot）的去噪进度。经过预热后，每\(S/D\)个tick完成一次生成（\(S\)为去噪步数）。核心组件与创新： Per-slot异构去噪调度：每个槽位作为独立的、有状态的对象，拥有自己的时间步长调度（在提交时根据当时的denoise值“烘焙”而成）。批量前向传播中，每一行（对应一个槽位）的时间步长从其自有调度中读取[slot.t_schedule[slot.step] for slot in active_slots]。这使得在用户连续调整去噪强度滑块时，新提交的槽位使用新调度，而在飞的旧槽位继续沿原调度完成，输出流不中断。与StreamDiffusion全局重置prepare()（会清空队列导致停顿）相比，该机制在连续滑动测试中实现了100%的完成率。共享可变逐步状态：对于在每个去噪步都会被读取的参数（如SDE曲线、x0目标强度），它们不作为冻结状态烘焙在槽位中，而是存储在管线级的共享状态寄存器中。一旦更新，所有在飞槽位在下一个tick就会读取新值，效果与剩余步数成正比。这绕过了环形缓冲区的排空延迟（\(S\) tick），实现了1 tick的响应起始延迟。在飞调度迁移：将denoise时间表视为共享可变状态，在每个tick顶部将新调度赋给所有在飞槽位（保持步索引不变，仅交换sigma值）。这实现了denoise参数变化的1 tick起始延迟，但会产生轨迹不连贯的混合输出，因此被定位为一个快速响应选项，而非主要控制表面。四类参数传播分类：系统将上述机制整合为一个分类法：a) 每请求（冻结）：如条件、源音频，在提交时烘焙，起始与收敛延迟均为\(S\) tick；b) 迁移调度（共享可变）：如去噪调度迁移，起始1 tick，收敛\(S\) tick（通过轨迹混合）；c) 逐步共享可变（影子）：如SDE曲线、x0目标强度，起始1 tick，收敛渐进式（远小于\(S\) tick）；d) 模型权重：如LoRA重载，起始与收敛均立即生效。 Diffusion Engine（扩散引擎）：功能：执行逐步去噪数学运算的核心，包括ODE/SDE求解器和塑造求解过程的逐帧控制曲线（“宽度”轴）。核心控制 - 逐帧SDE源混合：在标准的SDE重噪步骤（\(x_{t+1} = t_{next} \cdot \text{sde_noise} + (1-t_{next}) \cdot x_{0,\text{pred}}\)）之上，添加了一个逐帧（per-frame）混合操作： \[ x_{t,\text{next}} = \text{curve}[t] \cdot x_{t,\text{full}} + (1 - \text{curve}[t]) \cdot x_{t,\text{source}} \] 其中 \(x_{t,\text{source}} = t_{next} \cdot \text{sde_noise} + (1-t_{next}) \cdot \text{source_latents}\)。当curve=1.0时为标准SDE；当curve=0.0时完全锚定于源潜变量。通过为不同帧设置不同的曲线值（如从0到1的渐变），可以在单次生成中实现不同时间区域的差异化处理（如开头保留原声，结尾完全生成），这是全局标量denoise无法实现的。其他逐帧曲线：引擎还暴露了一系列可逐帧调制的去噪动力学曲线（Table 2），包括guidance_curve（动态引导强度）、velocity_scale（帧级变换速率）、ode_noise_curve（帧级随机纹理）、x0_target_strength（帧级向独立目标混合）等。所有曲线均可通过共享状态进行实时控制。 Latent Similarity Filter（潜变量相似性过滤器）：功能：在VAE解码前，计算当前完成潜变量与前一个潜变量的均方误差（MSE）。若低于阈值（\(1 \times 10^{-3}\)），则跳过本次VAE解码，直接复用上一次的音频输出。实现：这是对StreamDiffusion随机相似性过滤器的确定性改编，用于节省稳定区域的解码开销。 Windowed VAE Decode（窗口化VAE解码）：功能：解决全潜变量（如60秒对应1500帧）VAE解码的高延迟问题。实现：基于对Oobleck VAE经验感受野的分析，仅解码当前播放窗口及两侧的重叠裕量（默认0.5秒，约12.5帧），而非整个潜变量。在裕量之外，窗口内的输出与全解码在16位PCM渲染下逐样本完全一致。这使得VAE解码延迟与生成时长解耦，仅取决于窗口大小（如3秒窗口下解码从56ms降至7ms）。 Acceleration（加速层）： TensorRT混合精度引擎：将DiT解码器导出为ONNX，采用混合精度策略（注意力与MLP使用fp16，时间步嵌入、AdaLN、RMSNorm使用fp32）以避免全fp16量化在24层DiT中累积导致的输出衰减（约7倍）和NaN问题。运行时LoRA重载：启用TRT的REFIT构建器标志，在运行时通过IRefitter API直接应用LoRA权重的增量（\(B \times A\)，在fp32中计算后转为引擎数据类型），无需重新构建引擎，实现风格的快速热切换。 VAE TRT引擎：为编码器和解码器分别构建支持动态形状的TRT引擎，并共享CUDA流以避免同步开销。数据流与交互：用户参数通过Session API转化为条件输入。StreamPipeline管理多个并行去噪任务（槽位），每个tick从各槽位读取时间步长（异构调度）和共享可变状态（如SDE曲线），提交给Diffusion Engine进行一次批量前向传播。完成的潜变量经过相似性过滤器，若需更新则由窗口化VAE解码为音频块，最后通过交叉淡入淡出加入输出流。加速层贯穿始终，确保全链路实时性。 ...

Hidden in Plain Tokens: Simply Robust, Gradient-Free Watermark for Synthetic Audio

📄 Hidden in Plain Tokens: Simply Robust, Gradient-Free Watermark for Synthetic Audio #语音合成 #语音转换 #生成对抗网络 #对比学习 #扩散模型 #多任务学习 🔥 10/10 | 前25% | #语音合成 | #生成对抗网络 | #语音转换 #对比学习 | arxiv 学术质量 6.5/7 | 影响力 2/2 | 可复现性 1.5/2 | 置信度高 👥 作者与机构 Georgios Milis, Yubin Qin, Yihan Wu, Heng Huang。论文未明确提及作者所属机构。 💡 毒舌点评本文提出了一种思路精巧且理论扎实的音频水印方法，其核心贡献在于发现了重标记化错误的结构性并利用图社区检测来缓解，实现了“无梯度训练”下的显著性能提升，这在当前需要白盒微调的解决方案中是一股清流。然而，审稿人认为其评估存在明显偏科和不足：1）对音频质量影响的评估深度不足，仅报告了FAD和预测MOS，缺乏如PESQ、STOI或主观听测（如ABX测试）等更全面的音频质量客观指标和人类评估，尤其是在声称“对生成质量影响微小”时，说服力有限。2）对“语义相邻”的假设和聚类结果缺乏深入分析，论文观察到错误具有结构性，但未提供任何可视化或量化证据（如混淆矩阵热图、聚类可视化）来向读者直观展示这种“语义相邻”到底是什么样子，以及Leiden算法究竟聚出了什么样的集群。3）局限性讨论可以更深入，例如，方法依赖于对特定编解码器进行离线聚类，当编解码器版本更新或部署环境变化时，聚类可能失效，如何维护？此外，将令牌聚类为簇，本质上是降低了水印的“分辨率”和熵，这可能在更长的上下文或更复杂的模型中带来新的、未被探讨的统计特性（如检测p值的分布变化）。4）实验比较的选择性，主要对比了Base和WMAR，但缺少与同属“训练无关”范畴的、其他可能的令牌聚类或特征空间对齐方法的比较，削弱了结论的普适性。 📌 核心摘要本文针对自回归音频生成模型中令牌级水印因重标记化错误而失效的问题，提出了一种新颖的、梯度无关的解决方案。核心思想是：观察到重标记化错误并非随机，而是将令牌混淆为少量“语义邻居”，这种结构性冗余可以通过图社区检测算法（Leiden）发现并利用。方法将音频编解码器的令牌词表建模为图，边权为混淆概率，然后运行社区检测算法得到“令牌簇”。水印机制（基于KGW）在簇级别而非原始令牌级别上实施，从而对重标记化噪声变得鲁棒。理论分析量化了令牌匹配率\(r\)和簇匹配率\(r_{cl}\)对水印检测统计量\(\mathbb{E}[z|H_1]\)的指数级影响。在Moshi（Mimi编解码器）和MusicGen（EnCodec）上的全面实验表明，该方法在检测性能上比基线（包括微调编解码器的WMAR方法）提高了数个数量级，对常见的音频处理攻击（如滤波、压缩、时移）保持强鲁棒性，且对音频质量（FAD、预测MOS）影响较小。此外，该方法在CosyVoice3和Spark-TTS等基于流匹配的文本转语音模型上也验证了有效性。 🔗 开源详情代码：提供项目主页链接：https://g-milis.github.io/projects/nograd-audio-wm.html，用于发布音频样本和代码。模型权重：论文中未提及。数据集：实验使用了开源数据集LibriSpeech、MusicCaps、Free Music Archive和LibriTTS，但未在论文中提供具体下载链接。 Demo：论文中未提及。复现材料：论文在附录E (Experimental Details) 中提供了详细的复现信息，包括：构建词汇缩减所用音频数据集（Mimi/TTS用LibriSpeech开发集，EnCodec用MusicCaps）。聚类超参数网格搜索过程（分辨率\(\rho\)和噪声阈值\(m\)）。最终选定的超参数（表8）。水印参数（\(\gamma, \delta, h\), 生成长度）。各种鲁棒性攻击的具体设置（滤波器截止频率、噪声标准差、MP3比特率、时移比例、裁剪比例等）。论文中引用的第三方开源项目（论文正文仅提及名称，未提供具体链接）：Mimi, MusicGen, EnCodec, Leiden, Louvain, Whisper, WMAR, CosyVoice3, Spark-TTS, FaCodec, SpeechTokenizer, DAC, LibriSpeech, MusicCaps, Free Music Archive, LibriTTS。 🏗️ 方法概述和架构本文方法的核心架构是一个两阶段的离线准备与在线水印方案，其设计动机是解决令牌级水印在连续模态（如音频）中因重标记化（retokenization）不一致导致的鲁棒性崩溃问题，且完全不依赖于梯度信息或对编解码器进行微调。 ...

WaveNeXt 2: ConvNeXt-Based Fast Neural Vocoders With Residual Denoising and Sub-Modeling for GAN and Diffusion Models

📄 WaveNeXt 2: ConvNeXt-Based Fast Neural Vocoders With Residual Denoising and Sub-Modeling for GAN and Diffusion Models #语音合成 #生成对抗网络 #扩散模型 #低资源 🔥 8.5/10 | 前25% | #语音合成 | #生成对抗网络 | #扩散模型 #低资源 | arxiv 学术质量 5.6/7 | 影响力 1.6/2 | 可复现性 1.3/2 | 置信度高 👥 作者与机构未提及。 💡 毒舌点评这篇论文在工程实用性和架构统一性上做得不错，但部分宣传和分析需要更审慎。声称“首次”统一框架，但框架本身的核心（残差去噪、子模型）并非原创，主要贡献在于将ConvNeXt生成器成功适配到两种范式并进行了充分的实证对比。其提出的“简化”GAN训练策略（无需初始噪声和增益调整）的理论依据和泛化能力存疑，更像是一种经验性的工程trick。子模型导致参数线性增长是一个显著的实用缺陷，作者虽提及但轻描淡写，这对资源敏感的部署场景影响很大。论文将“多说话人性能提升”作为重要卖点，但除了展示在LibriTTS-R上的结果，并未深入分析其机制（如说话人嵌入、归一化技术的改进），显得结论有余而洞察不足。总体而言，这是一篇扎实的系统性工作，但距离开创性研究尚有差距。 📌 核心摘要本文提出了WaveNeXt 2，一个基于ConvNeXt的统一生成器框架，可同时应用于GAN和扩散模型两种神经声码器。其核心创新在于引入了残差去噪和子模型结构，使生成器能够以迭代方式从噪声中逐步恢复波形。在多说话人数据集LibriTTS-R上的实验表明：(1) GAN-WaveNeXt 2在保持与WaveFit、HiFi-GAN相当合成质量的同时，实现了GPU上70%、CPU上高达90%的推理速度提升；(2) 扩散模型版本Diff-WaveNeXt 2在4步推理下，CPU推理速度比FastDiff快80%，并取得了有竞争力的合成质量；(3) Diff-WaveNeXt 2的训练效率极高，仅需32小时。该框架为不同应用场景（快速部署或高质量合成）提供了灵活的选择。 🔗 开源详情代码：论文未提供WaveNeXt 2自身的官方代码、模型权重或训练脚本链接。但提供了其复现所依赖的第三方开源项目链接： ParallelWaveGAN (HiFi-GAN V1 非官方实现): https://github.com/kan-bayashi/ParallelWaveGAN WaveFit 非官方实现: https://github.com/yukara-ikemiya/wavefit-pytorch FastDiff 官方实现: https://github.com/Rongjiehuang/FastDiff Vocos 官方实现: https://github.com/gemelo-ai/vocos 模型权重：未提及。数据集：未提供直接下载链接。使用LibriTTS-R数据集（约585小时，24kHz），具体为 train-clean-100 和 train-clean-360 子集训练，test-clean-100 子集评估。 Demo：https://37integer.github.io/WAVENEXT-2 复现材料：论文详细描述了训练设置（硬件、框架、损失函数、超参数），但未提供可直接下载的配置文件或检查点。 🏗️ 方法概述和架构 WaveNeXt 2是一个统一的生成器框架，旨在通过单一的ConvNeXt基架构，同时支持GAN和扩散两种训练与推断范式。 ...

Diffusion Domain Expansion: Learning to Coordinate Pre-trained Diffusion Models

📄 Diffusion Domain Expansion: Learning to Coordinate Pre-trained Diffusion Models #扩散模型 #生成模型 #模型融合 #迁移学习 ✅ 7.4/10 | 前50% | #扩散模型 | #生成模型 | #模型融合 #迁移学习 | arxiv 学术质量 5.4/7 | 影响力 1.2/2 | 可复现性 0.8/2 👥 作者与机构 Egor Lifar, Semyon Savkin, Timur Garipov, Shangyuan Tong, Tommi Jaakkola. 💡 毒舌点评这篇论文做了一件工程上很“讨巧”的事情：面对预训练扩散模型能力有限的痛点，它没有选择“炼更大力的丹”（训练更大模型），而是“雇了个小工”（轻量协调器）来指挥一堆“小模型”干活。想法直观，实验也算扎实，覆盖了音频和图像。但仔细一想，这个“协调器”本质上是在学一个“如何更好地做拼接”的策略。虽然它展示了从L_train泛化到L_test > L_train的能力，这确实是个亮点，但论文对“为什么能泛化”以及“泛化的边界在哪”缺乏理论层面的探讨，让人感觉有点知其然不知其所以然。此外，实验虽然跨领域，但核心场景（时间轴拼接、空间条件拼接）相对单一，未能展示在更复杂协调任务（如跨模态、异构模型协调）上的威力。开源情况约等于零，给复现带来了不必要的障碍。 📌 核心摘要本文提出了扩散域扩展（DDE），一种通过训练一个轻量级、参数高效的协调器（基于ViT架构）来扩展预训练扩散模型生成能力的方法。该协调器学习协调多个预训练模型在重叠区域上的去噪输出，生成更大尺寸或更复杂条件的对象。论文的关键贡献在于展示了协调器可以泛化到训练时未见过的更大生成规模。实验在长音轨生成、多条件图像生成和卫星地图条件图像生成三个任务上进行，结果表明DDE在多项指标上优于MultiDiffusion等基线方法。 🔗 开源详情代码：论文中未提及代码链接。模型权重：论文中未提及。数据集： Slakh2100（音乐生成）：论文引用了该数据集（Manilow et al., 2019），但未直接提供下载链接。 CLEVR（条件图像生成）：论文引用了该数据集（Johnson et al., 2016），但未直接提供下载链接。卫星图像数据集：论文中指出该数据集是作者使用 Google Maps API 收集并处理的（见 B.3.1 节），但未公开数据集链接或提供获取方式。 Demo：论文中未提及。复现材料：论文的附录 B 详细提供了所有实验的配置、模型架��细节、超参数设置以及采样器信息，构成了完整的复现指南。论文中引用的开源项目： denoising_diffusion_pytorch：论文在 B.2.3 节和 B.3.2 节中提及使用了该库的 UNet 架构（标注为“denoising_diffusion_pytorch (url)”），但未提供具体 URL。 EDM (Karras et al., 2022)：论文在附录开头提及使用 EDM 框架进行训练和采样。其代码通常可在此仓库获取：https://github.com/NVlabs/edm。论文中提到“imported from the code provided by (Karras et al., 2022)”。 RoPE (Rotary Position Embedding, Su et al., 2023)：论文在 3.2 节和 B.3.4 节中描述使用了 RoPE 进行位置编码。原始实现通常与 LLaMA 等模型相关，论文未提供具体代码链接。 🏗️ 方法概述和架构 DDE方法的核心思想是将一个大型生成任务分解为多个小任务，利用现有的预训练扩散模型处理每个小任务，然后通过一个可训练的协调器网络来整合这些独立模型的输出，以生成全局一致的结果。 ...

FlowLong: Inference-time Long Video Generation via Manifold-constrained Tweedie Matching

📄 FlowLong: Inference-time Long Video Generation via Manifold-constrained Tweedie Matching #视频生成 #扩散模型 📝 4.9/10 | 前50% | #视频生成 | #扩散模型 | arxiv 学术质量 4.6/7 | 影响力 0.3/2 | 可复现性 0.0/2 | 置信度中 👥 作者与机构第一作者：Jangho Park（KAIST）第一作者（共同）：Geon Yeong Park（KAIST，标注为Equal contribution）通讯作者：Gihyun Kwon（Amazon）、Jong Chul Ye（KAIST）作者列表：Jangho Park（KAIST）， Geon Yeong Park（KAIST）， Gihyun Kwon（Amazon）， Jong Chul Ye（KAIST） 💡 毒舌点评一篇聪明地将无训练长视频生成问题，用流式扩散逆问题求解框架进行重构的工作。核心思想是把滑动窗口生成的“拼接”问题，转化为在重叠区域对预测干净样本进行Tweedie匹配的优化问题，并用随机早期采样来打破各窗口独立轨迹的惯性。这确实是一个简洁、优雅且即插即用的工程方案。然而，其“优雅”也带来局限：方法高度依赖底层流模型学到的数据流形，对于超出该流形覆盖的极端长程或复杂语义（如需要全局规划的叙事），缺乏理论保障；实验虽全面，但对音视频联合生成等扩展任务的评估深度不足，更像一个概念验证；且整个工作未开源，对可复现性是一大打击。 📌 核心摘要问题：预训练视频扩散模型通常只能生成固定长度短片段。现有无训练方法（如双向扩展）质量随长度增长下降，自回归方法则因暴露偏差导致误差累积和运动重复。方法：本文提出FlowLong，一个无训练、架构无关的推理时框架。它通过重叠的滑动窗口并行采样多个视频块，并利用“Tweedie匹配”在重叠区域对各块预测的干净样本进行插值，以强制流形约束和时序一致性。同时，在高噪声的早期采样阶段注入随机噪声（“随机早期相位采样”），以打破各块独立ODE轨迹的惯性，促进跨块混合，随后切换至确定性ODE采样以保持视觉保真度。新意：与依赖架构修改或KV缓存重用的现有方法不同，FlowLong通过一个简单的采样时优化框架统一解决了长程一致性问题，且可直接应用于包括音视频联合生成和文生3DGS在内的多种任务，无需微调。主要结果：在Wan 2.1和LTX-2模型上，FlowLong生成了比原生窗口长度长数倍（如30秒、60秒）的视频。定量评估（VBench）显示，其在动态程度、时序一致性等指标上显著优于基线方法。例如，在30秒生成任务中，FlowLong（基于Wan 2.1-1.3B）的Overall得分（0.8233）高于所有基线，其中Dynamic Degree（0.7800）远超自回归最佳方法LongLive（0.3535）。对于文生3DGS，FlowLong生成的3D高斯数量是基线VIST3A的1.64倍，且置信度更高。实际意义：提供了一个即插即用的工具，能立即延长现有视频、音频视频和3D生成模型的输出时长，无需重新训练或修改模型代码。主要局限性：作者承认，基于局部重叠区域的约束可能在极长视频中阻碍全局语义连贯性。此外，方法的有效性依赖于底层模型学习到的良好数据流形，其泛化边界未充分探讨。 🔗 开源详情代码：论文中未提及代码链接模型权重：论文中未提及数据集：论文中未提及 Demo：https://flowlong-video.github.io/ 复现材料：论文中未提及训练配置或检查点，但附录A提供了详细的算法实现细节（如窗口几何、混合调度、聚合算法等）。论文中引用的开源项目： FIFO-Diffusion: 论文中未提供链接 RIFLEx: 论文中未提供链接 UltraViCo: 论文中未提供链接 CausVid: 论文中未提供链接 Self-Forcing: 论文中未提供链接 Deep-Forcing: 论文中未提供链接 ∞-RoPE: 论文中未提供链接 LongLive: 论文中未提供链接 FlowDPS: 论文中未提供链接 DDS: 论文中未提供链接 Wan 2.1: 论文中未提供链接 LTX-2: 论文中未提供链接 VIST3A: 论文中未提供链接 AnySplat: 论文中未提供链接 🏗️ 方法概述和架构整体流程概述：FlowLong是一个端到端的推理时框架，旨在将任何预训练的流式扩散模型（Flow Matching）扩展到更长的序列。输入是长视频的目标长度和文本提示（可能按块变化），输出是一个连贯的长视频。其核心流程是：将长视频分解为多个有重叠的短块，为每个块从独立噪声初始化并行采样，在每个去噪步骤中通过Tweedie匹配和随机早期采样来同步各块的轨迹，最终聚合生成完整的长视频。所有操作仅修改采样过程，不改变模型权重和结构。 ...

Instrumental Text-to-Music Generation with Auxiliary Conditioning Branches

📄 Instrumental Text-to-Music Generation with Auxiliary Conditioning Branches #音乐生成 #音频大模型 #扩散模型 #流匹配 #条件生成 🔥 8.4/10 | 前25% | #音乐生成 | #扩散模型 | #音频大模型 #流匹配 | arxiv 学术质量 5.6/7 | 影响力 1.7/2 | 可复现性 1.1/2 | 置信度高 👥 作者与机构第一作者：Junyoung Koh 通讯作者：未提及作者列表：Junyoung Koh（论文未明确提及所属机构） 💡 毒舌点评论文提出了一个有趣且实证观察扎实的假说——为歌声生成设计的辅助条件分支，在器乐生成任务的退化输入下，其贡献主要体现在训练过程中，充当了“架构锚点”。这一发现挑战了“辅助分支仅在推理时用于条件注入”的直觉。然而，该结论本质上基于特定骨干架构（ACE-STEP 1.5）、特定任务（器乐）和特定受限数据集（457小时）的消融实验。将其直接升华为通用条件扩散模型的设计原则，可能低估了外部预训练模型（如作为基线的MusicGen，使用20k小时数据）和大规模数据在性能对比中的根本性作用。论文的实验设计是严谨的，但结论的普适性仍需在更广泛的场景下验证。 📌 核心摘要问题：在严格控制数据规模和预训练的背景下，研究从歌声生成架构（ACE-STEP 1.5）中继承的辅助条件分支（如歌词和音色编码器），在接收退化（恒定）输入时，对纯器乐文本到音乐生成任务的贡献，特别是这些贡献是发生在推理时还是训练时。方法核心：采用ACE-STEP 1.5架构作为骨干，将其适配到器乐任务。模型包含冻结的音频VAE（AutoencoderOobleck）和文本编码器（Qwen3-Embedding-0.6B），以及可训练的条件编码器和扩散变换器（DiT）解码器。条件编码器处理文本、歌词和音色三路流，其中歌词分支接收恒定输入占位符“[Instrumental]”，音色分支接收零张量。训练集成了多种策略：Min-SNR-γ加权、自适应时间步采样、随机片段裁剪、训练后EMA平均。推理时采用100步Euler ODE采样，并仅在引导区间[0.1, 0.9]内应用分类器引导（CFG）。新意：通过严格控制的消融实验（推理时移除分支、从头重新训练不带分支的模型、以及参数匹配的更宽DiT模型），发现辅助条件分支的贡献主要发生在训练阶段，充当“架构锚点”，塑造了主干网络的学习动态，而这种效应无法通过简单增加DiT深度来完全替代。结果：在ICME 2026 ATTM挑战赛中，2.4B的性能赛道模型在主办方组织的多评估者MOS（35人）上排名第一，获得了所有参赛作品中的最高总体MOS。499M的效率赛道模型在客观指标上并列第二。消融实验表明，从头训练移除条件分支会导致感知质量（AudioBox、LLM-as-judge、人类MOS）显著下降，而将节省的参数用于加深DiT只能部分恢复性能。意义：为理解和使用条件扩散模型中的辅助分支提供了新的实证视角，表明它们不仅是推理时的条件接口，还可能是塑造训练动力学的重要结构性因素。同时，论文详细总结了一套在受限数据下训练高性能音乐生成模型的有效策略组合。局限性：分析主要基于ICME挑战赛的特定训练集（457小时）和100个测试提示；条件分支“锚点”作用的确切机制是观察性的，缺乏理论分析；核心消融中的人类评估为单评估者，且仅在20个提示的子集上进行；多评估者MOS仅覆盖提交的模型，未覆盖所有消融变体。 🔗 开源详情代码：论文中未提及代码链接。模型权重：论文中未提及。论文提到了基于开源架构 ACE-STEP 1.5 进行实验，但未提供作者自己训练的模型（Efficiency 499M, Performance 2.4B）或所用开源组件（如 AutoencoderOobleck, Qwen3-Embedding-0.6B）的具体权重链接。数据集：论文中提及使用公开数据集 MTG-Jamendo。具体信息为：MTG-Jamendo的raw_30s子集，包含约55,700条曲目（共457小时），用于ICME 2026 ATTM挑战赛。论文中未提供具体下载链接。 Demo：论文中未提及。复现材料：论文中未提及具体配置文件或检查点链接。但论文在方法（Section III）、训练策略（Section IV）和模型配置表（Table I）中详细描述了模型架构、训练超参数、优化策略等，这些信息为复现提供了重要依据。论文中引用的开源项目：论文中提及但未提供具体链接。 ACE-STEP 1.5：被用作模型骨干。 MusicGen, MusicLM, AudioLDM2, Stable Audio, MeLoDy：被用作对比基线或相关工作。 Qwen2-Audio, Qwen3-Embedding-0.6B：作为文本编码器或用于生成描述文本。 AutoencoderOobleck (来自Stable Audio)：作为音频VAE。 LP-MusicCaps, JamendoMaxCaps：作为相关数据集或描述生成方法。 🏗️ 方法概述和架构本论文的核心方法是适配和改进一个为歌声生成设计的模块化扩散Transformer（DiT）架构，以解决纯器乐文本到音乐生成任务，并深入研究其辅助条件分支在退化输入下的作用。其整体流程可概括为：输入文本描述，通过冻结的文本编码器得到嵌入；同时，为恒定的歌词和音色输入生成嵌入；所有条件嵌入由可训练的条件编码器融合为单一序列；该序列与扩散过程中的时间步信息一起，通过交叉注意力注入到主生成模型——扩散变换器（DiT）解码器中，最终生成音频的潜在表示，再经冻结的音频VAE解码为波形。 ...

Raon-OpenTTS: Open Models and Data for Robust Text-to-Speech

📄 Raon-OpenTTS: Open Models and Data for Robust Text-to-Speech #语音合成 #扩散模型 #数据集 #基准测试 #开源 🔥 9.5/10 | 前25% | #语音合成 | #扩散模型 | #数据集 #基准测试 | arxiv 学术质量 5.5/7 | 影响力 2.0/2 | 可复现性 2.0/2 | 置信度高 👥 作者与机构第一作者：Semin Kim（首尔国立大学；KRAFTON）通讯作者：未说明作者列表：Semin Kim（首尔国立大学；KRAFTON），Seungjun Chung（KRAFTON），Taehong Moon（KRAFTON），Sangheon Lee（KRAFTON；韩国科学技术院），Minyoung Ahn（KRAFTON；首尔国立大学），Keon Lee（KRAFTON），Nam Soo Kim（首尔国立大学），Jaewoong Cho（KRAFTON），Ludwig Schmidt（斯坦福大学），Kangwook Lee（KRAFTON；Ludo Robotics；威斯康星大学麦迪逊分校），Dongmin Park（KRAFTON）。 💡 毒舌点评亮点：论文在推动TTS研究开源化和可复现性方面堪称典范，提供了从数据、模型到评估基准的完整开源工具链。其构建的超大规模、多来源数据池（Raon-OpenTTS-Pool）和有效的数据过滤策略，为社区提供了宝贵的研究资源。短板：模型架构方面毫无创新，完全沿用F5-TTS的DiT框架，核心贡献高度依赖于“数据工程”和规模效应，技术深度有限。这在一定程度上削弱了其在算法层面的贡献。 📌 核心摘要问题：当前顶尖的TTS模型（如Qwen3-TTS， CosyVoice 3）性能卓越，但其训练数据和处理流程不公开，阻碍了研究的可复现性和系统性进步。现有开源TTS模型（如基于Emilia训练的F5-TTS、MaskGCT）与闭源SOTA模型在性能上仍有差距。方法核心：构建了Raon-OpenTTS-Pool（615K小时英语语音数据池，整合自11个公开数据源），并通过一个基于DNSMOS、WER和语音活动比例的模型化过滤管线，从中衍生出一个510K小时的高质量子集Raon-OpenTTS-Core。基于此数据集，作者沿用F5-TTS的扩散Transformer（DiT）架构（不作修改），训练了0.3B和1B参数的模型系列Raon-OpenTTS。此外，提出了一套名为Raon-OpenTTS-Eval的结构化鲁棒性评估基准（涵盖Clean、Noisy、Wild、Expressive四种条件）。新意：其核心新颖性在于系统性地解决开源TTS研究中的“数据”和“可复现性”瓶颈。与以往仅在单一大数据集上训练的开源模型不同，本文证明了通过精心构建、过滤的大规模多源开源数据，可以显著提升现有TTS架构的性能，并建立了完整的开源研究基础设施（数据、模型、评估）。结果：在Seed-TTS-Eval上，Raon-OpenTTS-1B的WER为1.78%，SIM为0.749，在开源模型中分别排名第二和第一。在CV3-Hard-EN上，其WER（6.15%）和SIM（0.775）均为最佳。在自建的Raon-OpenTTS-Eval上，Raon-OpenTTS-1B在Clean、Noisy、Wild和Expressive四个条件下的平均WER和SIM均为最佳，并在人工评估中取得第二好的CMOS分数。意义：证明了使用大规模、经过筛选的开源数据，可以训练出性能与依赖海量私有数据的SOTA模型相媲美的TTS模型，极大地促进了该领域的透明化、可复现研究。局限：模型架构本身无创新；当前研究仅限于英语；数据过滤策略可能较为保守，未来可探索数据修正；多源数据混合策略有优化空间。 🔗 开源详情代码：https://github.com/krafton-ai/RAON-OpenTTS 模型权重：论文明确承诺公开“训练代码和检查点”，因此模型权重可通过上述GitHub仓库获取。数据集：数据集名称：Raon-OpenTTS-Pool，一个包含61.5万小时英语语音的大型开放数据池，聚合自11个公开语料库和网络录制。数据集名称：Raon-OpenTTS-Core，是从Raon-OpenTTS-Pool中筛选出的高质量子集（51万小时，1.94亿语音片段）。获取方式：论文明确承诺公开“数据池和过滤流程”，因此数据集及其构建信息可能通过上述GitHub仓库提供。论文中未提及数据集的单独下载链接。 Demo：论文中未提及。复现材料：论文中提到了公开的“训练代码和检查点”，因此具体的训练配置、模型检查点等信息应可通过上述GitHub仓库获取。论文中引用的开源项目： UVR-MDX（用于音源分离）：https://github.com/Anjok07/ultimatevocalremovergui PyAnnote 3.1（用于说话人分割）：https://huggingface.co/pyannote/speaker-diarization-3.1 Silero VAD（用于语音活动检测）：https://github.com/snakers4/silero-vad Whisper-large-v3（用于自动转录）：https://huggingface.co/openai/whisper-large-v3 HiFi-GAN（用于波形合成）：https://huggingface.co/speechbrain/tts-hifigan-libritts-16kHz 🏗️ 方法概述和架构本文的贡献是一个端到端的“数据构建-模型训练-鲁棒评估”流水线，其核心流程为：聚合多源数据 → 质量过滤 → 模型训练 → 结构化评估。 ...

A Survey of Advancing Audio Super-Resolution and Bandwidth Extension from Discriminative to Generative Models

📄 A Survey of Advancing Audio Super-Resolution and Bandwidth Extension from Discriminative to Generative Models #音频修复 #综述 #扩散模型 #流匹配 🔥 8.1/10 | 前25% | #音频修复 | #综述 | #扩散模型 #流匹配 | arxiv 学术质量 6.7/8 | 影响力 0.8/1 | 可复现性 0.6/1 | 置信度高 👥 作者与机构第一作者：Ningyuan Yang (Stony Brook University) 通讯作者：根据邮箱推断，可能为 Andrew C. Singer (Stony Brook University) 作者列表：Ningyuan Yang (Stony Brook University)、Yize Li (Northeastern University)、Diego A. Cuji (Stony Brook University)、Ryan M. Corey (University of Illinois Chicago & Discovery Partners Institute)、Pu Zhao (Northeastern University)、Xue Lin (Northeastern University)、Andrew C. Singer (Stony Brook University) （注：原文作者列表下所有脚注标记为“Equal contribution”，表示所有作者贡献均等，机构如上所列。） 💡 毒舌点评这篇综述的核心价值在于，它构建了一个清晰、系统的框架，用以理解音频超分辨率（SR）与带宽扩展（BWE）领域从判别式模型到生成式模型的完整演进图谱。其贡献并非提出新算法，而是首次明确、统一地阐述了这一“范式转变”，并为不同的生成式方法（GAN、扩散、流、桥）在BWE/SR任务中的权衡提供了极具洞察力的分析。这为领域内研究者提供了宝贵的“路线图”。然而，作为一篇旨在指导未来方向的综述，其最大的遗憾在于完全依赖定性讨论和文献引用，缺乏对关键方法的统一基准或系统性定量指标汇总。因此，文中关于“何种范式在何种场景下更优”的结论，更多源于作者的学识与判断，而非可直接复现的、控制变量的实验证据，这在一定程度上削弱了其结论的普适性和说服力。 ...