扩散模型 | 语音/音乐/音频论文速递

WaveNeXt 2: ConvNeXt-Based Fast Neural Vocoders With Residual Denoising and Sub-Modeling for GAN and Diffusion Models

📄 WaveNeXt 2: ConvNeXt-Based Fast Neural Vocoders With Residual Denoising and Sub-Modeling for GAN and Diffusion Models #语音合成 #生成对抗网络 #扩散模型 #低资源 🔥 8.5/10 | 前25% | #语音合成 | #生成对抗网络 | #扩散模型 #低资源 | arxiv 学术质量 5.6/7 | 影响力 1.6/2 | 可复现性 1.3/2 | 置信度高 👥 作者与机构未提及。 💡 毒舌点评这篇论文在工程实用性和架构统一性上做得不错，但部分宣传和分析需要更审慎。声称“首次”统一框架，但框架本身的核心（残差去噪、子模型）并非原创，主要贡献在于将ConvNeXt生成器成功适配到两种范式并进行了充分的实证对比。其提出的“简化”GAN训练策略（无需初始噪声和增益调整）的理论依据和泛化能力存疑，更像是一种经验性的工程trick。子模型导致参数线性增长是一个显著的实用缺陷，作者虽提及但轻描淡写，这对资源敏感的部署场景影响很大。论文将“多说话人性能提升”作为重要卖点，但除了展示在LibriTTS-R上的结果，并未深入分析其机制（如说话人嵌入、归一化技术的改进），显得结论有余而洞察不足。总体而言，这是一篇扎实的系统性工作，但距离开创性研究尚有差距。 📌 核心摘要本文提出了WaveNeXt 2，一个基于ConvNeXt的统一生成器框架，可同时应用于GAN和扩散模型两种神经声码器。其核心创新在于引入了残差去噪和子模型结构，使生成器能够以迭代方式从噪声中逐步恢复波形。在多说话人数据集LibriTTS-R上的实验表明：(1) GAN-WaveNeXt 2在保持与WaveFit、HiFi-GAN相当合成质量的同时，实现了GPU上70%、CPU上高达90%的推理速度提升；(2) 扩散模型版本Diff-WaveNeXt 2在4步推理下，CPU推理速度比FastDiff快80%，并取得了有竞争力的合成质量；(3) Diff-WaveNeXt 2的训练效率极高，仅需32小时。该框架为不同应用场景（快速部署或高质量合成）提供了灵活的选择。 🔗 开源详情代码：论文未提供WaveNeXt 2自身的官方代码、模型权重或训练脚本链接。但提供了其复现所依赖的第三方开源项目链接： ParallelWaveGAN (HiFi-GAN V1 非官方实现): https://github.com/kan-bayashi/ParallelWaveGAN WaveFit 非官方实现: https://github.com/yukara-ikemiya/wavefit-pytorch FastDiff 官方实现: https://github.com/Rongjiehuang/FastDiff Vocos 官方实现: https://github.com/gemelo-ai/vocos 模型权重：未提及。数据集：未提供直接下载链接。使用LibriTTS-R数据集（约585小时，24kHz），具体为 train-clean-100 和 train-clean-360 子集训练，test-clean-100 子集评估。 Demo：https://37integer.github.io/WAVENEXT-2 复现材料：论文详细描述了训练设置（硬件、框架、损失函数、超参数），但未提供可直接下载的配置文件或检查点。 🏗️ 方法概述和架构 WaveNeXt 2是一个统一的生成器框架，旨在通过单一的ConvNeXt基架构，同时支持GAN和扩散两种训练与推断范式。 ...

Diffusion Domain Expansion: Learning to Coordinate Pre-trained Diffusion Models

📄 Diffusion Domain Expansion: Learning to Coordinate Pre-trained Diffusion Models #扩散模型 #生成模型 #模型融合 #迁移学习 ✅ 7.4/10 | 前50% | #扩散模型 | #生成模型 | #模型融合 #迁移学习 | arxiv 学术质量 5.4/7 | 影响力 1.2/2 | 可复现性 0.8/2 👥 作者与机构 Egor Lifar, Semyon Savkin, Timur Garipov, Shangyuan Tong, Tommi Jaakkola. 💡 毒舌点评这篇论文做了一件工程上很“讨巧”的事情：面对预训练扩散模型能力有限的痛点，它没有选择“炼更大力的丹”（训练更大模型），而是“雇了个小工”（轻量协调器）来指挥一堆“小模型”干活。想法直观，实验也算扎实，覆盖了音频和图像。但仔细一想，这个“协调器”本质上是在学一个“如何更好地做拼接”的策略。虽然它展示了从L_train泛化到L_test > L_train的能力，这确实是个亮点，但论文对“为什么能泛化”以及“泛化的边界在哪”缺乏理论层面的探讨，让人感觉有点知其然不知其所以然。此外，实验虽然跨领域，但核心场景（时间轴拼接、空间条件拼接）相对单一，未能展示在更复杂协调任务（如跨模态、异构模型协调）上的威力。开源情况约等于零，给复现带来了不必要的障碍。 📌 核心摘要本文提出了扩散域扩展（DDE），一种通过训练一个轻量级、参数高效的协调器（基于ViT架构）来扩展预训练扩散模型生成能力的方法。该协调器学习协调多个预训练模型在重叠区域上的去噪输出，生成更大尺寸或更复杂条件的对象。论文的关键贡献在于展示了协调器可以泛化到训练时未见过的更大生成规模。实验在长音轨生成、多条件图像生成和卫星地图条件图像生成三个任务上进行，结果表明DDE在多项指标上优于MultiDiffusion等基线方法。 🔗 开源详情代码：论文中未提及代码链接。模型权重：论文中未提及。数据集： Slakh2100（音乐生成）：论文引用了该数据集（Manilow et al., 2019），但未直接提供下载链接。 CLEVR（条件图像生成）：论文引用了该数据集（Johnson et al., 2016），但未直接提供下载链接。卫星图像数据集：论文中指出该数据集是作者使用 Google Maps API 收集并处理的（见 B.3.1 节），但未公开数据集链接或提供获取方式。 Demo：论文中未提及。复现材料：论文的附录 B 详细提供了所有实验的配置、模型架��细节、超参数设置以及采样器信息，构成了完整的复现指南。论文中引用的开源项目： denoising_diffusion_pytorch：论文在 B.2.3 节和 B.3.2 节中提及使用了该库的 UNet 架构（标注为“denoising_diffusion_pytorch (url)”），但未提供具体 URL。 EDM (Karras et al., 2022)：论文在附录开头提及使用 EDM 框架进行训练和采样。其代码通常可在此仓库获取：https://github.com/NVlabs/edm。论文中提到“imported from the code provided by (Karras et al., 2022)”。 RoPE (Rotary Position Embedding, Su et al., 2023)：论文在 3.2 节和 B.3.4 节中描述使用了 RoPE 进行位置编码。原始实现通常与 LLaMA 等模型相关，论文未提供具体代码链接。 🏗️ 方法概述和架构 DDE方法的核心思想是将一个大型生成任务分解为多个小任务，利用现有的预训练扩散模型处理每个小任务，然后通过一个可训练的协调器网络来整合这些独立模型的输出，以生成全局一致的结果。 ...

FlowLong: Inference-time Long Video Generation via Manifold-constrained Tweedie Matching

📄 FlowLong: Inference-time Long Video Generation via Manifold-constrained Tweedie Matching #视频生成 #扩散模型 📝 4.9/10 | 前50% | #视频生成 | #扩散模型 | arxiv 学术质量 4.6/7 | 影响力 0.3/2 | 可复现性 0.0/2 | 置信度中 👥 作者与机构第一作者：Jangho Park（KAIST）第一作者（共同）：Geon Yeong Park（KAIST，标注为Equal contribution）通讯作者：Gihyun Kwon（Amazon）、Jong Chul Ye（KAIST）作者列表：Jangho Park（KAIST）， Geon Yeong Park（KAIST）， Gihyun Kwon（Amazon）， Jong Chul Ye（KAIST） 💡 毒舌点评一篇聪明地将无训练长视频生成问题，用流式扩散逆问题求解框架进行重构的工作。核心思想是把滑动窗口生成的“拼接”问题，转化为在重叠区域对预测干净样本进行Tweedie匹配的优化问题，并用随机早期采样来打破各窗口独立轨迹的惯性。这确实是一个简洁、优雅且即插即用的工程方案。然而，其“优雅”也带来局限：方法高度依赖底层流模型学到的数据流形，对于超出该流形覆盖的极端长程或复杂语义（如需要全局规划的叙事），缺乏理论保障；实验虽全面，但对音视频联合生成等扩展任务的评估深度不足，更像一个概念验证；且整个工作未开源，对可复现性是一大打击。 📌 核心摘要问题：预训练视频扩散模型通常只能生成固定长度短片段。现有无训练方法（如双向扩展）质量随长度增长下降，自回归方法则因暴露偏差导致误差累积和运动重复。方法：本文提出FlowLong，一个无训练、架构无关的推理时框架。它通过重叠的滑动窗口并行采样多个视频块，并利用“Tweedie匹配”在重叠区域对各块预测的干净样本进行插值，以强制流形约束和时序一致性。同时，在高噪声的早期采样阶段注入随机噪声（“随机早期相位采样”），以打破各块独立ODE轨迹的惯性，促进跨块混合，随后切换至确定性ODE采样以保持视觉保真度。新意：与依赖架构修改或KV缓存重用的现有方法不同，FlowLong通过一个简单的采样时优化框架统一解决了长程一致性问题，且可直接应用于包括音视频联合生成和文生3DGS在内的多种任务，无需微调。主要结果：在Wan 2.1和LTX-2模型上，FlowLong生成了比原生窗口长度长数倍（如30秒、60秒）的视频。定量评估（VBench）显示，其在动态程度、时序一致性等指标上显著优于基线方法。例如，在30秒生成任务中，FlowLong（基于Wan 2.1-1.3B）的Overall得分（0.8233）高于所有基线，其中Dynamic Degree（0.7800）远超自回归最佳方法LongLive（0.3535）。对于文生3DGS，FlowLong生成的3D高斯数量是基线VIST3A的1.64倍，且置信度更高。实际意义：提供了一个即插即用的工具，能立即延长现有视频、音频视频和3D生成模型的输出时长，无需重新训练或修改模型代码。主要局限性：作者承认，基于局部重叠区域的约束可能在极长视频中阻碍全局语义连贯性。此外，方法的有效性依赖于底层模型学习到的良好数据流形，其泛化边界未充分探讨。 🔗 开源详情代码：论文中未提及代码链接模型权重：论文中未提及数据集：论文中未提及 Demo：https://flowlong-video.github.io/ 复现材料：论文中未提及训练配置或检查点，但附录A提供了详细的算法实现细节（如窗口几何、混合调度、聚合算法等）。论文中引用的开源项目： FIFO-Diffusion: 论文中未提供链接 RIFLEx: 论文中未提供链接 UltraViCo: 论文中未提供链接 CausVid: 论文中未提供链接 Self-Forcing: 论文中未提供链接 Deep-Forcing: 论文中未提供链接 ∞-RoPE: 论文中未提供链接 LongLive: 论文中未提供链接 FlowDPS: 论文中未提供链接 DDS: 论文中未提供链接 Wan 2.1: 论文中未提供链接 LTX-2: 论文中未提供链接 VIST3A: 论文中未提供链接 AnySplat: 论文中未提供链接 🏗️ 方法概述和架构整体流程概述：FlowLong是一个端到端的推理时框架，旨在将任何预训练的流式扩散模型（Flow Matching）扩展到更长的序列。输入是长视频的目标长度和文本提示（可能按块变化），输出是一个连贯的长视频。其核心流程是：将长视频分解为多个有重叠的短块，为每个块从独立噪声初始化并行采样，在每个去噪步骤中通过Tweedie匹配和随机早期采样来同步各块的轨迹，最终聚合生成完整的长视频。所有操作仅修改采样过程，不改变模型权重和结构。 ...

Instrumental Text-to-Music Generation with Auxiliary Conditioning Branches

📄 Instrumental Text-to-Music Generation with Auxiliary Conditioning Branches #音乐生成 #音频大模型 #扩散模型 #流匹配 #条件生成 🔥 8.4/10 | 前25% | #音乐生成 | #扩散模型 | #音频大模型 #流匹配 | arxiv 学术质量 5.6/7 | 影响力 1.7/2 | 可复现性 1.1/2 | 置信度高 👥 作者与机构第一作者：Junyoung Koh 通讯作者：未提及作者列表：Junyoung Koh（论文未明确提及所属机构） 💡 毒舌点评论文提出了一个有趣且实证观察扎实的假说——为歌声生成设计的辅助条件分支，在器乐生成任务的退化输入下，其贡献主要体现在训练过程中，充当了“架构锚点”。这一发现挑战了“辅助分支仅在推理时用于条件注入”的直觉。然而，该结论本质上基于特定骨干架构（ACE-STEP 1.5）、特定任务（器乐）和特定受限数据集（457小时）的消融实验。将其直接升华为通用条件扩散模型的设计原则，可能低估了外部预训练模型（如作为基线的MusicGen，使用20k小时数据）和大规模数据在性能对比中的根本性作用。论文的实验设计是严谨的，但结论的普适性仍需在更广泛的场景下验证。 📌 核心摘要问题：在严格控制数据规模和预训练的背景下，研究从歌声生成架构（ACE-STEP 1.5）中继承的辅助条件分支（如歌词和音色编码器），在接收退化（恒定）输入时，对纯器乐文本到音乐生成任务的贡献，特别是这些贡献是发生在推理时还是训练时。方法核心：采用ACE-STEP 1.5架构作为骨干，将其适配到器乐任务。模型包含冻结的音频VAE（AutoencoderOobleck）和文本编码器（Qwen3-Embedding-0.6B），以及可训练的条件编码器和扩散变换器（DiT）解码器。条件编码器处理文本、歌词和音色三路流，其中歌词分支接收恒定输入占位符“[Instrumental]”，音色分支接收零张量。训练集成了多种策略：Min-SNR-γ加权、自适应时间步采样、随机片段裁剪、训练后EMA平均。推理时采用100步Euler ODE采样，并仅在引导区间[0.1, 0.9]内应用分类器引导（CFG）。新意：通过严格控制的消融实验（推理时移除分支、从头重新训练不带分支的模型、以及参数匹配的更宽DiT模型），发现辅助条件分支的贡献主要发生在训练阶段，充当“架构锚点”，塑造了主干网络的学习动态，而这种效应无法通过简单增加DiT深度来完全替代。结果：在ICME 2026 ATTM挑战赛中，2.4B的性能赛道模型在主办方组织的多评估者MOS（35人）上排名第一，获得了所有参赛作品中的最高总体MOS。499M的效率赛道模型在客观指标上并列第二。消融实验表明，从头训练移除条件分支会导致感知质量（AudioBox、LLM-as-judge、人类MOS）显著下降，而将节省的参数用于加深DiT只能部分恢复性能。意义：为理解和使用条件扩散模型中的辅助分支提供了新的实证视角，表明它们不仅是推理时的条件接口，还可能是塑造训练动力学的重要结构性因素。同时，论文详细总结了一套在受限数据下训练高性能音乐生成模型的有效策略组合。局限性：分析主要基于ICME挑战赛的特定训练集（457小时）和100个测试提示；条件分支“锚点”作用的确切机制是观察性的，缺乏理论分析；核心消融中的人类评估为单评估者，且仅在20个提示的子集上进行；多评估者MOS仅覆盖提交的模型，未覆盖所有消融变体。 🔗 开源详情代码：论文中未提及代码链接。模型权重：论文中未提及。论文提到了基于开源架构 ACE-STEP 1.5 进行实验，但未提供作者自己训练的模型（Efficiency 499M, Performance 2.4B）或所用开源组件（如 AutoencoderOobleck, Qwen3-Embedding-0.6B）的具体权重链接。数据集：论文中提及使用公开数据集 MTG-Jamendo。具体信息为：MTG-Jamendo的raw_30s子集，包含约55,700条曲目（共457小时），用于ICME 2026 ATTM挑战赛。论文中未提供具体下载链接。 Demo：论文中未提及。复现材料：论文中未提及具体配置文件或检查点链接。但论文在方法（Section III）、训练策略（Section IV）和模型配置表（Table I）中详细描述了模型架构、训练超参数、优化策略等，这些信息为复现提供了重要依据。论文中引用的开源项目：论文中提及但未提供具体链接。 ACE-STEP 1.5：被用作模型骨干。 MusicGen, MusicLM, AudioLDM2, Stable Audio, MeLoDy：被用作对比基线或相关工作。 Qwen2-Audio, Qwen3-Embedding-0.6B：作为文本编码器或用于生成描述文本。 AutoencoderOobleck (来自Stable Audio)：作为音频VAE。 LP-MusicCaps, JamendoMaxCaps：作为相关数据集或描述生成方法。 🏗️ 方法概述和架构本论文的核心方法是适配和改进一个为歌声生成设计的模块化扩散Transformer（DiT）架构，以解决纯器乐文本到音乐生成任务，并深入研究其辅助条件分支在退化输入下的作用。其整体流程可概括为：输入文本描述，通过冻结的文本编码器得到嵌入；同时，为恒定的歌词和音色输入生成嵌入；所有条件嵌入由可训练的条件编码器融合为单一序列；该序列与扩散过程中的时间步信息一起，通过交叉注意力注入到主生成模型——扩散变换器（DiT）解码器中，最终生成音频的潜在表示，再经冻结的音频VAE解码为波形。 ...

Raon-OpenTTS: Open Models and Data for Robust Text-to-Speech

📄 Raon-OpenTTS: Open Models and Data for Robust Text-to-Speech #语音合成 #扩散模型 #数据集 #基准测试 #开源 🔥 9.5/10 | 前25% | #语音合成 | #扩散模型 | #数据集 #基准测试 | arxiv 学术质量 5.5/7 | 影响力 2.0/2 | 可复现性 2.0/2 | 置信度高 👥 作者与机构第一作者：Semin Kim（首尔国立大学；KRAFTON）通讯作者：未说明作者列表：Semin Kim（首尔国立大学；KRAFTON），Seungjun Chung（KRAFTON），Taehong Moon（KRAFTON），Sangheon Lee（KRAFTON；韩国科学技术院），Minyoung Ahn（KRAFTON；首尔国立大学），Keon Lee（KRAFTON），Nam Soo Kim（首尔国立大学），Jaewoong Cho（KRAFTON），Ludwig Schmidt（斯坦福大学），Kangwook Lee（KRAFTON；Ludo Robotics；威斯康星大学麦迪逊分校），Dongmin Park（KRAFTON）。 💡 毒舌点评亮点：论文在推动TTS研究开源化和可复现性方面堪称典范，提供了从数据、模型到评估基准的完整开源工具链。其构建的超大规模、多来源数据池（Raon-OpenTTS-Pool）和有效的数据过滤策略，为社区提供了宝贵的研究资源。短板：模型架构方面毫无创新，完全沿用F5-TTS的DiT框架，核心贡献高度依赖于“数据工程”和规模效应，技术深度有限。这在一定程度上削弱了其在算法层面的贡献。 📌 核心摘要问题：当前顶尖的TTS模型（如Qwen3-TTS， CosyVoice 3）性能卓越，但其训练数据和处理流程不公开，阻碍了研究的可复现性和系统性进步。现有开源TTS模型（如基于Emilia训练的F5-TTS、MaskGCT）与闭源SOTA模型在性能上仍有差距。方法核心：构建了Raon-OpenTTS-Pool（615K小时英语语音数据池，整合自11个公开数据源），并通过一个基于DNSMOS、WER和语音活动比例的模型化过滤管线，从中衍生出一个510K小时的高质量子集Raon-OpenTTS-Core。基于此数据集，作者沿用F5-TTS的扩散Transformer（DiT）架构（不作修改），训练了0.3B和1B参数的模型系列Raon-OpenTTS。此外，提出了一套名为Raon-OpenTTS-Eval的结构化鲁棒性评估基准（涵盖Clean、Noisy、Wild、Expressive四种条件）。新意：其核心新颖性在于系统性地解决开源TTS研究中的“数据”和“可复现性”瓶颈。与以往仅在单一大数据集上训练的开源模型不同，本文证明了通过精心构建、过滤的大规模多源开源数据，可以显著提升现有TTS架构的性能，并建立了完整的开源研究基础设施（数据、模型、评估）。结果：在Seed-TTS-Eval上，Raon-OpenTTS-1B的WER为1.78%，SIM为0.749，在开源模型中分别排名第二和第一。在CV3-Hard-EN上，其WER（6.15%）和SIM（0.775）均为最佳。在自建的Raon-OpenTTS-Eval上，Raon-OpenTTS-1B在Clean、Noisy、Wild和Expressive四个条件下的平均WER和SIM均为最佳，并在人工评估中取得第二好的CMOS分数。意义：证明了使用大规模、经过筛选的开源数据，可以训练出性能与依赖海量私有数据的SOTA模型相媲美的TTS模型，极大地促进了该领域的透明化、可复现研究。局限：模型架构本身无创新；当前研究仅限于英语；数据过滤策略可能较为保守，未来可探索数据修正；多源数据混合策略有优化空间。 🔗 开源详情代码：https://github.com/krafton-ai/RAON-OpenTTS 模型权重：论文明确承诺公开“训练代码和检查点”，因此模型权重可通过上述GitHub仓库获取。数据集：数据集名称：Raon-OpenTTS-Pool，一个包含61.5万小时英语语音的大型开放数据池，聚合自11个公开语料库和网络录制。数据集名称：Raon-OpenTTS-Core，是从Raon-OpenTTS-Pool中筛选出的高质量子集（51万小时，1.94亿语音片段）。获取方式：论文明确承诺公开“数据池和过滤流程”，因此数据集及其构建信息可能通过上述GitHub仓库提供。论文中未提及数据集的单独下载链接。 Demo：论文中未提及。复现材料：论文中提到了公开的“训练代码和检查点”，因此具体的训练配置、模型检查点等信息应可通过上述GitHub仓库获取。论文中引用的开源项目： UVR-MDX（用于音源分离）：https://github.com/Anjok07/ultimatevocalremovergui PyAnnote 3.1（用于说话人分割）：https://huggingface.co/pyannote/speaker-diarization-3.1 Silero VAD（用于语音活动检测）：https://github.com/snakers4/silero-vad Whisper-large-v3（用于自动转录）：https://huggingface.co/openai/whisper-large-v3 HiFi-GAN（用于波形合成）：https://huggingface.co/speechbrain/tts-hifigan-libritts-16kHz 🏗️ 方法概述和架构本文的贡献是一个端到端的“数据构建-模型训练-鲁棒评估”流水线，其核心流程为：聚合多源数据 → 质量过滤 → 模型训练 → 结构化评估。 ...

A Survey of Advancing Audio Super-Resolution and Bandwidth Extension from Discriminative to Generative Models

📄 A Survey of Advancing Audio Super-Resolution and Bandwidth Extension from Discriminative to Generative Models #音频修复 #综述 #扩散模型 #流匹配 🔥 8.1/10 | 前25% | #音频修复 | #综述 | #扩散模型 #流匹配 | arxiv 学术质量 6.7/8 | 影响力 0.8/1 | 可复现性 0.6/1 | 置信度高 👥 作者与机构第一作者：Ningyuan Yang (Stony Brook University) 通讯作者：根据邮箱推断，可能为 Andrew C. Singer (Stony Brook University) 作者列表：Ningyuan Yang (Stony Brook University)、Yize Li (Northeastern University)、Diego A. Cuji (Stony Brook University)、Ryan M. Corey (University of Illinois Chicago & Discovery Partners Institute)、Pu Zhao (Northeastern University)、Xue Lin (Northeastern University)、Andrew C. Singer (Stony Brook University) （注：原文作者列表下所有脚注标记为“Equal contribution”，表示所有作者贡献均等，机构如上所列。） 💡 毒舌点评这篇综述的核心价值在于，它构建了一个清晰、系统的框架，用以理解音频超分辨率（SR）与带宽扩展（BWE）领域从判别式模型到生成式模型的完整演进图谱。其贡献并非提出新算法，而是首次明确、统一地阐述了这一“范式转变”，并为不同的生成式方法（GAN、扩散、流、桥）在BWE/SR任务中的权衡提供了极具洞察力的分析。这为领域内研究者提供了宝贵的“路线图”。然而，作为一篇旨在指导未来方向的综述，其最大的遗憾在于完全依赖定性讨论和文献引用，缺乏对关键方法的统一基准或系统性定量指标汇总。因此，文中关于“何种范式在何种场景下更优”的结论，更多源于作者的学识与判断，而非可直接复现的、控制变量的实验证据，这在一定程度上削弱了其结论的普适性和说服力。 ...

Omni-Customizer: End-to-End MultiModal Customization for Joint Audio-Video Generation

📄 Omni-Customizer: End-to-End MultiModal Customization for Joint Audio-Video Generation #音视频 #多模态模型 #语音克隆 #生成模型 #扩散模型 ✅ 7.3/10 | 前25% | #音视频 | #多模态模型 | #语音克隆 #生成模型 | arxiv 学术质量 6.2/8 | 影响力 0.8/1 | 可复现性 0.3/1 | 置信度高 👥 作者与机构第一作者：Yuheng Chen（上海交通大学）通讯作者：Qingdong He（电子科技大学，论文中标注为对应作者及项目负责人）作者列表：Yuheng Chen（上海交通大学，等同贡献）、Qingdong He（电子科技大学，等同贡献）、Teng Hu（上海交通大学）、Yuji Wang（上海交通大学）、Yabiao Wang（浙江大学）、Lizhuang Ma（上海交通大学）、Jiangning Zhang（浙江大学，对应作者） 💡 毒舌点评这篇论文为“多主体联合音视频定制”这一具体问题提出了一套工程实现相对完整的端到端框架，其针对“Caption Vocalization”问题设计的MTP-CA掩码机制简单有效，SA-MRoPE的位置编码设计思路也具启发性。然而，其核心的OCF模块本质上是标准Transformer块对拼接序列的处理，架构创新度有限，且论文在“Caption Vocalization”的成因分析和SA-MRoPE有效性的理论解释上均显薄弱，更像是一次成功的系统工程集成而非深度理论探索。 📌 核心摘要本文旨在解决在联合音视频生成中，为多个主体同时保持其视觉身份和声音音色，并实现精准绑定的难题。现有方法存在多主体身份混淆、无法有效跨模态绑定，以及基础模型固有的语音合成异常等问题。论文提出了Omni-Customizer，一个端到端框架。其核心方法包括：1) Omni-Context Fusion (OCF) 模块，将文本、视觉参考、音频参考和TTS嵌入拼接成统一序列，通过L层专用Transformer块进行深度跨模态交互，以富化文本表示；2) Semantic-Anchored Multimodal RoPE (SA-MRoPE)，为不同模态的参考token设计了基于其对应文本描述符位置的3D位置编码，实现语义锚定；3) Masked TTS Cross-Attention (MTP-CA)，通过二进制掩码机制，确保TTS语音信息仅注入到提示词中被<S>和<E>标签包裹的对话部分，消除“Caption Vocalization”异常。此外，论文提出了交错式模态解耦训练策略（交替进行联合音视频训练和纯音频训练）和渐进式课程学习（从单主体配对到多主体非配对数据），以在不损害基础模型能力的前提下，让模型适应多语言环境并学习鲁棒的身份特征。论文还详细描述了构建多主体多模态数据集的完整流程，并提出了新的评估基准OC-Bench。实验在OC-Bench上进行，结果表明，Omni-Customizer在视觉身份相似度、音色一致性、音视频同步和整体保真度上均达到了当前最佳水平。 ...

S2Accompanist: A Semantic-Aware and Structure-Guided Diffusion Model for Music Accompaniment Generation

📄 S2Accompanist: A Semantic-Aware and Structure-Guided Diffusion Model for Music Accompaniment Generation #音乐生成 #扩散模型 #系统工程 #数据处理 #知识蒸馏 #音乐结构分析 #挑战赛 📝 5.6/10 | 前50% | #音乐生成 | #系统工程 | #扩散模型 #数据处理 | arxiv 学术质量 4.8/8 | 影响力 0.5/1 | 可复现性 0.3/1 | 置信度高 👥 作者与机构第一作者：Huakang Chen, Wenkai Cheng (论文中标注为同等贡献) 通讯作者：Lei Xie† (论文中标注为通讯作者) 作者列表：Huakang Chen (1), Wenkai Cheng (1), Guobin Ma (1), Chunbo Hao (1), Yuxuan Xia (1), Mengqi Wei (1), Zhixian Zhao (1), Pengcheng Zhu (2), Hanbing Zhang (2), Lei Xie (1),† 机构信息：论文中仅以数字标注，未在作者列表下方明确给出具体机构名称。根据论文内容推测，数字“1”对应Xie Lei团队所在单位，数字“2”对应Zhu Pengcheng和Zhang Hanbing所在单位。具体机构名称（如大学、实验室）在论文正文中未说明。 💡 毒舌点评这篇论文是典型的“挑战赛驱动型”工作，其核心价值在于展示了在ICME2026 ATTM Grand Challenge的严格约束下（仅限MTG-Jamendo数据集，模型参数≤500M），通过一套精心设计但高度工程化的“数据炼金”流程（混音结构辅助切分 + Gemini标注 + 双指标筛选）和模型微调策略（LeadSheet蒸馏进VAE），能够取得客观指标上的领先。然而，论文的学术贡献被其工程属性严重稀释：1) 方法高度依赖一系列未详述配置的外部黑盒工具（Gemini, SheetStage, Demucs），其稳健性和误差传播未被分析；2) 核心的“语义感知”效果缺乏深入的音乐学验证，仅靠MOS和CCS这些浅层指标难以服众；3) 声称的“效率”仅指推理时的模型参数量，却忽略了构建其复杂数据管道所需的巨额前期计算开销。整体而言，这是一个在特定比赛规则下成功的“系统集成”案例，但作为一篇独立的学术论文，其创新深度、实验严谨性和结论泛化性均显不足。 ...

SemaVoice: Semantic-Aware Continuous Autoregressive Speech Synthesis

📄 SemaVoice: Semantic-Aware Continuous Autoregressive Speech Synthesis #语音合成 #自回归模型 #扩散模型 #预训练 #零样本 ✅ 6.8/10 | 前50% | #语音合成 | #自回归模型 | #扩散模型 #预训练 | arxiv 学术质量 5.8/8 | 影响力 0.6/1 | 可复现性 0.4/1 | 置信度高 👥 作者与机构第一作者：Huimeng Wang（香港中文大学）通讯作者：Shiyin Kang（商汤科技）作者列表：Huimeng Wang（香港中文大学）、Hui Lu（香港中文大学）、Jiajun Deng（香港中文大学）、Haoning Xu（香港中文大学）、Youjun Chen（香港中文大学）、Xueyuan Chen（香港中文大学）、Zhaoqing Li（香港中文大学）、Shuhai Peng（清华大学）、Shiyin Kang（商汤科技）、Xunying Liu（香港中文大学） 💡 毒舌点评论文针对连续自回归语音合成中VAE表示优化目标与TTS语义-韵律建模需求不匹配的问题，提出了一个直观且工程上合理的解决方案——在VAE阶段引入预训练语音基础模型（如WavLM）的特征进行对齐。其核心创新更偏向于一种精心设计的“预训练知识蒸馏”或“特征对齐”工程组件，而非具有广泛理论启发性的突破。实验在极具挑战性的Seed-TTS基准上取得了有竞争力的结果，但绝对性能（如说话人相似度）并未全面超越SOTA，且高达150K小时的训练数据和H200 GPU的使用门槛，严重削弱了其作为方法论研究的可复现性与普惠价值。 📌 核心摘要问题：连续自回归语音合成模型中，作为输入的连续语音表示（通常由VAE学习）主要优化于波形重建保真度，这与下游自回归TTS模型需要建模的高层语义-韵律信息存在“不匹配”。这迫使TTS模型过度关注低级声学纹理，牺牲语义连贯性，并加剧了自回归生成中的错误累积。方法核心：提出SemaVoice框架。其核心是在VAE训练阶段引入一个语音基础模型（SFM）引导的对齐机制。通过计算帧级一致性损失和成对结构一致性损失，将VAE学习到的连续表示显式地与冻结的SFM（如WavLM）提取的高层语义特征进行对齐，旨在从表示根源改善语义信息保留。新意：与多数在TTS模型上添加额外模块的方法不同，SemaVoice将语义对齐的干预前置到表示学习（VAE）阶段，试图从根本上优化表示空间的性质，使其更利于下游的自回归建模，且不改变下游TTS架构。此外，采用了补丁式扩散头（LocDiT）并引入历史条件建模以增强局部生成稳定性。主要实验结果：在Seed-TTS基准测试中，SemaVoice（使用150K小时数据）取得了具有竞争力的客观和主观结果：英语：WER 1.71%，说话人相似度（SIM）0.694。中文：CER 1.18%，SIM 0.754。困难子集：CER 8.09%，SIM 0.711。主观评估：英文N-MOS 3.98，S-MOS 3.89；中文N-MOS 4.07，S-MOS 4.03。消融实验证明，移除SFM对齐导致WER从2.97%升至3.40%，SIM从0.635降至0.625；移除历史条件建模导致性能大幅下降（WER 8.46%，SIM 0.587）。实际意义：为解决连续自回归TTS中的表示-建模不匹配问题提供了一种新思路，通过在表示学习阶段注入语义先验，可能提升生成语音的语义连贯性。主要局限性：作者承认评估仅限于中英双语数据集；作为自回归框架，面临推理延迟和长序列错误累积的固有挑战。此外，方法需要大规模训练数据和计算资源。 🔗 开源详情代码：论文中未提及代码链接。模型权重：论文中未提及模型权重链接。数据集：训练使用了开源数据集Emilia，链接为 https://huggingface.co/datasets/amphion/Emilia 。 Demo：论文中未提及在线演示链接。复现材料：论文中提供了训练配置的详细描述（如VAE和TTS模型的训练步数、批量大小、学习率、损失权重等），但未提供具体的预训练检查点、完整复现脚本或训练好的模型权重。论文中引用的开源项目： Emilia 数据集： https://huggingface.co/datasets/amphion/Emilia WavLM-large 模型： https://huggingface.co/microsoft/wavlm-large Qwen2.5-1.5B 模型： https://huggingface.co/Qwen/Qwen2.5-1.5B Whisper-large-v3 模型： https://huggingface.co/openai/whisper-large-v3 Paraformer-zh 模型： https://huggingface.co/funasr/paraformer-zh WavLM 模型用于说话人相似度计算： https://github.com/microsoft/UniSpeech/tree/main/WavLM 其他基线系统（如 F5-TTS, MaskGCT, CosyVoice, Spark-TTS, FireRedTTS, IndexTTS 2, VoxCPM, VibeVoice, HiggsAudio-v2, Qwen2.5-Omni）在论文中被引用和比较，但未提供这些系统自身的代码仓库链接。 🏗️ 方法概述和架构 SemaVoice是一个端到端的文本到语音合成系统，其整体流程可分为两个阶段：带SFM语义对齐的连续表示学习（VAE训练）和基于连续表示的自回归语音生成（TTS训练与推理）。整体架构如论文图1所示。 ...

Stable Audio 3

📄 Stable Audio 3 #音频生成 #音乐生成 #扩散模型 #高效推理 #长音频处理 #音效生成 #编辑 ✅ 6.8/10 | 前25% | #音频生成 | #扩散模型 | #音乐生成 #高效推理 | arxiv 学术质量 5.3/8 | 影响力 0.7/1 | 可复现性 0.8/1 | 置信度高 👥 作者与机构第一作者：Zach Evans（来自Stability AI）通讯作者：未明确标注（论文中未提供邮箱或明确标注通讯作者）作者列表：Zach Evans, Julian D. Parker, Matthew Rice, CJ Carr, Zack Zukowski, Josiah Taylor, Jordi Pons（所有作者均来自Stability AI） 💡 毒舌点评亮点：该工作是一项扎实的工程系统集成，成功地将一个极高压缩率的语义-声学自编码器、基于流匹配的扩散Transformer、三阶段训练流水线以及变量长度生成和编辑功能整合到一个框架中。其宣称的极快推理速度（H200上生成6分20秒音频<2秒）和在消费硬件上的可部署性具有显著的实际价值，开源小/中模型权重也体现了对社区的贡献。短板：论文的核心方法论创新有限，更多是对现有技术的针对性优化和组合（如变量长度注意力、对抗性后训练在音频领域的应用）。关键设计选择（如4096倍压缩比）缺乏消融研究支撑，对“首个”等宣称的严谨性有待商榷。部分实验对比存在潜在不公平性（如与专为短音频设计的模型比较长生成），且消融实验的缺失严重削弱了技术贡献的深度分析。 📌 核心摘要要解决什么问题：当前基于潜在扩散的音频生成模型通常采用固定长度序列，导致生成短音频时计算资源浪费。同时，如何在保持高保真度和语义一致性的前提下，实现快速、可变长度的生成及灵活的音频编辑（修复、续写）是重要挑战。方法核心是什么：Stable Audio 3是一个基于流匹配的潜在扩散模型家族（包含small, medium, large三个版本）。其核心架构包含两个部分：1）一个压缩率高达4096倍的语义-声学自编码器（SAME），能将音频编码为紧凑的潜在表示，同时保留声学保真度和语义结构；2）一个增强的扩散Transformer，支持可变长度生成和基于掩码的修复/续写编辑。训练采用三阶段流水线：流匹配预训练、ODE暖机蒸馏和对抗性后训练。与已有方法相比新在哪里：主要创新点在于：a) 提出了极高压缩率（4096x）的语义-声学自编码器，使得在消费级硬件上生成长音频成为可能；b) 实现了潜在扩散模型中真正意义上的可变长度生成，避免了固定长度模型对短音频的无效计算；c) 设计了结合流匹配、蒸馏和对抗性后训练的三阶段训练流程，实现了极少步数下的高质量生成；d) 将修复和续写功能统一为一个基于掩码的编辑框架。主要实验结果如何：在SDD音乐基准和BBC音效基准上，Stable Audio 3（medium/large）在FAD和CLAP等指标上取得了与当前最强开源模型可比或更优的结果（例如，在SDD 120s音乐生成上，large模型FAD为0.101，CLAP为0.393）。模型推理速度极快，在H200 GPU上生成6分20秒音频耗时不到2秒。模型（small/medium）支持在消费级GPU甚至MacBook Pro CPU上运行。实际意义是什么：该工作推动了高质量、高实用性音频生成模型的发展。其开源的small和medium模型降低了使用门槛。极快的推理速度和灵活的生成长度/编辑能力使其非常适合集成到实时创意工具和应用中，尤其是在资源受限的设备上。主要局限性是什么：论文明确指出，对于超长生成（如380秒），模型的提示遵循度（CLAP分数）会显著下降，因为训练数据中长音频多为特定类型（如环境、古典音乐）。此外，所有设计选择（如特定压缩比、训练阶段的具体组合）缺乏全面的消融实验来验证其必要性和最优性。单步生成（ε→x̂₀）仍然困难，导致实际使用了8步“乒乓”采样。 🔗 开源详情代码： https://github.com/Stability-AI/stable-audio-tools http://github.com/Stability-AI/stable-audio-3 模型权重：论文中提及发布了 small 和 medium 模型的权重，权重可通过上述代码仓库获取。large模型未开源。数据集：训练数据：使用来自 AudioSparx（许可数据）和 Freesound（CC-0, CC-BY, CC-Sampling+ 许可）的数据。Freesound 数据子集归属声明链接：https://info.stability.ai/attributions 评估数据集： Song Describer Dataset (SDD)：论文中未提供获取链接。 BBC Sound Effects Dataset：论文中未提供获取链接。 Demo：论文中未提及在线演示链接。复现材料：训练和实现细节在论文第3节和附录中有描述，具体代码和配置包含在上述代码仓库中。论文中引用的开源项目： SAME (Semantically-Aligned Music autoEncoder)：https://github.com/Stability-AI/stable-audio-tools (基于SAME的实现) T5Gemma (用于文本编码)：论文中未提供具体链接（google/t5gemma-b-b-ul2）。 PANNs (用于数据过滤)：https://github.com/qiuqiangkong/PANNs CLAP (用于评估和训练)：论文中未提供具体链接。 Freesound：https://freesound.org/ AudioSparx：https://www.audiosparx.com/ 🏗️ 方法概述和架构整体流程概述：Stable Audio 3是一个端到端的文本到音频生成与编辑系统，基于潜在扩散模型。其流程为：输入立体声音频（44.1kHz），通过预训练且冻结的语义-声学自编码器（SAME）编码为紧凑的潜在序列（256维，帧率约10.76Hz）；生成时，扩散Transformer在文本嵌入（T5Gemma编码）、时长、扩散时间步t和可选的修复掩码等条件的引导下，从高斯噪声中逐步去噪出目标潜在序列；最后，由SAME的解码器将潜在序列重建为波形。整个生成过程（从噪声到波形）在H200 GPU上仅需少于2秒。 ...