扩散模型 | 语音/音乐/音频论文速递

From Text to Talk: Audio-Language Model Needs Non-Autoregressive Joint Training

📄 From Text to Talk: Audio-Language Model Needs Non-Autoregressive Joint Training #语音对话系统 #扩散模型 #语音大模型 #端到端 #预训练 ✅ 7.5/10 | 前25% | #语音对话系统 | #扩散模型 | #语音大模型 #端到端学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度高 👥 作者与机构第一作者：Tianqiao Liu（广东智慧教育研究院、好未来教育集团）通讯作者：Xueyi Li（广东智慧教育研究院）作者列表：Tianqiao Liu（广东智慧教育研究院、好未来教育集团）、Xueyi Li（广东智慧教育研究院）、Hao Wang（北京大学）、Haoxuan Li（北京大学）、Zhichao Chen（北京大学）、Weiqi Luo（广东智慧教育研究院）、Zitao Liu（广东智慧教育研究院） 💡 毒舌点评亮点在于敏锐地指出了用单一自回归目标训练文本和音频模态的“结构性不匹配”，并巧妙地利用离散扩散模型的任意序自回归特性，构建了一个理论自洽的混合生成框架。短板在于，虽然模型在多个任务上超越了基线，但其性能与一些大型（7B以上）模型仍有差距，且实验部分主要依赖合成数据进行扩展，其在大规模真实交互场景中的鲁棒性和长期对话能力尚待更深入的验证。 🔗 开源详情代码：是，提供了GitHub仓库链接：https://github.com/ai4ed/TtT。模型权重：未提及是否公开模型检查点或权重。数据集：论文中详细列出了训练所用数据集名称和部分规模，但未说明是否公开整合后的训练数据集或提供下载方式。 Demo：未提及在线演示。复现材料：提供了非常详尽的训练细节（优化器、学习率、批量大小、随机策略概率等）和推理配置（扩散步数、块大小、引导尺度等），并说明了评估使用的具体ASR和LLM-as-a-Judge模型。附录包含数据格式示例。论文中引用的开源项目：明确使用了Qwen2.5作为主干模型，并沿用了GLM-4-Voice的音频Tokenizer和Decoder设计。训练数据引用了VoiceAssistant-400K， CosyVoice2， FineWeb-Edu等。评估中使用了Whisper， Paraformer-zh， Qwen3-30B-A3B等。 📌 核心摘要问题：现有的端到端语音对话模型（如Moshi, GLM-4-Voice）普遍采用单一自回归（AR）方法同时生成文本和音频，但这忽视了两种模态的本质依赖差异：文本生成是强目标间（target-target）依赖，而音频生成更依赖源-目标（source-target）依赖，即主要由输入文本决定。方法核心：提出了Text-to-Talk (TtT)，一个统一的音频-文本多模态大语言模型框架。其核心是将AR用于文本生成，与基于吸收离散扩散的非自回归（NAR）方法用于音频生成，整合到同一个Transformer中。文本生成遵循标准因果顺序，而音频段内的生成被建模为可以任意顺序进行（得益于扩散模型的性质），但整体仍受制于因果的跨段依赖。创新点：理论框架：利用吸收离散扩散模型等价于“任意序自回归模型”的理论，为混合AR-NAR训练目标提供了上界分析，证明了其合理性。架构设计：设计了模态感知注意力机制，强制对文本使用因果注意力，而对音频段内允许双向注意力，同时保持跨段的因果依赖。训练策略：提出了三项训练策略（批量AR/NAR混合、前缀保留掩码、随机段截断）来弥合训练时部分掩码音频与推理时完整音频之间的差异。主要实验结果：在多个基准测试（Audio-QA, ASR, AAC, URO-Bench）上，TtT（3B参数）持续优于强大的纯AR和纯NAR基线模型。例如，在Audio-QA的LLaMAQuestions数据集上，TtT-3B得分34.68，而纯AR的Qwen2.5-3B仅得10.00；在AISHELL-2 ASR任务上，TtT-3B的WER为12.53，显著低于AR基线的54.94。与更大的模型相比，TtT在某些任务上也展现出竞争力。实际意义：为构建更高效、更自然的端到端语音对话系统提供了一种新的架构范式，通过尊重模态差异来减少误差传播，并实现音频的并行生成，有望降低延迟。主要局限性：当前实验主要基于3B参数的模型，其能力上限和在更复杂推理任务上的表现有待更大规模模型的验证；部分训练数据依赖TTS合成，可能引入领域偏差。 🏗️ 模型架构 TtT模型基于一个预训练的纯文本LLM（论文中使用Qwen2.5-Base）进行构建，通过扩展其词表以包含音频离散码元（来自GLM-4-Voice的音频分词器）和特殊控制符（如<SOA>、<EOA>、<EOS>）。整个框架是一个统一的Transformer编码器-解码器（在论文中记为fθ），共享一个输出头W用于在整个扩展词表V上预测logits。 ...

Hierarchical Semantic-Acoustic Modeling via Semi-Discrete Residual Representations for Expressive End-to-End Speech Synthesis

📄 Hierarchical Semantic-Acoustic Modeling via Semi-Discrete Residual Representations for Expressive End-to-End Speech Synthesis #语音合成 #自回归模型 #零样本 #扩散模型 #端到端 🔥 8.5/10 | 前25% | #语音合成 | #自回归模型 | #零样本 #扩散模型学术质量 6.0/7 | 选题价值 1.8/2 | 复现加成 0.6 | 置信度高 👥 作者与机构第一作者：Yixuan Zhou（清华大学深圳国际研究生院）通讯作者：Zhiyong Wu（清华大学深圳国际研究生院）作者列表：Yixuan Zhou（清华大学深圳国际研究生院）、Guoyang Zeng（ModelBest Inc.）、Xin Liu（ModelBest Inc.）、Xiang Li（清华大学深圳国际研究生院）、Renjie Yu（清华大学深圳国际研究生院）、Ziyang Wang（ModelBest Inc.）、Runchuan Ye（清华大学深圳国际研究生院）、Weiyue Sun（ModelBest Inc.）、Jiancheng Gui（ModelBest Inc.）、Kehan Li（清华大学深圳国际研究生院）、Zhiyong Wu（清华大学深圳国际研究生院，通讯作者）、Zhiyuan Liu（清华大学计算机科学与技术系） 💡 毒舌点评论文巧妙地利用有限标量量化（FSQ）作为“强制分心”的瓶颈，逼着语言模型先管好内容和语调的大局，再把声学细节的脏活累活交给另一个模块，这种设计既有理论优雅性又有工程实用性；不过，尽管在客观指标和克隆相似度上表现亮眼，论文在主观自然度（N-MOS）上并未全面碾压IndexTTS2等强敌，暗示着“稳定”与“极致自然”之间可能还存在细微的权衡，尤其是在中文的韵律控制上可能还有提升空间。 🔗 开源详情代码：论文明确表示“We will release code and models to support future research”，但未提供具体的代码仓库链接。附录中给出了推断代码的占位符 codes.zip。模型权重：承诺发布，但未说明具体平台或链接。数据集：使用了公开的Emilia数据集（9.5万小时），并提及了内部大规模双语数据集（超过100万小时，未公开）。 Demo：提供了在线演示页面链接：https://voxcpm.github.io/VoxCPM-demopage/。复现材料：提供了非常充分的复现材料，包括：详细的模型架构参数表（附录表5）、训练阶段的学习率调度与批处理大小（附录表6）、所有消融实验的设置、硬件配置（GPU型号与数量）、以及多处关于训练技巧的说明（如WSD策略的重要性）。附录F部分包含了大量实验的细节和结果表格。论文中引用的开源项目：主要引用了作为基线的其他TTS系统（如CosyVoice, F5-TTS等），以及预训练的语言模型MiniCPM-4。在实现上，使用了Megatron框架。 📌 核心摘要要解决的问题：端到端语音合成中表达力（连续表示）与稳定性（离散表示）之间的根本性矛盾。离散化会损失细节，而连续建模则因任务纠缠（语义规划与声学渲染混杂）容易导致长序列上的误差累积和不稳定。方法核心：提出一个统一的端到端框架，通过“层次化语义-声学建模”和“半离crete残差表示”来解决上述矛盾。核心是在文本语义语言模型（TSLM）和残差声学语言模型（RALM）之间插入一个可微分的有限标量量化（FSQ）瓶颈。该瓶颈自然诱导了任务分离：TSLM专注于生成稳定的语义-韵律“骨架”，RALM负责恢复被量化的细粒度声学细节。两者生成的条件信号共同指导一个基于扩散的局部Transformer解码器（LocDiT）生成最终语音。与已有方法相比新在哪里：新在统一框架：将显式的层次化设计（语义 vs. 声学）与残差学习结合在一个可端到端训练的统一框架内，避免了传统多阶段流水线的割裂和对外部预训练分词器的依赖。新在瓶颈机制：不同于将量化作为预测目标，本工作将FSQ作为正则化瓶颈和归纳偏置，强制信息流进行分层，从而在保持可微性的同时实现了隐式的任务解耦。新在训练范式：整个层次化模型（包括量化瓶颈）仅使用简单的扩散目标进行端到端训练，简化了流程并实现了协同优化。主要实验结果：主实验：在超过100万小时的双语数据上训练的0.5B参数模型VoxCPM，在开源模型中取得了最先进（SOTA）的零样本TTS性能。在SEED-TTS-EVAL基准上，英文WER为1.85%，中文CER为0.93%，说话人相似度（SIM）分别为72.9%（EN）和77.2%（ZH），优于CosyVoice2, IndexTTS2等模型。关键对比数据：模型参数量训练数据英文WER↓ 英文SIM↑ 中文CER↓ 中文SIM↑ CosyVoice2 0.5B 170K hrs 3.09 65.9 1.38 75.7 IndexTTS 2 1.5B 55K hrs 2.23 70.6 1.03 76.5 VoxCPM 0.5B 1.8M hrs 1.85 72.9 0.93 77.2 消融实验：证实了FSQ瓶颈和残差声学模型（RALM）是性能关键。移除FSQ导致中文硬例句CER从18.19%飙升至24.92%；移除RALM（退化为单一连续模型）导致性能显著下降。FSQ维度选择也至关重要，256维是较优平衡点。可视化分析：t-SNE可视化显示TSLM-FSQ输出形成与文本内容相关的语义结构，而RALM残差输出则聚类为说话人相关的声学特征，验证了隐式解耦。实际意义：提供了一种新的、统一的端到端语音合成架构范式，证明了通过精心设计的瓶颈结构可以在连续空间中实现稳定且富有表达力的生成，无需外部离散编码器。这对于推动开源、高质量、可定制的语音合成技术具有重要意义。主要局限性：论文中已提及和暗示的局限包括：在极致语音自然度（N-MOS）上并非所有场景都绝对领先（如中文部分测试落后于IndexTTS2）；实时流式合成能力虽被提及（因果VAE、低延迟），但实验未深入展示其在长序列对话等复杂流式场景下的稳定性与表现；模型依赖大规模高质量数据（超过100万小时）以达最佳性能，其在低资源场景下的有效性未充分验证。 🏗️ 模型架构 VoxCPM是一个端到端的、自回归的层次化语音生成模型，其核心在于层次化的条件生成与半离散残差表示学习。整体架构如下图所示： ...

Instilling an Active Mind in Avatars via Cognitive Simulation

📄 Instilling an Active Mind in Avatars via Cognitive Simulation #数字人生成 #扩散模型 #多模态模型 #音视频 #大语言模型 🔥 8.0/10 | 前25% | #数字人生成 | #扩散模型 | #多模态模型 #音视频学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Jianwen Jiang（字节跳动）通讯作者：Jianwen Jiang（字节跳动）作者列表：Jianwen Jiang（字节跳动）、Weihong Zeng（字节跳动）、Zerong Zheng（字节跳动）、Jiaqi Yang（字节跳动）、Chao Liang（字节跳动）、Wang Liao（字节跳动）、Han Liang（字节跳动）、Weifeng Chen（字节跳动）、Xing Wang（字节跳动）、Yuan Zhang（字节跳动）、Mingyuan Gao（字节跳动） 💡 毒舌点评亮点：首次系统地将认知科学的“双系统理论”引入数字人生成框架，通过LLM模拟“慢思考”来规划语义动作，显著提升了生成动画的上下文一致性和表现力，思路新颖且实验验证充分。短板：框架依赖一个可能产生20-30秒延迟的LLM推理模块，且生成模型本身基于现有MMDiT架构改进，核心创新更偏向系统级整合而非底层模型架构突破；此外，所有实验在闭源环境下进行，代码和模型的缺失严重影响了结果的可独立验证性。 🔗 开源详情代码：论文中未提及代码链接。模型权重：未提及公开权重。数据集：论文中详细描述了数据筛选流程，但未提及是否公开数据集。 Demo：未提供在线演示链接。复现材料：论文附录中提供了详细的实现细节（超参数、训练阶段）、数据筛选工具、评估指标和MLLM使用的提示词模板，复现材料在文本层面较为充分。引用的开源项目：依赖Whisper（音频特征提取）、SyncNet（数据筛选）、RAFT（光流计算）、Q-align（质量评估）、PySceneDetect和PaddleOCR（视频预处理）。 📌 核心摘要问题：当前数字人视频生成模型虽然能生成流畅动画，但主要基于低层音频线索（如口型）进行反应式同步，缺乏对高层语义（如情感、意图、语境）的理解，导致生成的动作缺乏逻辑一致性和丰富性。方法核心：提出一个模拟人类“双系统”认知的框架。系统2：利用多模态大语言模型（MLLM）对输入（图像、音频、文本）进行推理，生成结构化的高层动作计划（推理文本）。系统1：设计一个专门的多模态扩散变换器（MMDiT），其核心是伪最后帧（PLF）策略和对称的音频分支融合，以鲁棒地整合MLLM生成的文本指导与音频等反应式信号，同时避免模态冲突。创新点：a) 首个将数字人问题置于认知科学双系统理论下建模的工作；b) 使用MLLM进行显式的语义规划；c) 提出伪最后帧（PLF）策略，通过时序外推能力维持身份一致性，避免了传统参考图条件带来的运动伪影；d) 设计了多模态预热训练策略以优化多分支融合。实验结果：在多项指标上达到SOTA。在CelebV-HQ肖像任务上，FID（31.320）和FVD（45.771）优于或接近OmniHuman-1；在CyberHost全身任务上，HKV（72.113）显著高于OmniHuman-1（47.561），表明手势动态性更强。用户研究（40人）显示，在整体质量、上下文自然度上显著优于多个学术和商业基线。消融研究证明，去除系统2推理会降低动作丰富度（HKV从168.9降至122.4），而PLF和多模态预热对图像质量、运动和身份一致性至关重要。实际意义：为创建具有“主动心智”、能根据语境进行逻辑反应的智能数字人提供了新范式，有望应用于虚拟伴侣、交互式娱乐、影视制作等领域。主要局限性：a) 引入LLM推理带来约20-30秒的额外延迟；b) 框架的有效性部分依赖所选用的特定MLLM；c) 当前评估主要在单人或简单多人场景，复杂交互场景的鲁棒性有待进一步验证；d) 模型和代码未开源。 🏗️ 模型架构整体框架模拟“双系统”认知，流程如图2所示。系统2（审慎控制）：由MLLM智能体驱动，包含分析器和规划器两个阶段。输入角色的参考图像、音频片段和可选文本提示。分析器通过逐步引导式提问，推断语音内容、情感状态和意图，并输出结构化的JSON总结。规划器基于此总结，制定一个详细、连贯的动作计划（作为“时间表”），以推理文本形式输出。该模块为下游生成提供高层语义指导。系统1（反应渲染）：基于多模态扩散变换器（MMDiT）骨干网络，用于最终视频合成。其关键设计包括： ...

InterActHuman: Multi-Concept Human Animation with Layout-Aligned Audio Conditions

📄 InterActHuman: Multi-Concept Human Animation with Layout-Aligned Audio Conditions #视频生成 #扩散模型 #音视频 #多模态模型 #流匹配 🔥 9.0/10 | 前25% | #视频生成 | #扩散模型 | #音视频 #多模态模型学术质量 6.5/7 | 选题价值 1.8/2 | 复现加成 0.8 | 置信度高 👥 作者与机构第一作者：Zhenzhi Wang（香港中文大学，与Jiaqi Yang、Jianwen Jiang贡献相等，按署名顺序列为第一）通讯作者：Jianwen Jiang（字节跳动）作者列表：Zhenzhi Wang（香港中文大学）、Jiaqi Yang（字节跳动）、Jianwen Jiang（字节跳动）、Chao Liang（字节跳动）、Gaojie Lin（字节跳动）、Zerong Zheng（字节跳动）、Ceyuan Yang（字节跳动）、Yuan Zhang（字节跳动）、Mingyuan Gao（字节跳动）、Dahua Lin（香港中文大学） 💡 毒舌点评亮点在于它优雅地解决了多人动画中“条件应该给谁”这个棘手问题，通过一个轻量级的掩码预测器在扩散去噪过程中动态地为每个身份划分“领地”，并据此注入音频，设计精巧且实用。短板是尽管方法强大，但其核心依赖高质量的参考图像和清晰的身份边界，对于重叠严重、遮挡复杂或风格高度抽象的场景，其掩码预测器的鲁棒性和最终生成质量可能面临挑战，论文对此讨论有限。 🔗 开源详情代码：提供了代码仓库链接（基于Wan2.1重新实现），并包含了数据处理和模型推理的伪代码。模型权重：提到了公开的预训练模型权重。数据集：论文中提及的数据集“OpenHumanVid”及其处理管线代码已开源，但完整的训练数据集本身未提及公开下载方式。 Demo：论文提供了视频演示链接：https://zhenzhiwang.github.io/interacthuman/ 复现材料：提供了详细的训练细节（硬件、批大小、学习率）、模型架构说明、消融实验设置以及完整的算法伪代码，复现信息非常充分。引用的开源项目：基础模型Wan2.1；wav2vec 2.0；Qwen2.5-VL / Qwen2-VL；Grounding-SAM2；Florence-2；PySceneDetect；PaddleOCR；Q-align；RAFT；RTMpose；SyncNet；PyTorch FSDP。 📌 核心摘要问题：现有音频驱动或图像定制的视频生成方法大多基于单一主体假设，将条件信息全局注入，无法处理多人对话、人与物体交互等需要为不同身份独立控制外观和声音的多概念复杂场景。方法核心：提出了InterActHuman框架。核心是在预训练的DiT视频生成模型中集成一个轻量级的掩码预测器，该预测器通过交叉注意力机制，从噪声视频特征和参考图像特征中显式预测每个参考身份在视频帧中的时空布局（掩码）。在推理时，采用迭代缓存策略：用前一去噪步骤预测的掩码作为先验，指导当前步骤的局部音频条件注入，将每个身份对应的音频特征仅注入到其掩码区域内。创新点：与依赖隐式特征融合的现有方法不同，本工作首次为多概念人类动画引入了显式、布局对齐的局部条件注入范式。这打破了单一实体假设，实现了对多个身份外观和声音的精确、独立控制。主要实验结果：在多人音频驱动视频生成任务上，本文方法在唇形同步精度（Sync-D↓：6.670 vs OmniHuman的9.482）、视频整体质量（FVD↓：22.881 vs 33.895）和运动多样性（HKV↑：59.635）等关键指标上显著优于所有基线。在多概念定制任务上，也在概念保真度（CLIP-I↑：0.744）和视频质量（IQA↑：4.903）上达到最优。用户研究也显示其在唇形同步和主体一致性方面最受青睐。方法 Sync-D↓ FVD↓ IQA↑ AES↑ OmniHuman (全局音频) 9.482 33.895 4.768 3.466 OmniHuman (固定掩码) 7.068 40.239 4.690 3.369 Ours (预测掩码) 6.670 22.881 4.757 3.467 实际意义：为多模态、多概念的人类动画生成建立了有效基线，可直接应用于多人视频对话、虚拟角色互动、基于多张图片的视频定制等场景。主要局限性：训练数据主要集中于2-3人的场景，可能限制其向更多人（>3）场景的泛化能力；生成能力受限于人类中心领域，对复杂多样的文本提示遵循能力弱于通用视频生成模型。 🏗️ 模型架构模型整体是一个基于MMDiT（Multi-Modal Diffusion Transformer）的视频生成框架，其核心创新在于加入了掩码预测与局部条件注入机制。 ...

JavisDiT: Joint Audio-Video Diffusion Transformer with Hierarchical Spatio-Temporal Prior Synchronization

📄 JavisDiT: Joint Audio-Video Diffusion Transformer with Hierarchical Spatio-Temporal Prior Synchronization #音频生成 #多模态模型 #扩散模型 #Transformer #基准测试 🔥 8.0/10 | 前25% | #音频生成 | #扩散模型 #Transformer | #多模态模型 #扩散模型学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Kai Liu (Zhejiang University, National University of Singapore) (论文中Kai Liu标注为*，表示同等贡献，且为列出的第一个作者) 通讯作者：Hao Fei (National University of Singapore) (论文中标注为†) 作者列表： Kai Liu (Zhejiang University, National University of Singapore) Wei Li (University of Science and Technology of China) Lai Chen (Zhejiang University) Shengqiong Wu (National University of Singapore) Yanhao Zheng (Zhejiang University) Jiayi Ji (National University of Singapore) Fan Zhou (Zhejiang University) Jiebo Luo (University of Rochester) Ziwei Liu (Nanyang Technological University) Hao Fei (National University of Singapore) Tat-Seng Chua (National University of Singapore) 💡 毒舌点评这篇论文的亮点在于其“分层时空先验估计器”设计得相当巧妙，直指当前联合音视频生成“只知大概、不晓细节”的同步痛点，并为此精心打造了一个更具挑战性的真实世界基准数据集JavisBench。然而，短板也很明显：一个追求实时应用的生成模型，其推理效率在附录表格中暴露无遗（生成4秒视频需30秒），在“生成速度与质量”的权衡上显然更偏向了后者。 ...

JavisDiT++: Unified Modeling and Optimization for Joint Audio-Video Generation

📄 JavisDiT++: Unified Modeling and Optimization for Joint Audio-Video Generation #音视频生成 #流匹配 #扩散模型 #多模态模型 ✅ 7.5/10 | 前25% | #音视频生成 | #流匹配 | #扩散模型 #多模态模型学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Kai Liu, Yanhao Zheng, Kai Wang（共同第一作者） Kai Liu：浙江大学，与HiThink Research有关 Yanhao Zheng：未明确说明机构 Kai Wang：多伦多大学通讯作者：Hao Fei（新加坡国立大学）作者列表： Kai Liu (浙江大学, HiThink Research) Yanhao Zheng (未说明具体机构) Kai Wang (多伦多大学) Shengqiong Wu (新加坡国立大学) Rongjunchen Zhang (HiThink Research) Jiebo Luo (罗切斯特大学) Dimitrios Hatzinakos (多伦多大学) Ziwei Liu (南洋理工大学) Hao Fei (新加坡国立大学，通讯作者) Tat-Seng Chua (新加坡国立大学) 💡 毒舌点评论文的最大亮点在于提出了一个简洁且高效的统一框架（MS-MoE + TA-RoPE），显著缩小了开源联合音视频生成模型与商业模型Veo3之间的差距。然而，所有实验仅在标准学术基准（JavisBench）上进行，缺乏对真实世界长尾场景、复杂语义或大规模生成能力的验证，其声称的“里程碑”意义有待更广泛的应用场景检验。 ...

Latent Fourier Transform

📄 Latent Fourier Transform #音乐生成 #扩散模型 #傅里叶变换 #表示学习 #可控生成 ✅ 7.5/10 | 前25% | #音乐生成 | #扩散模型 | #傅里叶变换 #表示学习学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Mason Long Wang (CSAIL, Massachusetts Institute of Technology) 通讯作者：未说明（论文未明确标注通讯作者，通常根据机构排序，第二作者Cheng-Zhi Anna Huang同属MIT CSAIL）作者列表：Mason Long Wang (CSAIL, Massachusetts Institute of Technology)， Cheng-Zhi Anna Huang (CSAIL, Massachusetts Institute of Technology) 💡 毒舌点评这篇论文的亮点在于巧妙地将傅里叶变换这个经典工具从音频信号“下沉”到生成模型的潜在表示空间，为音乐生成提供了一个直观且连续的“时间尺度”控制旋钮，概念优雅且实验全面。短板在于，其控制维度的普适性有待验证——能否从“音乐结构”的时间尺度控制，泛化到如语音、环境声等其他音频模态的类似控制，文中并未探讨，这使得方法的影响力目前主要局限在音乐生成领域。 🔗 开源详情代码：是。论文明确提供了代码仓库链接：https://github.com/maswang32/latentfouriertransform/。模型权重：未提及。论文中未明确说明是否公开预训练模型权重。数据集：未提及。论文使用的MTG-Jamendo和GTZAN是公开数据集，但论文未提供处理后的版本或具体下载脚本。 Demo：论文中提到提供在线演示示例（https://masonlwang.com/latentfouriertransform/）。复现材料：非常充分。论文附录详细说明了模型架构（MLP、U-Net、DAC编码器；U-Net解码器）、所有训练超参数、数据集处理方式、评估指标计算细节等。论文中引用的开源项目：提到了DAC（Descript Audio Codec）作为编码器前端之一；BigVGAN作为声码器；librosa、Essentia用于特征提取；VampNet作为基线模型。 📌 核心摘要问题：现有的可控音乐生成模型难以精确地基于音乐模式发生的“时间尺度”（如快节奏鼓点vs.慢速和弦进行）进行条件控制或融合，现有控制手段（文本、音高、响度）无法直接暴露这一维度。方法核心：提出潜在傅里叶变换（LATENTFT）框架。核心是在扩散自编码器的潜在表示时间序列上应用离散傅里叶变换（DFT），得到“潜在频谱”。训练时，对该频谱进行随机的频率遮蔽；推理时，用户通过指定潜在频率范围（如0-1Hz保留和弦）来控制生成。新在哪里：不同于直接操作音频波形频谱（均衡器）或后期分析潜在表示，LATENTFT通过训练时的潜在频率遮蔽，使潜在表示天然地按时间尺度解耦，从而支持在推理时对特定时间尺度的特征进行保留、生成变体或混合两首歌曲。主要实验结果：在MTG-Jamendo数据集上的条件生成任务中，LATENTFT在响度相关性（0.878）、节奏保持（0.922）、音色失真（1.390）和和声距离（0.107）等指标上均显著优于所有基线（如ILVR、Guidance、DAC后处理等）。在混合任务中，LATENTFT在音频质量（FAD 1.364）和用户主观评价（图3）上也优于基线。听觉研究（29名音乐家参与）表明，在混合任务的音频质量和融合能力两个维度上，LATENTFT获得的偏好票数均领先于其他系统。可解释性实验（图5）显示，不同音乐属性（体裁、和弦、节奏、音高）在潜在频谱的不同频率区域被保留，证实了潜在频率轴的意义。实际意义：为音乐生成和制作提供了一种新的、基于时间尺度的交互式控制工具，类似于为潜在空间配备了一个“均衡器”，可用于创作音乐变体、混合不同歌曲片段。主要局限性：目前框架主要在音乐生成任务上验证；其潜在表示的可解释性虽被展示，但如何与语义控制（如风格、情绪）进一步结合是未来方向；实时交互性未实现。 🏗️ 模型架构 LATENTFT是一个端到端的编码器-解码器框架，核心是在训练时引入对潜在表示的频率域操作。整体流程如下： ...

LayerSync: Self-aligning Intermediate Layers

📄 LayerSync: Self-aligning Intermediate Layers #生成模型 #扩散模型 #流匹配 #自监督学习 ✅ 7.5/10 | 前25% | #生成模型 | #扩散模型 | #流匹配 #自监督学习学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Yasaman Haghighi (EPFL，与Bastien van Delft共同第一作者) 通讯作者：Alexandre Alahi (EPFL) 作者列表：Yasaman Haghighi (EPFL VITA实验室)， Bastien van Delft (EPFL VITA实验室)， Mariam Hassan (EPFL VITA实验室)， Alexandre Alahi (EPFL VITA实验室) 💡 毒舌点评亮点：本文用一个极其简单（对齐两个层的特征）且零开销的插件，就在多个模态上实现了显著的训练加速和质量提升，堪称扩散模型领域的“高效内部教练”，实用价值很高。短板：所谓的“内部强层指导弱层”缺乏坚实的理论分析，层的选择（如“避开最后20%”）更像是经验性的“土方子”，其有效性边界和内在机理有待更深入的剖析。 🔗 开源详情代码：论文提供代码仓库链接：https://github.com/vita-epfl/LayerSync.git。模型权重：论文中未提及公开训练好的模型权重。数据集：使用公开数据集（ImageNet， MTG-Jamendo， HumanML3D， CLEVRER， MixKit），获取方式遵循各数据集原有许可，论文中未特别说明。 Demo：论文中未提及在线演示。复现材料：提供了非常详细的超参数设置表（表18，19）、模型架构细节（表20）、算法伪代码（算法1）以及计算资源描述。复现信息充分。引用的开源项目：论文中引用并依赖以下开源项目/模型：SiT， Stable Diffusion VAE， Stable Audio Open VAE， DINOv2， MDM等。 📌 核心摘要解决的问题：扩散模型（如DiT/SiT）训练成本高昂。已有工作通过将模型内部表征与外部强大预训练模型（如DINOv2， VLM）对齐来加速训练，但这种方法依赖外部模型、引入计算开销且跨领域泛化能力有限。方法核心：提出LayerSync，一种自包含、即插即用的正则化方法。核心思想是利用扩散模型自身深度网络中表征质量的异质性，将语义信息更丰富的深层块（强层）的输出作为目标，通过最大化相似度（如余弦相似度）来对齐并指导浅层块（弱层）的表征学习，从而实现模型内部的自我提升。与已有方法相比的新意：与依赖外部模型的对齐方法（如REPA， REED）不同，LayerSync无需任何外部模型或数据，计算开销几乎为零。与另一种自包含方法Dispersive Loss（鼓励表征分散）相比，LayerSync提供了更直接的定向学习信号（强层对齐弱层）。主要实验结果：图像生成（ImageNet 256x256）：使用LayerSync的SiT-XL/2模型，训练800 epochs后FID达到1.89（使用CFG），比基线SiT-XL/2的2.06降低了8.3%，在纯自监督生成方法中达到SOTA。相比基线SiT-XL/2，训练160 epochs时的FID（8.29）已低于基线训练1400 epochs时的FID（8.3），实现了超过8.75倍的训练加速。相比Dispersive Loss，在相同epoch下FID改进幅度平均高出约20个百分点。音频生成（MTG-Jamendo）：使用LayerSync的SiT-XL模型，在650 epochs时FAD（CLAP）为0.199，相比基线的0.251降低了20.7%。收敛速度提升约23%。人体运动生成（HumanML3D）：使用LayerSync的MDM模型，在600K迭代后FID为0.4801，相比基线的0.5206降低了7.7%。表示分析：在相同生成质量（FID）下，使用LayerSync的模型在分类（+32.4%）和语义分割（+63.3%）任务的线性探测精度上远超基线模型，表明其学到了更优质、更同质化的内部表征。实际意义：提供了一种简单、通用且高效的扩散模型训练加速方案，可无缝应用于不同模态（图像、音频、视频、运动），为降低生成模型训练门槛、推动其广泛应用提供了新思路。主要局限性：对齐的层对选择依赖启发式规则（如避开最后20%的解码层、保证一定距离），其最优策略可能因架构而异；缺乏对“为何此对齐有效”的理论解释；虽然实验跨领域，但在更复杂任务（如高分辨率视频生成）上的大规模验证尚不充分。 🏗️ 模型架构本文的核心贡献并非提出新的生成模型架构，而是为现有的扩散/流匹配Transformer架构（如SiT）提供一个即插即用的训练正则化模块。 ...

MambaVoiceCloning: Efficient and Expressive Text-to-Speech via State-Space Modeling and Diffusion Control

📄 MambaVoiceCloning: Efficient and Expressive Text-to-Speech via State-Space Modeling and Diffusion Control #语音克隆 #语音合成 #状态空间模型 #语音大模型 #扩散模型 ✅ 7.5/10 | 前25% | #语音克隆 | #状态空间模型 | #语音合成 #语音大模型学术质量 6.5/7 | 选题价值 7.0/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Sahil Kumar（Yeshiva University, Department of Mathematics）通讯作者：Youshan Zhang（Chuzhou University, School of Artificial Intelligence）作者列表：Sahil Kumar（Yeshiva University, Department of Mathematics）、Namrataben Patel（Yeshiva University, Department of Mathematics）、Honggang Wang（Yeshiva University, Department of Computer Science & Engineering）、Youshan Zhang（Chuzhou University, School of Artificial Intelligence） 💡 毒舌点评亮点：架构设计全面且理论动机清晰，通过引入门控双向融合与AdaLN调制，在完全移除推理时注意力的同时，有效提升了长文本的韵律稳定性和跨语言泛化能力，是Mamba在TTS领域一次扎实的工程化探索。短板：尽管声称改进，但核心性能增益（MOS +0.07， RTF -0.0005）绝对值很小，被扩散解码器主导的延迟瓶颈严重掩盖了SSM-only编码器的理论优势，实际部署价值提升有限。 ...

PrismAudio: Decomposed Chain-of-Thought and Multi-dimensional Rewards for Video-to-Audio Generation

📄 PrismAudio: Decomposed Chain-of-Thought and Multi-dimensional Rewards for Video-to-Audio Generation #音频生成 #强化学习 #扩散模型 #多模态模型 #基准测试 ✅ 7.0/10 | 前25% | #音频生成 | #强化学习 | #扩散模型 #多模态模型学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度高 👥 作者与机构第一作者：Huadai Liu（香港科技大学、阿里巴巴集团通义实验室）通讯作者：Wei Xue（香港科技大学）作者列表：Huadai Liu（香港科技大学、阿里巴巴集团通义实验室）、Kaicheng Luo（阿里巴巴集团通义实验室）、Wen Wang（阿里巴巴集团通义实验室）、Qian Chen（阿里巴巴集团通义实验室）、Peiwen Sun（香港中文大学）、Rongjie Huang（香港中文大学）、Xiangang Li（阿里巴巴集团通义实验室）、Jieping Ye（阿里巴巴集团通义实验室）、Wei Xue（香港科技大学） 💡 毒舌点评亮点在于将“分解的链式思维”与“多维强化学习奖励”进行耦合的框架设计思路，清晰且有效，为解决多目标生成中的“目标纠缠”提供了新颖且可解释的方案。短板是，其提出的全新AudioCanvas基准数据集虽然是必要的，但作为“裁判员”的同时，自己也是“运动员”，这使得核心结论的公信力部分依赖于数据集构建的客观性，且报告的部分指标（如在某些空间或美学指标上超越了真实音频）需要更谨慎的解释。 🔗 开源详情代码：论文承诺将开源完整训练脚本和配置文件，但当前未提供代码仓库链接。模型权重：论文承诺将公开所有模型权重（音频基础模型、微调后的VideoLLaMA2等），但未提供下载地址。数据集：论文承诺将公开AudioCanvas基准数据集，但未说明具体获取方式。 Demo：论文未提及在线演示。复现材料：附录D提供了极其详细的实现细节，包括训练各阶段的GPU型号、数量、时长、批大小、学习率等超参数，以及CoT生成和微调的提示词模板，复现信息非常充分。论文中引用的开源项目：VideoPrism, T5-Gemma, VideoLLaMA2, Gemini 2.5 Pro（API）, MS-CLAP, Synchformer, Meta Audiobox Aesthetics, StereoCRW, Stability AI的音频工具。 📌 核心摘要要解决什么问题：视频到音频生成需要同时优化语义一致性、时间同步性、美学质量和空间准确性四个维度，但现有方法使用单一损失函数导致目标相互纠缠，且缺乏与人类偏好对齐。方法核心是什么：提出PrismAudio框架，首次将强化学习引入视频到音频生成。其核心是将生成前的推理过程分解为四个专门的链式思维模块（语义、时间、美学、空间），并为每个模块设计对应的奖励函数，通过多维强化学习进行联合优化。与已有方法相比新在哪里：1) 首次在V2A中使用分解式CoT与多维RL奖励对应，解决目标纠缠并提升可解释性。2) 提出Fast-GRPO算法，通过随机窗口的混合ODE-SDE采样，在保证性能的同时大幅降低RL训练开销。3) 构建了更严谨、场景更多样的AudioCanvas基准数据集。主要实验结果如何：在自建的AudioCanvas基准和VGGSound测试集上，PrismAudio在所有四个感知维度上均达到了SOTA水平。例如，在AudioCanvas上，与基线ThinkSound相比，语义对齐度（CLAP）从0.48提升至0.52，时间同步性（DeSync）从0.80大幅改善至0.36，美学质量（CE）从4.10提升至4.26，空间误差（CRW）从22.82降低至12.87。消融实验证明分解式CoT优于单体式CoT，多维度奖励优于单维度奖励。实际意义是什么：为生成高质量、可控且与人类感知对齐的视频配音提供了一个新范式。其分解式推理框架和高效RL训练方法对其他多模态生成任务也有参考价值。主要局限性是什么：框架复杂度较高，依赖于多个预训练模型（如VideoLLaMA2、各种奖励模型）。实验中报告的部分客观指标（如空间/美学）超越了真实音频，这可能源于对不完美代理指标的过度优化，其实际感知质量需结合主观评估看。新提出的AudioCanvas基准的有效性和广泛接受度有待社区检验。 🏗️ 模型架构 PrismAudio的整体架构可分为三个主要阶段，建立在一个基于流匹配的扩散Transformer音频基础模型之上。 ...