扩散模型 | 语音/音乐/音频论文速递

SmartDJ: Declarative Audio Editing with Audio Language Model

📄 SmartDJ: Declarative Audio Editing with Audio Language Model #音频编辑 #音频大模型 #扩散模型 #空间音频 🔥 8.5/10 | 前25% | #音频编辑 | #音频大模型 | #扩散模型 #空间音频学术质量 6.5/7 | 选题价值 2.0/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Zitong Lan（宾夕法尼亚大学WAVES实验室）通讯作者：未明确说明（论文未指定通讯作者）作者列表：Zitong Lan（宾夕法尼亚大学WAVES实验室）、Yiduo Hao（宾夕法尼亚大学WAVES实验室）、Mingmin Zhao（宾夕法尼亚大学WAVES实验室） 💡 毒舌点评亮点：本文最大的亮点在于提出了“声明式”音频编辑的范式，并通过一个设计精巧的“ALM规划器+LDM编辑器”框架实现了它，同时配套构建了首个可扩展的声明式音频编辑数据集合成管道，形成了一个完整的技术闭环。短板：实验完全依赖于合成数据集，虽然合成过程逼真，但真实世界中的复杂声场、噪声和语义歧义可能对ALM的推理和LDM的执行构成远超合成环境的挑战，其泛化能力在论文中未得到真实场景验证。 🔗 开源详情代码：论文中未提及代码仓库链接。但承诺在论文接受后发布代码。模型权重：未提及是否公开预训练的ALM和LDM权重。但论文承诺发布预训练模型。数据集：论文中未提及公开合成数据集的具体获取方式。但承诺发布合成数据集。 Demo：未提及提供在线演示。复现材料：提供了极其详细的实现细节，包括模型架构（层数、维度、参数量）、训练配置（学习率、批大小、优化器、训练步数/轮数）、数据合成流程（提示词模板、声学模拟参数），以及消融实验设置。附录非常完整。论文中引用的开源项目：CLAP（用于音频编码）、FLAN-T5（用于文本编码）、Stable-Audio-Open（作为部分基线）、PyRoomAcoustics（用于声学模拟）、AudioSep（作为对比模型）、GPT-4o（用于数据合成）。 📌 核心摘要要解决什么问题：现有音频编辑模型依赖于模板化指令（如“添加鸟鸣”），需要用户指定具体操作，无法理解用户高级的、声明式的意图（如“让这个声音听起来像在阳光明媚的森林里”）。同时，现有系统普遍局限于单声道音频，无法编辑空间信息。方法核心是什么：提出SmartDJ框架。它包含两个核心组件：(1) 音频语言模型（ALM）作为规划器，接收原始音频和用户的高级声明式指令，输出一个原子编辑步骤序列（如“移除雨声”、“在左边添加鸟鸣”）；(2) 潜在扩散模型（LDM）作为编辑器，按照ALM规划的步骤顺序，逐步执行编辑操作，最终生成目标立体声音频。与已有方法相比新在哪里：首次实现了“声明式”音频编辑范式，将用户意图理解与音频信号操作分离。首次将音频语言模型的推理能力系统性地引入音频编辑流程。首次构建了支持立体声、包含声明式指令-原子操作-音频轨迹的配对数据集生成管道。首次系统评估了编辑操作对空间音频特性的影响。主要实验结果如何：在声明式编辑任务和多种单步原子操作上，SmartDJ在各项客观指标（FD, FAD, LSD等）和主观用户偏好率上均显著优于端到端训练的Audit模型以及多种零样本基线（SDEdit, ZETA等）。例如，在声明式编辑任务中，SmartDJ的FAD得分为1.52，远优于最佳基线Audit的5.67；用户研究显示，在音频质量和与指令的对齐度上，SmartDJ的胜率在80%-95.5%之间（详见表1）。框架方法训练速度 FD↓ FAD↓ KL↓ LSD↓ CLAP↑ 无ALM Audit 是 2.07s 28.56 10.00 3.07 1.93 0.11 有ALM SDEdit 否 301s (74.6s) 19.66 3.71 3.25 2.22 0.17 Audit 是 11.6s (2.07s) 21.50 5.67 2.80 1.49 0.18 SmartDJ (ours) 是 13.1s (2.40s) 10.60 1.52 2.84 1.40 0.21 实际意义是什么：该工作为下一代智能、直观的音频编辑工具铺平了道路，有望革新VR/AR、游戏、影视制作等领域的音频后处理工作流，提升创作效率和沉浸感。主要局限性是什么：整个框架的训练和评估完全依赖于合成数据集，其在真实、复杂、非结构化声场中的性能未被验证。ALM生成步骤的推理时间（约4.8秒）和多步编辑的累积时间（13.1秒）相比端到端方法仍有优化空间。框架对新增编辑操作类型的扩展需要重新训练。 🏗️ 模型架构 SmartDJ的框架由两个独立训练的核心模块组成：音频语言模型（ALM）规划器和潜在扩散模型（LDM）编辑器。其整体数据流与交互如图1和图2所示。 ...

SongEcho: Towards Cover Song Generation via Instance-Adaptive Element-wise Linear Modulation

📄 SongEcho: Towards Cover Song Generation via Instance-Adaptive Element-wise Linear Modulation #音乐生成 #扩散模型 #数据集 #歌唱语音合成 #可控生成 🔥 8.5/10 | 前25% | #音乐生成 | #扩散模型 | #数据集 #歌唱语音合成学术质量 6.2/7 | 选题价值 1.5/2 | 复现加成 0.8 | 置信度高 👥 作者与机构第一作者：Sifei Li（中国科学院自动化研究所MAIS、中国科学院大学人工智能学院）通讯作者：Weiming Dong（中国科学院自动化研究所MAIS、中国科学院大学人工智能学院）作者列表： Sifei Li（中国科学院自动化研究所MAIS、中国科学院大学人工智能学院） Yang Li（中国科学院自动化研究所MAIS、中国科学院大学人工智能学院） Zizhou Wang（中国科学院自动化研究所） Yuxin Zhang（中国科学院自动化研究所MAIS、中国科学院大学人工智能学院） Fuzhang Wu（中国科学院软件研究所ISRC） Oliver Deussen（康斯坦茨大学） Tong-Yee Lee（成功大学） Weiming Dong（中国科学院自动化研究所MAIS、中国科学院大学人工智能学院） 💡 毒舌点评这篇论文精准地瞄准了“旋律保持”这一翻唱核心需求，并通过改进条件注入机制（IA-EiLM）和构建高质量数据集（Suno70k）给出了一个参数高效、效果显著的解决方案，理论与实验结合得相当扎实。不过，模型依然受限于底层基础模型（ACE-Step）对音色等细粒度控制的不足，且所用的AI生成数据集Suno70k在风格多样性、情感表达深度上可能与真实人类创作的音乐存在“域差距”，这或许会影响模型泛化到更复杂、更具表现力的真实翻唱场景。 🔗 开源详情代码：提供代码仓库链接：https://github.com/lsfhuihuiff/SongEcho_ICLR2026。 ��型权重：论文中提到“Code, dataset, and demos are available at…”，但未明确说明是否开源经过训练的完整SongEcho模型权重。基于常见实践，可能开源了新增的IA-EiLM模块和旋律编码器权重。数据集：Suno70k 数据集已公开，链接为 https://huggingface.co/datasets/nyuuzyou/suno。 Demo：提供在线演示页面：https://vvanonymousvv.github.io/SongEcho_updated/。复现材料：提供了详细的训练细节（第5.1节）、评估协议（第5.2节）、基线复现细节（附录C.1）和超参数设置，复现指导充分。论文中引用的开源项目：骨干模型：ACE-Step (Gong et al., 2025) 评估工具：mir_eval (Raffel et al., 2014), stable-audio-metrics, SongEval (Yao et al., 2025) 特征提取工具：RVMPE (Wei et al., 2023) 用于音高提取, Qwen2-audio (Chu et al., 2024) 用于标签生成, Whisper (Radford et al., 2023) + All-in-One (Kim & Nam, 2023) 用于歌词转录基线方法：ControlNet (Zhang et al., 2023a), LoRA (Hu et al., 2022), MuseControlLite (Tsai et al., 2025) 论文中未提及开源计划：未明确提及开源训练好的完整模型权重和大规模的预训练骨干（ACE-Step）权重（ACE-Step本身可能是开源的）。 📌 核心摘要要解决什么问题：在给定一段人声旋律和文本提示的条件下，生成同时包含新的人声演唱和和谐伴奏的完整歌曲（即翻唱歌曲），这要求模型在保持原旋律轮廓的同时进行风格重新诠释。方法核心是什么：提出SongEcho框架，核心是实例自适应元素级线性调制。它扩展了FiLM为元素级线性调制，以实现对隐藏状态在时序上的精确对齐调制；同时引入实例自适应条件精炼模块，使旋律条件能根据生成模型当前的隐藏状态进行动态调整，而非静态注入。与已有方法相比新在哪里：相比于使用交叉注意力（如MuseControlLite）或元素级相加（如ControlNet）的方法，EiLM提供了更灵活、时序对齐更直接的调制能力。IACR解决了传统条件编码与生成模型内部状态不兼容的问题，使条件融合更和谐。此外，论文开源了一个高质量的、带有丰富标注的AI歌曲数据集Suno70k。主要实验结果如何：在Suno70k测试集上，SongEcho的RPA（0.708）、RCA（0.734）和CLAP（0.324）等指标均显著优于基线方法，FD（42.06）和KL（0.112）等音质指标也远优于其他方法，且可训练参数量（49.1M）仅为ACE-Step+ControlNet（1.6B）的3.07%。主观听测（MOS）在旋律保真度、文本一致性、音频质量和整体偏好上均获最高分。实际意义是什么：推动了可控、高质量歌曲生成技术的发展，为音乐创作提供了新的AI辅助工具。所构建的开源数据集有助于解决歌曲AI研究中的数据稀缺和版权问题。主要局限性是什么：（1）音色控制能力有限，仅支持基于性别调整，无法进行更细粒度的音色模仿或合成。（2）生成的翻唱是全局风格迁移，未模拟人类音乐家在翻唱时可能进行的局部创造性改编（如颤音、滑音、音符时值变化）。（3）训练依赖于AI生成的音乐数据集，可能存在与真实人类音乐在情感、表达力上的差异。 🏗️ 模型架构 SongEcho整体架构基于一个预训练的文本到歌曲模型（ACE-Step），它是一个线性扩散Transformer（DiT）。核心是在每个Transformer块中插入一个IA-EiLM模块，该模块位于自注意力层之后、前馈网络层之前，用于注入旋律控制信号。 ...

SpeechOp: Inference-Time Task Composition for Generative Speech Processing

📄 SpeechOp: Inference-Time Task Composition for Generative Speech Processing #语音增强 #语音分离 #扩散模型 #多任务学习 #零样本 ✅ 7.5/10 | 前25% | #语音增强 | #扩散模型 | #语音分离 #多任务学习学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.3 | 置信度高 👥 作者与机构第一作者：Justin Lovelace（Cornell University）通讯作者：未明确说明（论文作者来自Cornell University和Adobe Research，从贡献描述看，Adobe Research团队的Rithesh Kumar, Jiaqi Su, Ke Chen, Zeyu Jin可能承担更多指导角色，但论文未明确标注通讯作者）作者列表： Justin Lovelace（Cornell University） Rithesh Kumar（Adobe Research） Jiaqi Su（Adobe Research） Ke Chen（Adobe Research） Kilian Q Weinberger（Cornell University） Zeyu Jin（Adobe Research） 💡 毒舌点评本文巧妙地将“资源过剩”的TTS模型改造为“资源匮乏”S2S任务的处理器，其提出的TC-CFG推理组合策略从原理上解释了如何优雅地融合不同生成任务的信号，避免了简单的分数平均带来的先验冲突。然而，论文的核心扩散架构（DiT+VAE）和多任务训练范式本身并无颠覆性创新，其真正亮点在于系统整合与工程设计，且在代码和模型开源方面显得较为吝啬，限制了社区的快速跟进与验证。 ...

Stable Video Infinity: Infinite-Length Video Generation with Error Recycling

📄 Stable Video Infinity: Infinite-Length Video Generation with Error Recycling #视频生成 #扩散模型 #流匹配 #多模态模型 ✅ 7.0/10 | 前25% | #视频生成 | #扩散模型 | #流匹配 #多模态模型学术质量 5.5/7 | 选题价值 1.0/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Wuyang Li (VITA@EPFL) 通讯作者：未说明 (论文末尾致谢部分提及Alexandre Alahi教授，但未明确标注为通讯作者) 作者列表：Wuyang Li (VITA@EPFL), Wentao Pan (VITA@EPFL), Po-Chien Luan (VITA@EPFL), Yang Gao (VITA@EPFL), Alexandre Alahi (VITA@EPFL) 💡 毒舌点评论文最大的亮点在于提出了“错误回收”这一新颖且直觉上合理的范式来解决长视频生成中的误差累积问题，通过让模型“吃自己生成的错误”来提升鲁棒性，理论分析深刻且实验效果显著。短板在于其核心理论框架（尤其是错误注入与计算的数学部分）稍显复杂，部分实现细节（如错误银行的动态更新）的工程可行性分析略显不足，且在超长视频（15分钟）展示中，角色身份一致性等更高级挑战的解决方案尚处萌芽阶段。 🔗 开源详情代码：论文提及将开源完整代码库，项目主页为 https://stable-video-infinity.github.io/homepage/，但具体代码仓库链接未在文中提供。模型权重：论文承诺将提供模型，但具体发布平台（如Hugging Face）和权重链接未提及。数据集：论文承诺将公开所有基准数据集。 Demo：提供了项目主页，但未明确说明是否提供在线交互式Demo。复现材料：论文提供了详细的超参数表（表12）、数据集描述和部分实现细节（如基于Wan 2.1，使用LoRA），为复现提供了重要信息。引用的开源项目：明确基于 Wan 2.1 视频生成模型；音频说话任务参考了 Hallo 3；舞蹈任务参考了 UniAnimate-DiT；自动提示流生成使用了 Qwen2.5 大语言模型。论文中未提及开源计划的具体时间表或权重文件的最终发布地址。 📌 核心摘要这篇论文旨在解决长视频生成中的关键瓶颈——误差累积（drifting）问题。现有方法多通过调整噪声调度器或引入参考帧来缓解而非根除误差，导致生成的视频长度有限且场景单一。为此，论文提出了Stable Video Infinity (SVI)，其核心是“错误回收微调”方法：在训练时，人为地将模型（DiT）历史生成中可能出现的误差注入到干净的输入数据中，模拟推理时的误差累积场景；模型随后学习从这些“被污染”的输入中恢复出正确的预测结果，相当于学会了自我纠错。与已有方法相比，SVI的根本创新在于它弥合了训练时假设输入无误差与推理时条件中包含误差之间的“假设鸿沟”，使模型能够主动修正错误而非被动缓解。实验在一致性、创意和条件生成三个基准上进行，结果显示SVI在视频质量、一致性和动态程度等核心指标上均显著超越Wan 2.1、StreamingT2V、FramePack等最新方法（例如，在超长一致性生成中，SVI-Shot的Subject Consistency达到97.89%，比最强基线FramePack高出约11%）。该工作的实际意义在于首次将视频生成从“秒级”推进到“无限长度”，并支持文本流、音频、骨架等多条件控制。主要局限性包括：训练数据规模较小（仅数千条视频），可能导致风格泛化不足；当前版本为并行生成，暂不支持实时流式输出；以及超长片段中的身份一致性等高级语义控制仍有提升空间。 ...

Syncphony: Synchronized Audio-to-Video Generation with Diffusion Transformers

📄 Syncphony: Synchronized Audio-to-Video Generation with Diffusion Transformers #音视频 #扩散模型 #流匹配 #跨模态 #生成模型 🔥 8.0/10 | 前25% | #音视频 | #扩散模型 | #流匹配 #跨模态学术质量 5.8/7 | 选题价值 1.8/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Jibin Song (延世大学人工智能系， CineLingo) 通讯作者：Jibin Song (邮箱：sjbpsh1@yonsei.ac.kr， jibinsong@cinelingo-labs.com) 作者列表：Jibin Song (延世大学， CineLingo)、Mingi Kwon (延世大学， CineLingo)、Jaeseok Jeong (延世大学， CineLingo)、Youngjung Uh (延世大学， CineLingo) 💡 毒舌点评亮点：本文没有空谈同步的重要性，而是针对“MSE损失对动态区域监督不足”和“条件引导策略”这两个关键痛点，分别提出了动作感知损失（Loss层面）和音频同步引导（推理层面）的成套解决方案，并辅以新的评估指标CycleSync，形成了一个完整、闭环的技术方案，实验也证明了有效性。短板：新提出的CycleSync指标本质上是“视频->音频->对比”的循环测试，其准确性严重依赖于所使用的预训练V2A模型的保真度和泛化能力，这给评估引入了一个不透明的、外部的“黑箱”偏差，使得绝对分数的解读需要更加谨慎。 🔗 开源详情代码：论文明确承诺将发布代码，但文中未提供具体的GitHub或其他代码仓库链接。模型权重：论文明确承诺将发布训练好的模型，但未提供具体链接。数据集：使用的是公开数据集AVSync15和TheGreatestHits，论文中未提及是否发布新的数据集。 Demo：论文未提及提供在线演示。复现材料：提供了详细的实现细节，包括模型架构选择、损失函数公式、训练硬件、训练步数、关键超参数（如λ, w, δ, 批大小虽未明确但其他信息详尽），以及用户研究设置。这些信息充足，具备较高的可复现性。论文中引用的开源项目：视频生成骨干：Pyramid Flow (Jin et al., 2024a) 音频编码器：DenseAV (Hamilton et al., 2024) 文本编码器：CLIP (Radford et al., 2021) V2A模型（用于CycleSync评估）：V-AURA (Viertola et al., 2025) 其他对比基线：TempoTokens (Yariv et al., 2023), AVSyncD (Zhang et al., 2024) 📌 核心摘要本文致力于解决音频到视频（A2V）生成中，现有模型难以实现音频与视频运动之间精细时间同步的问题。论文提出了Syncphony，一个基于预训练扩散Transformer（DiT）骨干的生成框架。其方法核心是在DiT架构的后期层中引入音频交叉注意力，并通过两个关键技术提升同步性能：1) 动作感知损失，在训练时对高运动区域施加更大的损失权重，引导模型更关注与音频事件因果相关的运动；2) 音频同步引导，在推理时通过一个禁用了音频层的“异步模型”来引导完整模型，放大音频信号对运动的影响而不损害视觉质量。与已有的间接映射（如调制注意力权重、投影到文本空间）或从零构建时序层的方法不同，本文直接、精细地注入音频特征，并利用强大的预训练视频骨干保证生成质量。为评估同步性，论文还提出了新指标CycleSync，通过视频重建音频来间接衡量生成视频是否保留了原始音频的时序结构。在AVSync15和TheGreatestHits数据集上的实验表明，Syncphony在同步准确性（CycleSync得分更高）和视觉质量（FVD/FID更低）上均优于现有方法。该工作的实际意义在于为高质量、高同步性的视频生成提供了有效方案，但其局限性包括：动作感知损失的权重基于真值运动幅度，未显式区分音频相关与无关运动；CycleSync指标的可靠性受底层V2A模型影响；生成的视频分辨率（380×640）和时长（5秒）仍有提升空间。 ...

SyncTrack: Rhythmic Stability and Synchronization in Multi-Track Music Generation

📄 SyncTrack: Rhythmic Stability and Synchronization in Multi-Track Music Generation #音乐生成 #扩散模型 #模型评估 #多轨音频 ✅ 7.5/10 | 前25% | #音乐生成 | #扩散模型 | #模型评估 #多轨音频学术质量 6.5/7 | 选题价值 1.0/2 | 复现加成 0.0 | 置信度高 👥 作者与机构第一作者：Hongrui Wang（香港科技大学数学系，标注为等贡献）通讯作者：Yang Wang（香港大学）；Fan Zhang（香港科技大学，标注为等贡献）；Can Yang（香港科技大学数学系及神经系统疾病国家重点实验室）作者列表： Hongrui Wang（香港科技大学数学系） Fan Zhang（香港科技大学数学系） Zhiyuan Yu（浙江大学CAD&CG国家重点实验室） Ziya Zhou（香港科技大学交叉学科学院） Xi Chen（香港科技大学交叉学科学院） Can Yang（香港科技大学数学系；香港科技大学神经系统疾病国家重点实验室） Yang Wang（香港大学） 💡 毒舌点评亮点：架构设计直击痛点，用Track-shared和Track-specific模块清晰解耦了多轨音乐中的“共性节奏”与“个性音色”，逻辑自洽且实验验证有效。短板：所提出的节奏评估指标（IRS， CBS， CBD）高度依赖于外部的预训练节拍检测器（madmom），其性能天花板受限于该工具，且指标定义相对简单，可能无法完全捕捉人类对“好律动”的复杂感知。 🔗 开源详情代码：论文提供了项目主页链接（https://synctrack-v1.github.io），推测包含代码。论文中明确写道“Audio samples, alongside with the source code for both the model and evaluation metrics, are available on our demo page.” 模型权重：论文中未明确提及是否公开预训练模型权重。数据集：使用公开的Slakh2100数据集。论文中未提及是否提供处理后的数据。 Demo：提供了项目主页作为demo展示。复现材料：提供了极其详细的训练配置（数据集划分、优化器、学习率、硬件、训练时间等）、模型架构细节（表A3）、评估指标的具体实现（附录A.1），以及超参数敏感性分析。复现信息非常充分。依赖的开源项目：论文中提及并依赖了以下开源工具/模型： madmom：用于节拍检测，以计算节奏相关指标。 MusicLDM：模型初始化权重来源。 HiFi-GAN：作为声码器，将潜在表示解码为波形。 RNNDownBeatProcessor & DBNDownBeatTrackingProcessor：来自madmom库，用于节拍提取。 📌 核心摘要问题：现有的多轨音乐生成模型（如MSDM， MSG-LD）通常将各轨视为独立变量进行联合建模，忽视了音乐中至关重要的节奏稳定性（单轨内拍子稳定）和同步性（多轨间拍子对齐），导致生成音乐听起来杂乱、不协调。方法：提出SyncTrack模型，其核心是采用统一的架构包含Track-shared模块（共享）和Track-specific模块（特定）。共享模块内设计了两种跨轨注意力：全局跨轨注意力用于建立全局一致的节奏框架，时间特定跨轨注意力用于对齐同一时刻的音乐事件。特定模块则通过可学习的乐器先验来建模各轨独特的音色等特征。创新：1) 架构上明确分离处理音乐的共性与个性信息；2) 设计了两种针对性的跨轨注意力机制；3) 创新性地提出了三个用于量化评估多轨音乐节奏一致性（稳定性和同步性）的新指标：IRS（轨内节奏稳定性）、CBS（跨轨拍子同步率）、CBD（跨轨拍子离散度）。实验结果：在Slakh2100数据集上，SyncTrack在整体FAD指标上显著优于基线（从MSDM的6.55降至1.26）。在节奏一致性指标上，SyncTrack也全面优于基线：例如，CBS从MSG-LD的0.3861提升至0.5206，CBD(mean)从0.3714降低至0.2681。消融研究证明了各模块的有效性。主观评估也显示SyncTrack生成的音乐更受青睐。指标 Ground Truth SyncTrack MSG-LD MSDM FAD↓（混合） - 1.26 1.31 6.55 CBS↑ 0.5740 0.5206 0.3861 0.4694 CBD(mean)↓ 0.2412 0.2681 0.3714 0.3127 实际意义：为多轨音乐生成领域提供了更合理的建模思路和更专业的评估工具，推动了该领域向更符合音乐本质特性的方向发展，对未来音乐制作辅助工具有积极影响。局限性：模型生成时长目前限于约10秒，论文也提到未来计划扩展至更长片段。新提出的评估指标依赖于第三方节拍检测工具，其准确性和普适性需要进一步验证。 🏗️ 模型架构 SyncTrack是一个基于潜在扩散模型（LDM）的多轨音乐生成系统。其整体流程如下图所示：音频数据首先通过STFT和Mel滤波器组转换为梅尔谱，然后由一个预训练的变分自编码器（VAE）编码为潜在表示。扩散过程在该潜在空间中进行，模型训练以预测添加的噪声。生成时，从噪声开始迭代去噪，得到多轨潜在表示，最后经由VAE解码器和HiFi-GAN声码器重建为音频波形。 ...

TangoFlux: Super Fast and Faithful Text to Audio Generation with Flow Matching and Clap-Ranked Preference Optimization

📄 TangoFlux: Super Fast and Faithful Text to Audio Generation with Flow Matching and Clap-Ranked Preference Optimization #音频生成 #流匹配 #偏好优化 #扩散模型 #开源模型 🔥 8.0/10 | 前25% | #音频生成 | #流匹配 | #偏好优化 #扩散模型学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Chia-Yu Hung (Nanyang Technological University, NTU) 通讯作者：Navonil Majumder (NTU)， Soujanya Poria (NTU) 作者列表：Chia-Yu Hung (NTU), Navonil Majumder (NTU), Zhifeng Kong (NVIDIA), Ambuj Mehrish (Ca’ Foscari University of Venice), Amir Ali Bagherzadeh (Lambda Labs), Chuan Li (Lambda Labs), Rafael Valle (NVIDIA), Bryan Catanzaro (NVIDIA), Soujanya Poria (NTU) 💡 毒舌点评这篇论文巧妙地将CLAP作为“裁判”来解决音频生成对齐中缺乏自动评价标准的痛点，提出的CRPO“自弈”优化思路确实让模型性能在迭代中不断提升，效果立竿见影。但依赖CLAP这个“裁判”本身的偏好（可能偏向特定音频风格或描述理解能力）进行优化，是否会让模型学会“讨好裁判”而非真正理解复杂、抽象的文本描述？这是CRPO框架需要面对的更深层问题。 ...

Token-Based Audio Inpainting via Discrete Diffusion

📄 Token-Based Audio Inpainting via Discrete Diffusion #音乐生成 #扩散模型 #预训练 #离散模型 ✅ 7.5/10 | 前25% | #音乐生成 | #扩散模型 | #预训练 #离散模型学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Tali Dror， Iftach Shoham（*为共同第一作者）（Ben-Gurion University of the Negev）通讯作者：未明确标注（从作者列表及邮箱推测，Eliya Nachmani可能是负责人）作者列表： Tali Dror (Ben-Gurion University of the Negev, School of Electrical and Computer Engineering) Iftach Shoham (Ben-Gurion University of the Negev, Faculty of Computer and Information Science, Data Science Research Center) Moshe Buchris (Ben-Gurion University of the Negev, School of Electrical and Computer Engineering) Oren Gal (University of Haifa) Haim Permuter (Ben-Gurion University of the Negev, School of Electrical and Computer Engineering) Gilad Katz (Ben-Gurion University of the Negev, Faculty of Computer and Information Science, Data Science Research Center) Eliya Nachmani (Ben-Gurion University of the Negev, School of Electrical and Computer Engineering) 💡 毒舌点评这篇论文的亮点在于它为音频修复这个“老”问题提供了一个“新”且优雅的技术范式——直接在离散token空间用扩散模型“填空”，避开了连续波形或频谱建模的诸多麻烦，并在长间隙修复上证明了其有效性。然而，其理论深度和创新野心略显不足，本质上是现有组件（WavTokenizer, DiT, DWDSE）的巧妙集成与适配，且实验规模（如数据集量级、模型参数）与当前大模型时代的主流工作相比显得较为“迷你”，限制了其更广泛的影响力。 ...

Unified Multi-Modal Interactive and Reactive 3D Motion Generation via Rectified Flow

📄 Unified Multi-Modal Interactive and Reactive 3D Motion Generation via Rectified Flow #动作生成 #流匹配 #检索增强 #多模态 #扩散模型 ✅ 7.5/10 | 前25% | #动作生成 | #流匹配 | #检索增强 #多模态学术质量 5.5/7 | 选题价值 1.0/2 | 复现加成 1.0 | 置信度高 👥 作者与机构第一作者：Prerit Gupta (Purdue University, Department of Computer Science) 通讯作者：未说明（但Aniket Bera为最后作者，通常为通讯作者）作者列表：Prerit Gupta (Purdue University), Shourya Verma (Purdue University), Ananth Grama (Purdue University), Aniket Bera (Purdue University) 💡 毒舌点评亮点在于将交互和反应式双人动作生成统一到一个框架中，并创新性地为动作生成引入了基于LLM分解的检索增强生成，有效提升了语义对齐。短板在于该领域相对小众，实际应用场景（如VR/AR游戏）的验证可能有限，且模型参数量（456M）相比基线（224M）显著增大，提升了部署门槛。 🔗 开源详情代码：论文明确承诺将开源代码（“Full code for this project… will be made open source… upon paper acceptance”），但未提供具体链接。模型权重：承诺将提供训练好的检查点。数据集：使用了InterHuman-AS、DD100、MDD三个公开数据集，论文中给出了获取参考。 Demo：未提及在线演示。复现材料：附录提供了详尽的LLM提示词设计、架构细节（公式）、损失权重配置、超参数选择等，复现信息充分。引用的开源项目：SMPL模型（动作表示），CLIP（文本编码），Jukebox（音乐编码），GPT-4o（文本分解），FlashAttention（加速）。 📌 核心摘要问题：生成真实、与上下文相关的双人3D动作，需同时支持交互式（双向协调）和反应式（单向响应）两种模式，且能融合文本、音乐等多种模态条件输入，是当前计算机图形学和具身AI的挑战。方法：提出DualFlow，首个基于矫正流匹配（Rectified Flow）的统一框架。通过可切换的“双流块”架构，同一模型可处理交互与反应任务；引入专为双人动作设计的检索增强生成模块，利用GPT-4o分解文本为空间关系、身体动作和节奏三类描述，并结合音乐特征检索动作范例，以增强生成动作的语义准确性；采用对比矫正流匹配目标，提升运动嵌入与条件信号的对齐度。创新：(1) 统一架构实现交互与反应任务的无缝切换；(2) 首个用于双人动作的RAG框架；(3) 结合同步损失的对比矫正流匹配，提升生成质量与采样效率。实验结果：在MDD、InterHuman-AS、DD100三个数据集上进行广泛评估。在MDD的交互任务上，DualFlow(Both)的R-Precision@3达0.513，MMDist为0.513；在反应任务上，FID为0.686，R-Precision@3为0.471，均优于基线。相比InterGen，DualFlow仅需20步（2.5倍加速）即可达到更优的FID。意义：为VR/AR、游戏、社交机器人等需要协调人际行为的领域提供了高效且高质量的多模态动作生成方案。局限：在长序列生成时可能存在节奏偏移；反应模式下可能出现轻微的肢体穿插；RAG检索质量依赖于库的覆盖度与查询的清晰度。 🏗️ 模型架构 DualFlow是一个基于Transformer和矫正流匹配的统一生成框架，其核心是多模态条件注入与“双流块”架构设计。 ...

VibeVoice: Expressive Podcast Generation with Next-Token Diffusion

📄 VibeVoice: Expressive Podcast Generation with Next-Token Diffusion #语音合成 #扩散模型 #零样本 #多说话人 #播客生成 🔥 8.5/10 | 前10% | #语音合成 | #扩散模型 | #零样本 #多说话人学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Zhiliang Peng (Microsoft Research) 通讯作者：Furu Wei (Microsoft Research) 作者列表：Zhiliang Peng (Microsoft Research), Jianwei Yu (Microsoft Research), Wenhui Wang (Microsoft Research), Yaoyao Chang (Microsoft Research), Yutao Sun (Microsoft Research), Li Dong (Microsoft Research), Yi Zhu (Microsoft Research), Weijiang Xu (Microsoft Research), Hangbo Bao (Microsoft Research), Zehua Wang (Microsoft Research), Shaohan Huang (Microsoft Research), Yan Xia (Microsoft Research), Furu Wei (Microsoft Research) 💡 毒舌点评这篇论文成功地将播客生成从“能用”推向了“好用”的阶段，特别是其超低帧率（7.5Hz）的连续声学分词器在保持高保真度（UTMOS 4.18）的同时极大压缩了序列长度，是处理长序列的关键创新，解决了90分钟超长对话生成的核心瓶颈。然而，该方法对数据质量（需自建复杂标注管道）和训练复杂性（课程学习、大规模计算）的依赖，使其复现门槛较高，且论文并未公开其内部播客数据集。 ...