扩散模型 | 语音/音频论文速递

Syncphony: Synchronized Audio-to-Video Generation with Diffusion Transformers

📄 Syncphony: Synchronized Audio-to-Video Generation with Diffusion Transformers #音视频 #扩散模型 #流匹配 #跨模态 #生成模型 🔥 8.0/10 | 前25% | #音视频 | #扩散模型 | #流匹配 #跨模态学术质量 5.8/7 | 选题价值 1.8/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Jibin Song (延世大学人工智能系， CineLingo) 通讯作者：Jibin Song (邮箱：sjbpsh1@yonsei.ac.kr， jibinsong@cinelingo-labs.com) 作者列表：Jibin Song (延世大学， CineLingo)、Mingi Kwon (延世大学， CineLingo)、Jaeseok Jeong (延世大学， CineLingo)、Youngjung Uh (延世大学， CineLingo) 💡 毒舌点评亮点：本文没有空谈同步的重要性，而是针对“MSE损失对动态区域监督不足”和“条件引导策略”这两个关键痛点，分别提出了动作感知损失（Loss层面）和音频同步引导（推理层面）的成套解决方案，并辅以新的评估指标CycleSync，形成了一个完整、闭环的技术方案，实验也证明了有效性。短板：新提出的CycleSync指标本质上是“视频->音频->对比”的循环测试，其准确性严重依赖于所使用的预训练V2A模型的保真度和泛化能力，这给评估引入了一个不透明的、外部的“黑箱”偏差，使得绝对分数的解读需要更加谨慎。 🔗 开源详情代码：论文明确承诺将发布代码，但文中未提供具体的GitHub或其他代码仓库链接。模型权重：论文明确承诺将发布训练好的模型，但未提供具体链接。数据集：使用的是公开数据集AVSync15和TheGreatestHits，论文中未提及是否发布新的数据集。 Demo：论文未提及提供在线演示。复现材料：提供了详细的实现细节，包括模型架构选择、损失函数公式、训练硬件、训练步数、关键超参数（如λ, w, δ, 批大小虽未明确但其他信息详尽），以及用户研究设置。这些信息充足，具备较高的可复现性。论文中引用的开源项目：视频生成骨干：Pyramid Flow (Jin et al., 2024a) 音频编码器：DenseAV (Hamilton et al., 2024) 文本编码器：CLIP (Radford et al., 2021) V2A模型（用于CycleSync评估）：V-AURA (Viertola et al., 2025) 其他对比基线：TempoTokens (Yariv et al., 2023), AVSyncD (Zhang et al., 2024) 📌 核心摘要本文致力于解决音频到视频（A2V）生成中，现有模型难以实现音频与视频运动之间精细时间同步的问题。论文提出了Syncphony，一个基于预训练扩散Transformer（DiT）骨干的生成框架。其方法核心是在DiT架构的后期层中引入音频交叉注意力，并通过两个关键技术提升同步性能：1) 动作感知损失，在训练时对高运动区域施加更大的损失权重，引导模型更关注与音频事件因果相关的运动；2) 音频同步引导，在推理时通过一个禁用了音频层的“异步模型”来引导完整模型，放大音频信号对运动的影响而不损害视觉质量。与已有的间接映射（如调制注意力权重、投影到文本空间）或从零构建时序层的方法不同，本文直接、精细地注入音频特征，并利用强大的预训练视频骨干保证生成质量。为评估同步性，论文还提出了新指标CycleSync，通过视频重建音频来间接衡量生成视频是否保留了原始音频的时序结构。在AVSync15和TheGreatestHits数据集上的实验表明，Syncphony在同步准确性（CycleSync得分更高）和视觉质量（FVD/FID更低）上均优于现有方法。该工作的实际意义在于为高质量、高同步性的视频生成提供了有效方案，但其局限性包括：动作感知损失的权重基于真值运动幅度，未显式区分音频相关与无关运动；CycleSync指标的可靠性受底层V2A模型影响；生成的视频分辨率（380×640）和时长（5秒）仍有提升空间。 ...

SyncTrack: Rhythmic Stability and Synchronization in Multi-Track Music Generation

📄 SyncTrack: Rhythmic Stability and Synchronization in Multi-Track Music Generation #音乐生成 #扩散模型 #模型评估 #多轨音频 ✅ 7.5/10 | 前25% | #音乐生成 | #扩散模型 | #模型评估 #多轨音频学术质量 6.5/7 | 选题价值 1.0/2 | 复现加成 0.0 | 置信度高 👥 作者与机构第一作者：Hongrui Wang（香港科技大学数学系，标注为等贡献）通讯作者：Yang Wang（香港大学）；Fan Zhang（香港科技大学，标注为等贡献）；Can Yang（香港科技大学数学系及神经系统疾病国家重点实验室）作者列表： Hongrui Wang（香港科技大学数学系） Fan Zhang（香港科技大学数学系） Zhiyuan Yu（浙江大学CAD&CG国家重点实验室） Ziya Zhou（香港科技大学交叉学科学院） Xi Chen（香港科技大学交叉学科学院） Can Yang（香港科技大学数学系；香港科技大学神经系统疾病国家重点实验室） Yang Wang（香港大学） 💡 毒舌点评亮点：架构设计直击痛点，用Track-shared和Track-specific模块清晰解耦了多轨音乐中的“共性节奏”与“个性音色”，逻辑自洽且实验验证有效。短板：所提出的节奏评估指标（IRS， CBS， CBD）高度依赖于外部的预训练节拍检测器（madmom），其性能天花板受限于该工具，且指标定义相对简单，可能无法完全捕捉人类对“好律动”的复杂感知。 🔗 开源详情代码：论文提供了项目主页链接（https://synctrack-v1.github.io），推测包含代码。论文中明确写道“Audio samples, alongside with the source code for both the model and evaluation metrics, are available on our demo page.” 模型权重：论文中未明确提及是否公开预训练模型权重。数据集：使用公开的Slakh2100数据集。论文中未提及是否提供处理后的数据。 Demo：提供了项目主页作为demo展示。复现材料：提供了极其详细的训练配置（数据集划分、优化器、学习率、硬件、训练时间等）、模型架构细节（表A3）、评估指标的具体实现（附录A.1），以及超参数敏感性分析。复现信息非常充分。依赖的开源项目：论文中提及并依赖了以下开源工具/模型： madmom：用于节拍检测，以计算节奏相关指标。 MusicLDM：模型初始化权重来源。 HiFi-GAN：作为声码器，将潜在表示解码为波形。 RNNDownBeatProcessor & DBNDownBeatTrackingProcessor：来自madmom库，用于节拍提取。 📌 核心摘要问题：现有的多轨音乐生成模型（如MSDM， MSG-LD）通常将各轨视为独立变量进行联合建模，忽视了音乐中至关重要的节奏稳定性（单轨内拍子稳定）和同步性（多轨间拍子对齐），导致生成音乐听起来杂乱、不协调。方法：提出SyncTrack模型，其核心是采用统一的架构包含Track-shared模块（共享）和Track-specific模块（特定）。共享模块内设计了两种跨轨注意力：全局跨轨注意力用于建立全局一致的节奏框架，时间特定跨轨注意力用于对齐同一时刻的音乐事件。特定模块则通过可学习的乐器先验来建模各轨独特的音色等特征。创新：1) 架构上明确分离处理音乐的共性与个性信息；2) 设计了两种针对性的跨轨注意力机制；3) 创新性地提出了三个用于量化评估多轨音乐节奏一致性（稳定性和同步性）的新指标：IRS（轨内节奏稳定性）、CBS（跨轨拍子同步率）、CBD（跨轨拍子离散度）。实验结果：在Slakh2100数据集上，SyncTrack在整体FAD指标上显著优于基线（从MSDM的6.55降至1.26）。在节奏一致性指标上，SyncTrack也全面优于基线：例如，CBS从MSG-LD的0.3861提升至0.5206，CBD(mean)从0.3714降低至0.2681。消融研究证明了各模块的有效性。主观评估也显示SyncTrack生成的音乐更受青睐。指标 Ground Truth SyncTrack MSG-LD MSDM FAD↓（混合） - 1.26 1.31 6.55 CBS↑ 0.5740 0.5206 0.3861 0.4694 CBD(mean)↓ 0.2412 0.2681 0.3714 0.3127 实际意义：为多轨音乐生成领域提供了更合理的建模思路和更专业的评估工具，推动了该领域向更符合音乐本质特性的方向发展，对未来音乐制作辅助工具有积极影响。局限性：模型生成时长目前限于约10秒，论文也提到未来计划扩展至更长片段。新提出的评估指标依赖于第三方节拍检测工具，其准确性和普适性需要进一步验证。 🏗️ 模型架构 SyncTrack是一个基于潜在扩散模型（LDM）的多轨音乐生成系统。其整体流程如下图所示：音频数据首先通过STFT和Mel滤波器组转换为梅尔谱，然后由一个预训练的变分自编码器（VAE）编码为潜在表示。扩散过程在该潜在空间中进行，模型训练以预测添加的噪声。生成时，从噪声开始迭代去噪，得到多轨潜在表示，最后经由VAE解码器和HiFi-GAN声码器重建为音频波形。 ...

TangoFlux: Super Fast and Faithful Text to Audio Generation with Flow Matching and Clap-Ranked Preference Optimization

📄 TangoFlux: Super Fast and Faithful Text to Audio Generation with Flow Matching and Clap-Ranked Preference Optimization #音频生成 #流匹配 #偏好优化 #扩散模型 #开源模型 🔥 8.0/10 | 前25% | #音频生成 | #流匹配 | #偏好优化 #扩散模型学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Chia-Yu Hung (Nanyang Technological University, NTU) 通讯作者：Navonil Majumder (NTU)， Soujanya Poria (NTU) 作者列表：Chia-Yu Hung (NTU), Navonil Majumder (NTU), Zhifeng Kong (NVIDIA), Ambuj Mehrish (Ca’ Foscari University of Venice), Amir Ali Bagherzadeh (Lambda Labs), Chuan Li (Lambda Labs), Rafael Valle (NVIDIA), Bryan Catanzaro (NVIDIA), Soujanya Poria (NTU) 💡 毒舌点评这篇论文巧妙地将CLAP作为“裁判”来解决音频生成对齐中缺乏自动评价标准的痛点，提出的CRPO“自弈”优化思路确实让模型性能在迭代中不断提升，效果立竿见影。但依赖CLAP这个“裁判”本身的偏好（可能偏向特定音频风格或描述理解能力）进行优化，是否会让模型学会“讨好裁判”而非真正理解复杂、抽象的文本描述？这是CRPO框架需要面对的更深层问题。 ...

Token-Based Audio Inpainting via Discrete Diffusion

📄 Token-Based Audio Inpainting via Discrete Diffusion #音乐生成 #扩散模型 #预训练 #离散模型 ✅ 7.5/10 | 前25% | #音乐生成 | #扩散模型 | #预训练 #离散模型学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Tali Dror， Iftach Shoham（*为共同第一作者）（Ben-Gurion University of the Negev）通讯作者：未明确标注（从作者列表及邮箱推测，Eliya Nachmani可能是负责人）作者列表： Tali Dror (Ben-Gurion University of the Negev, School of Electrical and Computer Engineering) Iftach Shoham (Ben-Gurion University of the Negev, Faculty of Computer and Information Science, Data Science Research Center) Moshe Buchris (Ben-Gurion University of the Negev, School of Electrical and Computer Engineering) Oren Gal (University of Haifa) Haim Permuter (Ben-Gurion University of the Negev, School of Electrical and Computer Engineering) Gilad Katz (Ben-Gurion University of the Negev, Faculty of Computer and Information Science, Data Science Research Center) Eliya Nachmani (Ben-Gurion University of the Negev, School of Electrical and Computer Engineering) 💡 毒舌点评这篇论文的亮点在于它为音频修复这个“老”问题提供了一个“新”且优雅的技术范式——直接在离散token空间用扩散模型“填空”，避开了连续波形或频谱建模的诸多麻烦，并在长间隙修复上证明了其有效性。然而，其理论深度和创新野心略显不足，本质上是现有组件（WavTokenizer, DiT, DWDSE）的巧妙集成与适配，且实验规模（如数据集量级、模型参数）与当前大模型时代的主流工作相比显得较为“迷你”，限制了其更广泛的影响力。 ...

Unified Multi-Modal Interactive and Reactive 3D Motion Generation via Rectified Flow

📄 Unified Multi-Modal Interactive and Reactive 3D Motion Generation via Rectified Flow #动作生成 #流匹配 #检索增强 #多模态 #扩散模型 ✅ 7.5/10 | 前25% | #动作生成 | #流匹配 | #检索增强 #多模态学术质量 5.5/7 | 选题价值 1.0/2 | 复现加成 1.0 | 置信度高 👥 作者与机构第一作者：Prerit Gupta (Purdue University, Department of Computer Science) 通讯作者：未说明（但Aniket Bera为最后作者，通常为通讯作者）作者列表：Prerit Gupta (Purdue University), Shourya Verma (Purdue University), Ananth Grama (Purdue University), Aniket Bera (Purdue University) 💡 毒舌点评亮点在于将交互和反应式双人动作生成统一到一个框架中，并创新性地为动作生成引入了基于LLM分解的检索增强生成，有效提升了语义对齐。短板在于该领域相对小众，实际应用场景（如VR/AR游戏）的验证可能有限，且模型参数量（456M）相比基线（224M）显著增大，提升了部署门槛。 🔗 开源详情代码：论文明确承诺将开源代码（“Full code for this project… will be made open source… upon paper acceptance”），但未提供具体链接。模型权重：承诺将提供训练好的检查点。数据集：使用了InterHuman-AS、DD100、MDD三个公开数据集，论文中给出了获取参考。 Demo：未提及在线演示。复现材料：附录提供了详尽的LLM提示词设计、架构细节（公式）、损失权重配置、超参数选择等，复现信息充分。引用的开源项目：SMPL模型（动作表示），CLIP（文本编码），Jukebox（音乐编码），GPT-4o（文本分解），FlashAttention（加速）。 📌 核心摘要问题：生成真实、与上下文相关的双人3D动作，需同时支持交互式（双向协调）和反应式（单向响应）两种模式，且能融合文本、音乐等多种模态条件输入，是当前计算机图形学和具身AI的挑战。方法：提出DualFlow，首个基于矫正流匹配（Rectified Flow）的统一框架。通过可切换的“双流块”架构，同一模型可处理交互与反应任务；引入专为双人动作设计的检索增强生成模块，利用GPT-4o分解文本为空间关系、身体动作和节奏三类描述，并结合音乐特征检索动作范例，以增强生成动作的语义准确性；采用对比矫正流匹配目标，提升运动嵌入与条件信号的对齐度。创新：(1) 统一架构实现交互与反应任务的无缝切换；(2) 首个用于双人动作的RAG框架；(3) 结合同步损失的对比矫正流匹配，提升生成质量与采样效率。实验结果：在MDD、InterHuman-AS、DD100三个数据集上进行广泛评估。在MDD的交互任务上，DualFlow(Both)的R-Precision@3达0.513，MMDist为0.513；在反应任务上，FID为0.686，R-Precision@3为0.471，均优于基线。相比InterGen，DualFlow仅需20步（2.5倍加速）即可达到更优的FID。意义：为VR/AR、游戏、社交机器人等需要协调人际行为的领域提供了高效且高质量的多模态动作生成方案。局限：在长序列生成时可能存在节奏偏移；反应模式下可能出现轻微的肢体穿插；RAG检索质量依赖于库的覆盖度与查询的清晰度。 🏗️ 模型架构 DualFlow是一个基于Transformer和矫正流匹配的统一生成框架，其核心是多模态条件注入与“双流块”架构设计。 ...

VibeVoice: Expressive Podcast Generation with Next-Token Diffusion

📄 VibeVoice: Expressive Podcast Generation with Next-Token Diffusion #语音合成 #扩散模型 #零样本 #多说话人 #播客生成 🔥 8.5/10 | 前10% | #语音合成 | #扩散模型 | #零样本 #多说话人学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Zhiliang Peng (Microsoft Research) 通讯作者：Furu Wei (Microsoft Research) 作者列表：Zhiliang Peng (Microsoft Research), Jianwei Yu (Microsoft Research), Wenhui Wang (Microsoft Research), Yaoyao Chang (Microsoft Research), Yutao Sun (Microsoft Research), Li Dong (Microsoft Research), Yi Zhu (Microsoft Research), Weijiang Xu (Microsoft Research), Hangbo Bao (Microsoft Research), Zehua Wang (Microsoft Research), Shaohan Huang (Microsoft Research), Yan Xia (Microsoft Research), Furu Wei (Microsoft Research) 💡 毒舌点评这篇论文成功地将播客生成从“能用”推向了“好用”的阶段，特别是其超低帧率（7.5Hz）的连续声学分词器在保持高保真度（UTMOS 4.18）的同时极大压缩了序列长度，是处理长序列的关键创新，解决了90分钟超长对话生成的核心瓶颈。然而，该方法对数据质量（需自建复杂标注管道）和训练复杂性（课程学习、大规模计算）的依赖，使其复现门槛较高，且论文并未公开其内部播客数据集。 ...

A Hidden Semantic Bottleneck in Conditional Embeddings of Diffusion Transformers

📄 A Hidden Semantic Bottleneck in Conditional Embeddings of Diffusion Transformers #生成模型 #扩散模型 #多模态模型 #模型评估 ✅ 6.5/10 | 前50% | #生成模型 | #扩散模型 | #多模态模型 #模型评估学术质量 5.5/7 | 选题价值 1.0/2 | 复现加成 0.0 | 置信度高 👥 作者与机构第一作者：Trung X. Pham (韩国科学技术院 KAIST) 通讯作者：Chang D. Yoo (韩国科学技术院 KAIST) 作者列表：Trung X. Pham (韩国科学技术院 KAIST)、Kang Zhang (韩国科学技术院 KAIST)、Ji Woo Hong (韩国科学技术院 KAIST)、Chang D. Yoo (韩国科学技术院 KAIST) 💡 毒舌点评这篇论文以系统性的实验揭开了扩散Transformer条件嵌入的“假满汉全席”——看似丰盛的1152维向量里，99%都是“凑数”的摆设，证明了模型在条件表达上存在惊人的冗余。遗憾的是，论文止步于“发现并解释现象”，未能将此洞察转化为一个新的、更高效的条件注入架构，更像是给Transformer扩散模型做了一次精确诊断却没开出新药方。 🔗 开源详情代码：论文中未提及分析代码的开源仓库链接。模型权重：论文分析所用模型权重为公开发布的预训练权重（如DiT， REPA等），论文本身未发布新模型。数据集：使用公开数据集ImageNet-1K， DeepFashion， VGGSound。 Demo：未提供在线演示。复现材料：附录（Appendix）提供了更详细的实验设置、额外可视化（如t-SNE图、更多剪枝结果）和分析，但未提供具体的代码或配置文件。论文中引用的开源项目：引用了多个SOTA模型的官方代码库（DiT， MDT， SiT， LightningDiT， MG， REPA， X-MDPT， MDSGen）。 📌 核心摘要解决的问题：扩散Transformer（如DiT， MDT等）通过自适应层归一化（AdaLN）注入条件向量（如类别、姿态），但这些高维向量内部的结构与信息编码方式尚不明确。方法核心：对多个SOTA扩散Transformer的预训练条件嵌入进行系统性分析，量化其成对余弦相似度、幅度分布和维度贡献度（参与率PR），并通过剪枝实验验证其冗余性。新意：首次系统揭示了扩散Transformer条件嵌入的两个反直觉涌现特性：1) 极端相似性（离散任务>99%，连续任务>99.9%）；2) 极端稀疏性（仅约1-2%的维度携带主要语义信息）。这与对比学习中的特征坍塌不同，且未损害生成质量。主要结果：在ImageNet-1K上，6个SOTA模型的条件向量两两余弦相似度在90%-99.5%之间（如REPA为99.46%）。在DeepFashion（姿态生成）和VGGSound（视频转音频）上，相似度超过99.98%。条件向量的有效维度（参与率PR）极低。例如，REPA模型在1152维中仅有约17.67个有效维度（nPR=1.53%）。关键消融：以REPA为例，剪枝绝对值低于阈值τ=0.02的尾部维度（移除762维，占66.21%），FID仅从7.1694微升至9.2202，而CLIP分数下降有限（29.746->29.221）。在τ=0.01时（移除38.94%），性能基本保持不变。反之，移除少量高幅度“头部”维度（如8维）会严重破坏生成质量（FID>500）。模型/方法数据集指标 (FID↓ / IS↑ / CLIP↑) REPA (基线) ImageNet-1K 7.1694 / 176.02 / 29.746 REPA (剪枝 τ=0.01, t0) ImageNet-1K 7.1690 / 175.97 / 29.807 REPA (剪枝 τ=0.02, ti) ImageNet-1K 9.2202 / 125.15 / 29.221 REPA (剪枝 τ=5.0, ti，移除头部) ImageNet-1K 356.135 / 1.77 / 21.922 图8：不同阈值τ剪枝尾部维度后的生成图像。即使剪枝高达80%以上（τ=0.03），图像质量仍与基线REPA（τ=0）相当。 ...

AudioX: A Unified Framework for Anything-to-Audio Generation

📄 AudioX: A Unified Framework for Anything-to-Audio Generation #音频生成 #音乐生成 #多模态模型 #扩散模型 #数据集 ✅ 7.5/10 | 前25% | #音频生成 | #扩散模型 | #音乐生成 #多模态模型学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Zeyue Tian（香港科技大学）通讯作者：Wei Xue†（香港科技大学），Yike Guo†（香港科技大学）作者列表：Zeyue Tian（香港科技大学），Zhaoyang Liu（香港科技大学），Yizhu Jin（香港科技大学），Ruibin Yuan（香港科技大学），Liumeng Xue（香港科技大学），Xu Tan（独立研究者），Qifeng Chen（香港科技大学），Wei Xue†（香港科技大学），Yike Guo†（香港科技大学） 💡 毒舌点评该工作在“大力出奇迹”的道路上又进了一步：用精心设计的结构化标注管线喂出了七百万条高质量音频-文本对，配合一个设计得当的多模态融合模块，最终在各大榜单上刷出了SOTA，这证明了数据工程与模型工程的双重重要性。然而，论文中将指令跟随能力归因于MAF模块和数据集的论断，部分证据（如T2A-bench的评估）严重依赖外部强大的多模态大模型作为标注器和裁判，这引发了评估闭环是否过于依赖商业API的疑问。 🔗 开源详情代码：论文中提供了代码仓库链接（https://zeyuet.github.io/AudioX/），并承诺将开源。模型权重：论文提及将开源预训练模型检查点。数据集：论文承诺将完整开源IF-caps数据集。 Demo：论文中未提及在线演示链接。复现材料：论文提供了详细的模型架构、训练超参数、数据集统计信息、评估指标定义和基准测试细节（见附录）。附录中进一步详述了数据标注样例和评估流程。引用的开源项目：CLIP (Radford et al., 2021), Synchformer (Iashin et al., 2024), T5 (Raffel et al., 2020), Stable Audio Open (Evans et al., 2024b), Gemini 2.5 Pro (Google), Qwen2-Audio (Chu et al., 2024)。 📌 核心摘要问题：当前音频生成模型大多为单模态输入（如仅文本或仅视频）、单任务输出（如仅音效或仅音乐）的“专家”模型，缺乏一个能灵活组合多种控制信号并生成高质量音频/音乐的统一框架，且高质量的多模态训练数据稀缺。方法核心：提出AudioX统一框架，以扩散Transformer（DiT）为骨干。核心创新是设计了一个轻量级的多模态自适应融合（MAF）模块，用于在条件信号输入DiT前，对来自文本、视频和音频的特征进行门控、交叉注意力聚合和自注意力精炼，以增强跨模态对齐和融合。新意与对比：相较于已有方法，AudioX的新意在于：(1) 架构上，通过MAF模块在统一框架内处理任意模态组合的条件输入；(2) 数据上，设计了结构化标注与增强管线，构建了包含超700万样本的IF-caps大规模细粒度数据集。实验结果：在多个任务（T2A， V2A， T2M， V2M等）和基准上，AudioX达到或超过SOTA水平。关键结果见下表（数据摘自论文Table 1）：任务数据集方法 KL ↓ IS ↑ FAD ↓ T2A VGGSound AudioX 1.74 19.58 1.33 MMAudio 2.17 17.83 2.50 Stable Audio Open 2.36 14.45 2.60 T2M MusicCaps AudioX 0.96 3.55 1.53 TangoMusic 1.13 2.86 1.88 Stable Audio Open 1.51 2.94 3.23 V2M V2M-bench AudioX 0.70 1.37 1.67 VidMuse 0.73 1.32 2.46 在新提出的指令跟随基准T2A-bench上，AudioX大幅领先（如Ord-acc: 23.6 vs 次高19.8）。实际意义：该框架和数据集为需要多模态灵活控制音频生成的应用（如视频后期制作、游戏开发、辅助创作）提供了强大的基础工具，其数据标注方法对构建多模态数据集有借鉴意义。主要局限：论文未明确讨论模型的计算效率与实时性；统一框架的参数量（2.4B）和训练成本（约4k GPU小时）可能限制其在资源受限场景的应用；其“Anything-to-Audio”的泛化能力主要在文本、视频、音频三种模态内验证，对于更异质模态（如传感器数据、图像）的处理能力未探讨。 🏗️ 模型架构图4：AudioX框架。专用编码器处理不同模态，MAF模块将这些信号统一为条件嵌入Hc。DiT骨干网络处理噪声潜在输入zt，通过交叉注意力以Hc为条件，生成高质量音频和音乐。 ...

AUHead: Realistic Emotional Talking Head Generation via Action Units Control

📄 AUHead: Realistic Emotional Talking Head Generation via Action Units Control #面部动画生成 #扩散模型 #音频大模型 #跨模态 #情感理解 🔥 8.0/10 | 前25% | #面部动画生成 | #扩散模型 | #音频大模型 #跨模态学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Jiayi Lyu (中国科学院大学) 通讯作者：Jian Xue (中国科学院大学) 作者列表：Jiayi Lyu (中国科学院大学)， Leigang Qu (新加坡国立大学)， Wenjing Zhang (中国科学院大学)， Hanyu Jiang (中国科学院大学)， Kai Liu (浙江大学)， Zhenglin Zhou (浙江大学)， Xiaobo Xia (新加坡国立大学)， Jian Xue (中国科学院大学)， Tat-Seng Chua (新加坡国立大学) 💡 毒舌点评亮点：论文最大的亮点在于引入了可解释的面部动作单元（AU）作为中间桥梁，将语音情感理解（通过ALM）和精细面部动画生成（通过扩散模型）优雅地解耦，为解决情感说话头生成中的“可控性与质量”困境提供了一个新颖且通用的框架。短板：尽管框架新颖，但作为核心控制信号的AU序列，其预测精度（在MEAD数据集上MAE为0.2085）可能成为整个系统性能的瓶颈；此外，论文中Stage 2的生成模块（Hallo V1， MEMO）并非作者原创，其创新更多体现在控制策略的整合而非生成架构的突破上。 ...

Bridging Piano Transcription and Rendering via Disentangled Score Content and Style

📄 Bridging Piano Transcription and Rendering via Disentangled Score Content and Style #音乐信息检索 #多任务学习 #解耦表示学习 #扩散模型 #钢琴转录 🔥 8.0/10 | 前25% | #音乐信息检索 | #多任务学习 #解耦表示学习 | #多任务学习 #解耦表示学习学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Wei Zeng（新加坡国立大学，综合科学与工程项目，计算学院）通讯作者：Ye Wang（新加坡国立大学，综合科学与工程项目，计算学院）作者列表：Wei Zeng（新加坡国立大学，综合科学与工程项目，计算学院）、Junchuan Zhao（新加坡国立大学，计算学院）、Ye Wang（新加坡国立大学，综合科学与工程项目，计算学院） 💡 毒舌点评亮点在于其统一的框架设计与“内容-风格”解耦的清晰思路，巧妙地利用了EPR和APT的互逆性进行联合训练，并无需繁琐的音符级对齐数据，这在方法论上颇具启发性。短板是，虽然框架通用，但实验主要基于古典钢琴音乐，其对于更丰富多变的流行音乐等风格的泛化能力未被验证；此外，模型参数量（188M）显著高于一些基线，计算成本是一个需要考虑的实际问题。 🔗 开源详情代码：论文明确表示“代码将在论文被接受后发布”，提供了项目主页链接（https://wei-zeng98.github.io/joint-apt-epr/），表明有开源计划。模型权重：未提及是否公开预训练模型权重。数据集：使用了公开的ASAP和ATEPP数据集，以及从MuseScore收集并过滤的公开乐谱数据。论文未提及是否提供已处理的未配对演奏MIDI数据。 Demo：提供了在线演示页面（https://wei-zeng98.github.io/joint-apt-epr/），包含EPR渲染和风格迁移的示例。复现材料：附录B提供了极其详细的模型实现细节（PyTorch Lightning、多任务训练设置、优化器、掩码策略等），是高质量的复现指南。论文中引用的开源项目：提到了MidiTok（用于MIDI分词）、Aria-AMT（用于音频转MIDI）和Partitura（用于音乐处理）。总体开源情况：论文有明确的开源承诺和详尽的复现材料，开源状态积极，但代码和权重尚未发布。 📌 核心摘要这篇论文旨在解决钢琴演奏渲染（EPR）和自动钢琴转录（APT）两个基础但互逆的任务长期被独立研究的问题。其核心方法是构建一个基于Transformer的统一序列到序列（Seq2Seq）框架，通过解耦“音符级乐谱内容”和“全局演奏风格”两种表示，来联合学习这两个任务。与已有方法相比，其新意在于：1）首次将EPR和APT统一建模，实现双向监督；2）提出无需音符级对齐的Seq2Seq训练范式，降低了数据标注门槛；3）设计了一个独立的、基于扩散模型的演奏风格推荐（PSR）模块，能够仅从乐谱内容生成合适的风格嵌入。实验表明，该联合模型在ASAP数据集的APT任务上，达到了与最先进端到端模型（Beyer & Dai, 2024）可比的性能（例如，ScoreSimilarity平均误差Eavg从14.10降至12.48）。在EPR任务上，其客观指标（如速度MAE为0.37）和主观评价均优于或接近现有基线。消融实验验证了联合训练和无对齐数据的重要性。该工作的实际意义在于实现了音乐模态间转换的双向建模，并支持风格可控的演奏生成；主要局限性在于计算开销较大，且实验验证局限于古典钢琴音乐。 🏗️ 模型架构本文提出一个统一的、模块化的框架，用于联合处理EPR和APT任务，并支持独立的风格推荐。 ...