Break-the-Beat! Controllable MIDI-to-Drum Audio Synthesis

📄 Break-the-Beat! Controllable MIDI-to-Drum Audio Synthesis #音频生成 #音乐生成 #扩散模型 #迁移学习 #MIDI ✅ 6.8/10 | 前50% | #音频生成 | #扩散模型 | #音乐生成 #迁移学习 | arxiv 学术质量 5.8/8 | 影响力 0.6/1 | 可复现性 0.4/1 | 置信度 中 👥 作者与机构 第一作者:Shuyang Cui (Sony AI) 通讯作者:未说明 作者列表:Shuyang Cui(Sony AI),Zhi Zhong(Sony AI),Qiyu Wu(Sony AI),Zachary Novack(Sony AI),Woosung Choi(Sony AI),Keisuke Toyama(Sony AI),Kin Wai Cheuk(Sony AI),Junghyun Koo(Sony AI),Yukara Ikemiya(Sony AI),Christian Simon(Sony AI),Chihiro Nagashima(Sony AI),Shusuke Takahashi(Sony AI) 💡 毒舌点评 这篇论文精准地瞄准了音乐制作中一个真实存在但此前被研究界忽略的垂直需求(MIDI到鼓音频的可控合成),并通过巧妙的系统集成(微调预训练模型+设计混合条件机制)提供了扎实的解决方案和充分的消融实验。其主要短板在于技术新颖性相对有限,核心是将已有组件(预训练扩散模型、Transformer编码器、多种条件注入方式)进行有效组合与适配,而非提出全新的生成范式或突破性架构。此外,尽管提供了演示页面,但未开源代码和权重,在一定程度上影响了研究的可复现性和直接影响力。 📌 核心摘要 要解决什么问题:数字音乐制作中,根据MIDI序列生成高质量、且能复现特定参考音频音色的鼓声循环音频,传统方法(单一样本拼接或重采样)耗时费力,而现有生成模型缺乏精细的控制能力。 方法核心是什么:提出“Break-the-Beat!”模型,这是一个基于预训练Stable Audio Open(SAO)的扩散Transformer(DiT)。通过设计一个新的双输入内容编码器来处理目标MIDI和参考音频MIDI,并采用一种“混合条件机制”将MIDI内容特征和参考音频潜在特征注入到DiT中,从而同时控制节奏(来自MIDI)和音色(来自参考音频)。 与已有方法相比新在哪里:据作者所知,这是第一个专门针对“MIDI到鼓声”合成任务的工作。与MIDI-to-Piano工作不同,鼓声具有多音色、非调性的特点。与纯文本到音频或旋律控制生成不同,本方法引入了高分辨率MIDI作为精确的节奏控制信号,并实现了对参考音频音色的迁移。 主要实验结果如何:在E-GMD和StemGMD数据集上,使用64音符分辨率训练的模型取得了最佳性能。主要指标包括:FAD-VGG: 0.09, FAD-CLAP: 0.061, Onset F1: 70.08%, CMLt: 0.42。消融实验表明,高分辨率MIDI、混合条件机制(特别是输入相加方式)以及从预训练SAO微调对性能至关重要。使用检测到的伪Tap替代真实Tap,性能下降有限。 实际意义是什么:为音乐制作人提供了一个新的可控工具:输入一段鼓MIDI序列和一段想要模仿的鼓声音频(参考),即可生成遵循该MIDI节奏且具有参考音色的新鼓声音轨,简化创作流程。 主要局限性是什么:模型性能高度依赖于预训练的SAO模型,从头训练性能急剧下降。参考音频的音色迁移范围受限于训练数据中出现的鼓组音色。论文未提供在更复杂、更长或非4/4拍音乐上的泛化性验证。 🔗 开源详情 代码:论文中未提及代码链接。 模型权重:论文中未提及模型权重链接(论文指出基于预训练的Stable Audio Open [6] 模型进行微调,但未提供微调后或原始权重的具体下载链接)。 数据集:论文中未提及数据集的公开下载链接。文中说明训练与评估使用的数据集为“Groove MIDI Dataset (GMD)”、“Expanded Groove MIDI Dataset (E-GMD)”和“StemGMD”,并描述了其内容与划分,但未提供获取这些数据集的具体开源地址或协议。 Demo:https://ik4sumii.github.io/break-the-beat/ 复现材料:论文中未提及训练配置、模型检查点、附录等具体复现材料。 论文中引用的开源项目: Stable Audio Open (SAO) [6]:论文中未提供具体链接。 librosa [19]:论文中未提供具体链接。 DPM-Solver++ [18]:论文中未提供具体链接。 🏗️ 方法概述和架构 图1展示了系统的整体架构。核心是一个预训练的Stable Audio Open(SAO)扩散Transformer(DiT),其输入从原始的文本条件,被扩展和修改为同时接受鼓MIDI条件和参考音频条件。图中的数据流显示,目标MIDI和参考音频MIDI首先通过一个共享权重的“内容编码器”进行处理,该编码器还融合了参考音频的潜在表示。编码后的内容特征通过“混合条件机制”以两种方式注入DiT:1)参考音频的潜在表示(xref)直接与噪声潜在序列(zt)在通道维度拼接;2)编码后的内容特征(ccont)经过一个“内容对齐器”后,以加法形式融入DiT的输入。同时,全局条件(扩散步、目标时长、排列步数)被前置到DiT的输入序列中。最终,DiT输出去噪后的潜在表示,经解码器生成鼓声音频。 ...

2026-05-15 · 更新于 2026-06-12 · 3 min · 517 words

FSD50K-Solo: Automated Curation of Single-Source Sound Events

📄 FSD50K-Solo: Automated Curation of Single-Source Sound Events #数据清洗 #数据集 #音频事件检测 #预训练 #扩散模型 #音频生成 #自监督学习 📝 5.5/10 | 前50% | #数据清洗 | #扩散模型 #预训练 | #数据集 #音频事件检测 | arxiv 学术质量 4.3/8 | 影响力 0.7/1 | 可复现性 0.5/1 | 置信度 中 👥 作者与机构 第一作者:Ningyuan Yang(论文指出工作在Bose Corporation实习期间完成) 通讯作者:未提及 作者列表:Ningyuan Yang, Sile Yin, Li-Chia Yang, Bryce Irvin, Xiao Quan, Marko Stamenovic, Shuo Zhang(论文未单独列出各作者机构,仅说明第一作者实习于Bose) 💡 毒舌点评 本文针对大规模音频数据集FSD50K中普遍存在的标签噪声(多源样本)问题,提出了一个结合扩散模型生成与预训练编码器判别的自动化清洗流水线。其工程思路清晰,发布的FSD50K-Solo数据集可能对社区有一定实用价值。然而,论文的核心缺陷在于创新性不足(仅为现有模块的组合应用)与评估的严重封闭性(关键验证依赖于未公开的内部数据集BSE)。这使得论文的贡献更接近一项有限的系统集成工作,而非具有广泛影响力的算法突破,其宣称的“可扩展范式”因缺乏充分、公开的验证而显得说服力不足。 📌 核心摘要 问题:大规模开源音频数据集(如FSD50K)普遍存在标签噪声,包含大量背景干扰或事件重叠的多源样本,影响下游模型训练。目前缺乏大规模、强标注的单源声音事件数据集。 方法:提出一个自动化数据清洗框架。首先,利用生成式扩散模型(Stable Audio Open)基于单源类别标签合成干净音频,并构建可控噪声混合物作为训练数据;其次,使用在AudioSet上自监督预训练的BEATs音频编码器提取特征,结合Bi-LSTM和MLP训练一个二分类器,用于区分单源与多源样本;最终,用该分类器过滤FSD50K,得到子集FSD50K-Solo。 新意:与以往依赖众包人工评分(如PP)或特定领域信号处理(如WADA)的方法不同,本文提出了一种结合生成模型创造监督信号与预训练模型强大表征能力的通用数据清洗框架,旨在适用于一般声音事件。 实验结果:在内部专家标注的BSE测试集上,分类器达到95.51%准确率、98.58%精确率。在FSD50K上,被模型判定为单源的样本在Audiobox Aesthetics的复杂度(PC)和质量(PQ)分数上显著优于多源样本(Table II)。FSD50K-Solo最终包含约32,880个样本。 意义:为音频领域提供了一种自动清洗数据集的可行方案,发布了FSD50K-Solo元数据,可能为声源分离、可控音频生成等需要干净音频的任务提供更高质的资源。 局限性:方法组件为现有技术组合,创新有限;评估严重依赖非公开的内部数据集,可复现性与可比性差;未探索模型在未见类别上的泛化能力。 🔗 开源详情 代码:论文未提供当前可下载的代码仓库。论文中提到使用的BEATs模型引用自https://github.com/microsoft/unilm/tree/master/beats。 模型权重:论文未提供其训练的分类器模型的权重。使用的BEATs和Stable Audio Open 1.0为第三方模型。 数据集: FSD50K-Solo:论文明确表示将在论文被接受后公开数据集及其完整片段级元数据。当前未提供下载链接。 BSE数据集:内部数据集,未公开。 TAU Urban Acoustic Scenes 数据集:论文引用并提供了出处链接:https://zenodo.org/record/45739。 FSD50K:论文中研究的主要数据集,提供了项目主页链接:https://zenodo.org/record/4060432。 Demo:未提及。 复现材料:论文提供了详细的训练配置(优化器、学习率、损失函数等)和评估指标。但未提及是否提供训练检查点或完整复现脚本。当前信息不足以独立复现。 🏗️ 方法概述和架构 整体流程概述:这是一个多阶段的自动化数据清洗流水线,核心目标是训练一个能够区分“单源声音事件”和“多源声音事件”的二分类器。流水线分为两大阶段:(1) 合成带有已知标签的训练数据;(2) 基于预训练编码器的分类器设计与训练,最终应用于真实数据集清洗。 ...

2026-05-15 · 更新于 2026-06-12 · 2 min · 354 words

Seconds-Aligned PCA-DAC Latent Diffusion for Symbolic-to-Audio Drum Rendering

📄 Seconds-Aligned PCA-DAC Latent Diffusion for Symbolic-to-Audio Drum Rendering #音频生成 #扩散模型 #符号到音频 #鼓声渲染 #音频编码 ✅ 7.0/10 | 前50% | #音频生成 | #扩散模型 | #符号到音频 #鼓声渲染 | arxiv 学术质量 6.0/8 | 影响力 1.0/2 | 可复现性 0.6/1 | 置信度 高 👥 作者与机构 第一作者:Konstantinos Soiledis (Dept. of Music Technology and Acoustics, Hellenic Mediterranean University; Athena RC) 通讯作者:未说明 作者列表:Konstantinos Soiledis (Dept. of Music Technology and Acoustics, Hellenic Mediterranean University, Rethymno & Athens; Athena RC), Maximos Kaliakatsos-Papakostas (Dept. of Music Technology and Acoustics, Hellenic Mediterranean University), Dimos Makris (Dept. of Music Technology and Acoustics, Hellenic Mediterranean University), Konstantinos Tsamis (Dept. of Music Technology and Acoustics, Hellenic Mediterranean University; Athena RC) 💡 毒舌点评 亮点:论文在“符号鼓声到音频”这一细分且控制要求高的任务上,提出了一个技术自洽的解决方案(物理时间对齐+PCA压缩DAC潜空间+辅助离散损失)。其核心贡献在于验证了在编解码器潜空间中进行条件扩散的可行性,并通过精心设计的实验(如引入PCA重构上界作为无损验证、使用FAD-R²诊断FAD可靠性、进行严格的配对统计检验)使其结论比许多同类工作更可靠、更具说服力。 短板:创新性高度特异化,与特定的DAC模型(其输出投影矩阵的秩为72)强绑定,普适性存疑。评估局限于四拍短窗口和单一数据集,且完全缺乏主观听觉评估(MOS等),使得对“声学上逼真”的断言缺乏直接感知证据。 ...

2026-05-14 · 更新于 2026-06-12 · 4 min · 709 words

AuDirector: A Self-Reflective Closed-Loop Framework for Immersive Audio Storytelling

📄 AuDirector: A Self-Reflective Closed-Loop Framework for Immersive Audio Storytelling #音频生成 #多智能体系统 #语音情感识别 #人机交互 ✅ 6.0/10 | 前50% | #音频生成 | #多智能体系统 | #语音情感识别 #人机交互 | arxiv 学术质量 未说明/8 | 影响力 未说明/2 | 可复现性 0.4/1 | 置信度 中 👥 作者与机构 第一作者:Yiming Ren (上海人工智能实验室) 通讯作者:未说明 作者列表:Yiming Ren (上海人工智能实验室), Xuenan Xu (未说明), Ziyang Zhang (未说明), Wen Wu (未说明), Baoxiang Li (未说明), Chao Zhang (清华大学) 💡 毒舌点评 本文提出了一个整合多阶段、多智能体的音频故事生成框架,意图解决声音匹配、质量控制和交互性问题,流程设计清晰。然而,其核心创新严重不足,本质上是现有商业/闭源大模型(Gemini-3-Pro)、音频生成模型(IndexTTS2, TangoFlux)和检索模型的“拼装”。所谓的“自我反思闭环”机制,其关键参数(如阈值τ)黑箱操作,评估模型(如CLAP)本身也存在偏见,使得自纠正效果难以独立验证。论文在学术贡献的深度上乏善可陈,更像一篇系统应用报告而非算法创新论文。 📌 核心摘要 本文针对长篇连贯音频故事生成中存在的角色声音不匹配、缺乏质量自纠正、交互性差等问题,提出了AuDirector。这是一个基于多智能体(Director, Casting, Acoustic Production, Critic, Mix, Interaction Agent)的自反射闭环框架。其核心方法分为三阶段:1)身份感知的预制作,通过两步检索(语义过滤+导演决策)为角色匹配声音,并动态生成7维情绪指令;2)协作合成与修正,通过Critic Agent评估生成的语音和音效质量,并在低于阈值时触发迭代修正;3)人类引导的交互优化,允许用户通过自然语言反馈修改生产脚本并针对性地重新生成部分音频。实验在100个播客和广播剧场景上进行,与WavJourney和PodAgent基线相比,AuDirector在语音角色匹配度(VRM: 4.23 vs 3.59)、情感表达(MOS-Emo: 4.17 vs 3.60)和结构连贯性(MOS-Ali: 3.74 vs 3.60)上均取得领先。消融实验证明了闭环修正机制的有效性。论文明确承认的主要局限在于底层生成模型对非语音音轨建模的不足。 ...

2026-05-13 · 更新于 2026-06-12 · 3 min · 487 words

ChladniSonify: A Visual-Acoustic Mapping Method for Chladni Patterns in New Media Art Creation

📄 ChladniSonify: A Visual-Acoustic Mapping Method for Chladni Patterns in New Media Art Creation #音频生成 #图像分类 #实时系统 #物理建模 #注意力机制 #数据增强 ✅ 6.0/10 | 前50% | #音频生成 | #图像分类 | #实时系统 #物理建模 | arxiv 学术质量 6.0/8 | 影响力 1.0/2 | 可复现性 0.6/1 | 置信度 中 👥 作者与机构 第一作者:Yakun Liu(未说明机构) 通讯作者:未说明 作者列表:Yakun Liu, Hai Luan, Zhiyu Jin, Dong Liu(均未说明机构) 💡 毒舌点评 本文针对“Chladni图案声音化”这一高度垂直的艺术创作需求,提出了一套从物理建模到实时交互的完整工程原型。其核心价值在于将透明、基于物理公式的映射规则与轻量化识别模型结合,为特定艺术场景提供了降低技术门槛的解决方案。然而,该工作的主要短板也十分明显:所有验证完全依赖于自生成的合成数据集,其在真实世界复杂条件下的有效性未经检验,这使得其工程宣称的可靠性大打折扣。创新性本质上是对已有技术(薄板理论、CBAM、跨平台通信)的针对性整合与应用优化,而非方法学上的突破。作为一篇面向应用的短文,其贡献清晰但深度有限。 📌 核心摘要 解决的问题:新媒体艺术创作中Chladni图案声音化的三大痛点:1) 主观映射缺乏理论依据;2) 基于物理仿真的工具计算门槛高、离线计算无法满足实时交互;3) 通用图像声音化工具的映射规则为黑盒,不可控。 方法核心:提出ChladniSonify系统。首先,基于Kirchhoff-Love薄板振动理论,通过数值编程生成15种模式的Chladni图案-频率配对数据集,并使用ANSYS仿真校准频率系数。其次,设计了一个融合CBAM注意力机制的轻量化CNN模型(CNN_CBAM),专门用于识别这些图案的振动模式。最后,通过Python与Max/MSP基于UDP协议协作,构建了“图像输入→模式识别→频率映射→音频输出”的端到端实时系统。 与已有方法的创新:不同于主观映射或黑盒通用模型,本工作建立了完全由经典物理公式决定的、透明可复现的视觉-声学映射规则。针对Chladni图案细长节线的视觉特征,对CBAM空间注意力子模块的卷积核从7x7优化为5x5,以更精确地捕捉线特征,实现高精度低延迟识别。 主要实验结果: 基准频率一致性:在自建合成测试集(900张)上,正确识别样本的映射频率与理论频率相对偏差为0。 模式识别性能:CNN_CBAM模型准确率为99.33%,F1-score为0.9924,单图推理延迟7.03ms。详细对比如下表: 模型 准确率(%) F1-score 单图推理速度(ms) Basic_CNN 99.00 0.9945 6.42 CNN_CBAM (本研究) 99.33 0.9924 7.03 Improved AlexNet 99.67 0.9944 8.03 VGG16 100 1.0000 77 消融实验:优化CBAM(5x5核)相比无CBAM(99.00%)和原始CBAM(7x7核,98.50%),准确率更高(99.33%),延迟(7.03ms)也优于原始CBAM(7.10ms)。 全链路延迟:平均端到端延迟42.6ms,最大不超过48ms。 实际意义:为基于Chladni图案的新媒体艺术创作提供了一个可复现、物理一致的工程原型,允许艺术家在透明映射规则下进行声音定制,降低了创作的技术门槛。 主要局限性:系统仅适配一种特定边界条件(中心激励、四边自由方形不锈钢板);数据集仅包含15类模式;所有性能验证基于合成图像,缺乏真实拍摄数据的验证;基础音频输出仅为正弦波。 🔗 开源详情 代码:论文中未提及代码链接,未来计划中提及将开源系统代码。 模型权重:论文中未提及模型权重链接,未来计划中提及将开源模型架构。 数据集:论文中未提及公开数据集链接,未来计划中提及将开源数据集。论文描述的数据集是程序化生成的,包含15个振动模式,每个模式100张图像,共1500张原始图像。经数据增强后,训练集扩展为4500张图像(3600训练,900测试)。 Demo:论文中未提及在线演示链接。 复现材料:论文中未提供可供下载的复现材料包。论文在实验部分详细描述了复现所需的环境与参数:硬件为Apple M4 (MacBook Air) CPU,16GB内存;深度学习框架为PyTorch 2.0;图像输入尺寸为224x224x3 RGB格式;训练超参数包括:批量大小32,Adam优化器,初始学习率1e-4,训练50个epoch,采用早停策略(验证集损失连续10个epoch不下降则停止)。模型推理延迟测试条件为:单图像推理,批量大小=1,在CPU上运行,取1000次测试的平均值。 论文中引用的开源项目/工具: PyTorch:论文中提及使用PyTorch 2.0作为深度学习框架。官方主页为 https://pytorch.org/。 ANSYS Workbench:论文中提及使用ANSYS Workbench进行有限元模拟验证。官方主页为 https://www.ansys.com/products/ansys-workbench。 Max/MSP:论文中提及使用Max/MSP进行实时音频渲染与系统交互。官方主页为 https://cycling74.com/products/max。 PixelPlayer:论文在相关工作中提及的开源图像声音化项目,非本论文直接使用。 🏗️ 方法概述和架构 ChladniSonify是一个面向新媒体艺术创作的端到端实时视觉-声学映射系统,其设计严格遵循“物理规律驱动”和“实时交互”原则。系统由三个核心模块组成,形成从物理建模到交互输出的完整流水线。 ...

2026-05-12 · 更新于 2026-06-12 · 2 min · 367 words

Remix the Timbre: Diffusion-Based Style Transfer Across Polyphonic Stems

📄 Remix the Timbre: Diffusion-Based Style Transfer Across Polyphonic Stems #音色迁移 #扩散模型 #音频生成 #音乐信息检索 #音乐源分离 📝 5.5/10 | 前30% | #音色迁移 | #扩散模型 | #音频生成 #音乐信息检索 | arxiv 学术质量 5.5/8 | 影响力 1.3/2 | 可复现性 0.7/1 | 置信度 中 👥 作者与机构 第一作者:Leduo Chen (lec015@ucsd.edu, 所属机构可能为加州大学圣地亚哥分校) 通讯作者:未说明 作者列表:Leduo Chen (lec015@ucsd.edu, UCSD), Junchuan Zhao (Junchuan@u.nus.edu, NUS), Shengchen Li (Shengchen.Li@xjtlu.edu.cn, XJTLU) 💡 毒舌点评 亮点:论文精准地识别并挑战了一个实际但被忽视的痛点——音乐制作中从混合母带直接进行多声部音色再设计的需求,以及现有“先分离再处理”流程的固有缺陷。提出的MixtureTT系统设计巧妙,通过联合扩散建模和三阶段注意力机制,从理论上同时解决了级联误差、推理成本与声部协调性问题,是一个动机明确、技术路线清晰的“问题驱动型”创新。其在更难条件下(混合输入)超越了使用完美分离声部的强基线,实验结果具有说服力。 短板:核心验证完全局限于结构高度规整、声部功能相对单一的SATB合唱数据。这使得系统宣称的通用性(直接从混合音频处理)打了折扣——它更像是一个针对特定场景的“最优解”,而非广泛适用的通用技术。论文未与任何处理混合音频的生成或编辑模型(如基于扩散的音频编辑器、音乐语言模型等)进行对比,使得其在整个技术生态中的定位模糊。此外,声称“首个”需要更全面的文献调研支撑,可能忽略了某些同期或预印本工作。 📌 核心摘要 解决的问题:传统多乐器音色迁移依赖“先分离再处理”的流程,导致三个主要问题:源分离引入的误差在迁移中传播;推理成本随声部数量线性增长;各声部独立处理,无法建模和维持声部间的和声关系与音色一致性。本文旨在提出一个能直接从多声部混合音频输入,为每个声部分配独立目标音色并联合、协调地生成所有声部输出的端到端系统。 方法核心:提出MixtureTT,核心是联合声部扩散变换器(Joint Stem Diffusion Transformer)。该系统包含:1)基于HT-Demucs编码器和可训练双分支适配器的隐式内容提取器,从混合音频中提取各声部内容特征;2)将参考音频编码为全局向量的音色编码器;3)采用三阶段注意力机制(内声部-跨声部-细化)和解耦FiLM条件控制的扩散去噪网络,在潜空间中联合处理所有声部。训练时引入内容-音色解耦损失和多样性损失以确保条件有效分离。 与已有方法的新意:据称是首个直接从混合音频出发、为每个声部分配独立目标音色并进行联合生成的系统。与单乐器方法(如SS-VAE, CTD)相比,它无需分离输入;与混合体对混合体方法相比,它支持声部级控制;与需要额外查询音频的DisMix相比,它无需额外输入。其核心创新在于将多声部生成耦合在单一扩散轨迹中。 主要实验结果:在CocoChorales(SATB合唱)数据集上,MixtureTT在迁移任务中,以混合音频为输入,在各项客观指标上均优于使用真实分离声部作为输入的单乐器基线(SS-VAE, CTD)。关键消融实验(移除跨声部注意力阶段的Single DiT,以及移除解耦/多样性损失的变体)证实了联合建模和各损失项的必要性。主观评估(MOS)显示,MixtureTT在迁移成功度、内容保留度、音质及**声部间连贯性(IC)**上均显著优于基线。使用伪标签数据扩展训练的实验表明,即使在完全无配对数据的情况下,性能下降也相对平缓。 实际意义:为音乐制作人提供了一种更高效、更直观的多轨音色再设计工具,允许直接从混合母带出发进行声部级的音色实验,简化了传统工作流程,并可能启发生成式音乐建模领域更多地关注“混合级”处理。 主要局限性:验证场景局限于结构固定的四声部SATB合唱音乐,未在更复杂、更多样的真实乐器组合(如流行、摇滚、管弦乐)上验证;未与其他能处理混合音频的生成模型进行对比;未分析隐式内容提取器实际学到的表征质量;缺乏对主观评估双盲测试的说明。 🔗 开源详情 代码:论文中未提及代码链接。仅提供了项目主页:https://mixturett.github.io/Mixture_TT/ 模型权重:论文中未提及。 数据集:论文中提及数据集为 CocoChorales (tiny partition) (24k/8k/8k train/val/test),但未提供直接下载链接。 Demo:https://mixturett.github.io/Mixture_TT/ 复现材料:论文中提及部分训练配置(如学习率、批大小、训练步数、硬件),但未提供配置文件或检查点的具体下载链接。 论文中引用的开源项目: RAVE:音频编解码器(论文中提及“RAVE design”)。 HT Demucs:源分离/内容提取模型(论文中提及)。 SS-VAE:基线模型(论文中提及和引用[7])。 Control-Transfer-Diffusion (CTD):基线模型(论文中提及和引用[11])。 EDM:扩散模型框架(论文中提及和引用[23])。 DiT (Diffusion Transformer):架构参考(论文中提及和引用[33])。 HiFi-GAN判别器:用于音频编解码器(论文中提及“adversarial discriminator of [30]”,即HiFi-GAN判别器)。 (注:以上项目链接均未在论文中提供) 🏗️ 方法概述和架构 1. 整体流程概述 MixtureTT是一个端到端的条件生成系统,其输入是一个多声部混合音频波形,以及为每个目标声部(如SATB)指定的独立音色参考音频。系统通过一个共享的扩散过程,联合生成所有声部对应的波形输出,无需中间显式分离步骤。整个过程在预训练音频编解码器的潜空间中进行。 ...

2026-05-12 · 更新于 2026-06-12 · 3 min · 529 words

AVI-Edit: Audio-sync Video Instance Editing with Granularity-Aware Mask Refiner

📄 AVI-Edit: Audio-sync Video Instance Editing with Granularity-Aware Mask Refiner #视频编辑 #扩散模型 #音频生成 #音视频 🔥 8.0/10 | 前25% | #视频编辑 | #扩散模型 | #音频生成 #音视频 | arxiv 学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度 高 👥 作者与机构 第一作者:Haojie Zheng(北京大学软件与微电子学院,北京人工智能研究院) 通讯作者:Boxin Shi(北京大学计算机科学学院,多媒体信息处理国家重点实验室,国家视觉技术工程研究中心),Xinlong Wang(北京人工智能研究院) 作者列表:Haojie Zheng(北京大学软件与微电子学院,北京人工智能研究院),Shuchen Weng(北京人工智能研究院,北京大学计算机科学学院),Jingqi Liu(北京大学软件与微电子学院,北京人工智能研究院),Siqi Yang(北京大学人工智能研究院),Boxin Shi(北京大学计算机科学学院,多媒体信息处理国家重点实验室,国家视觉技术工程研究中心),Xinlong Wang(北京人工智能研究院) 💡 毒舌点评 这篇工作就像一位细心的“音频-视频外科医生”,不仅能精准切除或替换视频中的特定实例(如把狗变成猫),还能确保它的叫声也同步变化,这种对模态间精细时空对齐的执着在现有编辑工具中相当稀缺。然而,其“手术”目前一次只能处理一个“病人”(单实例),且整个“手术器械”(自反馈音频代理)依赖一个外部模型“工具箱”,这让人担心其在真实世界复杂场景下的自主性和鲁棒性。 📌 核心摘要 问题:现有视频编辑方法主要关注视觉层面,破坏了原始视频中至关重要的音频-视频同步,且缺乏实例级别的精细空间和时间控制。 方法核心:提出AVI-Edit框架,包含三个关键组件:基于Wan2.2的音频同步视频骨干网络(通过帧级交叉注意力融合音频信息)、粒度感知遮罩精炼器(GAMR,迭代式地将用户提供的粗糙遮罩精化为精确的实例轮廓)、自反馈音频代理(通过“分离-生成-重混-修正”的闭环流程,利用外部工具生成高质量的引导音频)。 创新点:a) 引入“精度因子”来量化和控制遮罩的粗糙程度,实现迭代式遮罩精化;b) 设计了自反馈音频代理,能够根据场景自适应选择分离和生成模型,并通过质量评判进行迭代优化;c) 构建了首个大规模、实例中心的音频-视频编辑数据集AVISet。 实验结果:在AVISet和AvED-Bench两个数据集上,AVI-Edit在视觉质量(FVD/IS)、条件遵循(TC/AC)和音视频同步(Sync-C/D)等定量指标上均优于现有方法(AvED, Ovi, VACE-Foley)。用户研究显示,在音视频同步、文本对齐和总体偏好方面,AVI-Edit均获得最高支持率(最高达49.20%)。 实际意义:为高质量的视频内容创作提供了新工具,允许用户在保留背景和非目标音频的前提下,对视频中的特定实例及其关联音频进行精准、同步的编辑,适用于影视后期、短视频创作等场景。 主要局限性:a) 目前仅支持单实例顺序编辑,无法同时处理多个目标实例;b) 框架的音频代理模块依赖一组预设的外部模型,其性能受限于这些外部组件的质量和泛化能力。 🔗 开源详情 代码:论文中未提及代码链接 ...

2026-05-07 · 更新于 2026-06-12 · 3 min · 444 words

Stage-adaptive audio diffusion modeling

📄 Stage-adaptive audio diffusion modeling #音频生成 #音频修复 #扩散模型 #自监督学习 #自适应采样 ✅ 7.0/10 | 前25% | #音频生成 | #扩散模型 | #音频修复 #自监督学习 | arxiv 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 -0.5 | 置信度 高 👥 作者与机构 第一作者:Xuanhao Zhang (中国药科大学,邮箱:2020230870@stu.cpu.edu.cn) 通讯作者:Chang Li (中国科学技术大学,邮箱:lc_lca@mail.ustc.edu.cn) 作者列表:Xuanhao Zhang(中国药科大学)、Chang Li(中国科学技术大学) 💡 毒舌点评 亮点:论文抓住了音频扩散模型训练过程中的核心动态矛盾——“语义获取”与“生成精炼”的阶段差异,并提出了一个统一的“进度变量”监控指标来驱动三个自适应机制,理论上是一个完整且优雅的解决方案。短板:实验部分存在明显的设计缺陷,三个机制(衰减SSL引导、自适应时间步采样、结构正则化)都只在“均匀基线”上单独评估,缺乏“三者结合”的完整方案验证,也缺少与近期高效训练方法(如动态权重调整、重要性采样)的直接对比,说服力打了折扣。此外,与外部SOTA的对比弱于框架内的自身对比,更凸显了该工作的定位是“训练效率改进”而非“性能颠覆”。 📌 核心摘要 要解决什么问题:解决当前音频扩散模型训练依赖静态优化配方、计算成本高昂的问题。论文指出,训练早期应侧重语义对齐与粗略组织,后期应侧重时域一致性、感知保真度与细节精炼,静态配方无法适应这种动态变化。 方法核心是什么:提出一种阶段自适应训练视角。核心是引入一个基于冻结自监督学习(SSL)编码器的差异斜率信号(g_k)作为“进度变量”,监控语义获取速度。基于此变量,设计并集成三个自适应机制:衰减的SSL引导、由进度变量驱动的自适应时间步采样、以及基于参数空间分组组织的结构感知正则化。 与已有方法相比新在哪里:1) 首次在音频扩散模型训练中提出一个统一的、基于SSL空间动态的“进度变量”来量化训练阶段;2) 将外部语义支持、内部结构约束和优化重点分配这三个通常独立考虑的因素,整合到同一个自适应控制框架下;3) 结构感知正则化不是预设的,而是基于观察到的训练中后期才出现的稳定分组结构“按需激活”。 主要实验结果如何:在文本到音频生成和音频超分辨率两个任务上,所提机制在各自单独加入时,均在关键指标上优于静态基线。例如,在文本到音频生成任务中,自适应时间步采样将FAD(越低越好)从基线的2.36降至1.91;在24kHz到48kHz超分辨率任务中,衰减SSL引导将LSD(越低越好)从基线的0.831降至0.760。 实际意义是什么:为高效训练音频扩散模型提供了一个新的、基于阶段动态的理论视角和实践框架。它表明,通过让训练配方与模型内部状态协同演化,可以在不增加模型容量或数据规模的前提下提升训练效率和最终质量。 主要局限性是什么:1) 核心局限在于三个自适应机制仅单独评估,未验证其组合后的协同效应或潜在冲突;2) 实验对比更侧重于验证自身机制相对于静态基线的提升,与近期其他高效扩散训练方法的对比不足;3) “结构感知正则化”中引用的“参考模式S_ref”的具体获取方式(如使用哪个数据集训练的哪个模型、在哪个训练阶段截取)未明确说明,影响复现和理解其普适性。 🔗 开源详情 代码:论文中未提及代码链接。论文所有实验均基于 stable-audio-tools 框架进行,但未提供本文方法的具体实现代码。 模型权重:论文中未提及。 数据集: AudioSet: 用于文本到音频生成任务的训练。需要向 Google Research 申请访问权限:https://research.google.com/audioset/ FreeSound: 用于文本到音频生成任务的训练。公开数据集:https://freesound.org/ AudioCaps: 用于文本到音频生成任务的评估。公开数据集:http://www.cs.toronto.edu/~kmn428/AudioCaps/ VCTK: 用于音频超分辨率任务的训练与评估。公开数据集,可从官方渠道获取,常见来源如:https://datashare.ed.ac.uk/handle/10283/3443 Demo:论文中未提及。 复现材料:论文中未提及。论文未提供训练脚本、配置文件、预训练检查点等额外复现材料。 论文中引用的开源项目: stable-audio-tools: 论文所有实验基于此框架实现。官方仓库:https://github.com/Stability-AI/stable-audio-tools USAD: 作为冻结的自监督音频编码器用于提取SSL特征。官方仓库:https://github.com/facebookresearch/audiocraft (注:USAD是AudioCraft库中的一部分,论文引用了Chang et al. (2025)) Make-An-Audio: 作为基线模型之一。官方仓库:https://github.com/lifeaudioml/Make-An-Audio AudioLDM 2: 作为基线模型之一。官方仓库:https://github.com/haoheliu/audioldm2 Tango 2: 作为基线模型之一。官方仓库:https://github.com/declare-lab/tango AudioSR: 作为基线模型之一。官方仓库:https://github.com/haoheliu/AudioSR NVSR: 作为基线模型之一。论文引用了Liu et al. (2022),通常指NVIDIA的超分辨率工作。 🏗️ 模型架构 论文并未提出一个新的网络架构,而是提出了一套可附加到现有扩散Transformer(DiT)架构上的训练自适应机制。整体流程如下: ...

2026-05-07 · 更新于 2026-06-12 · 2 min · 353 words

AC-Foley: Reference-Audio-Guided Video-to-Audio Synthesis with Acoustic Transfer

📄 AC-Foley: Reference-Audio-Guided Video-to-Audio Synthesis with Acoustic Transfer #音频生成 #流匹配 #多模态模型 #零样本 🔥 8.0/10 | 前25% | #音频生成 | #流匹配 | #多模态模型 #零样本 学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Pengjun Fang(香港科技大学) 通讯作者:未明确说明。论文列出了多位作者及其单位,通常通讯作者会在投稿系统中标注,但此处文本未明确指出。根据作者列表顺序和惯例,可能为Qifeng Chen或Harry Yang,但为避免猜测,此处标记为“未说明”。 作者列表: Pengjun Fang(香港科技大学) Yingqing He(香港科技大学) Yazhou Xing(香港科技大学) Qifeng Chen(香港科技大学) Ser-Nam Lim(中佛罗里达大学) Harry Yang(中佛罗里达大学) 💡 毒舌点评 AC-Foley的亮点在于用“听觉范例”替代“文字描述”来指挥AI配音,这巧妙绕过了语言在描述“微妙质感”时的无力感,并通过精心设计的两阶段训练确保了模型不是简单复读机。然而,其短板也明显:当视频或参考音本身涉及多重声源交叠或节奏极端错配时(比如用猫叫配急促打字),模型的协调能力就会捉襟见肘,暴露了其在处理复杂声景和时序冲突上的稚嫩。 🔗 开源详情 代码:论文中未提及代码仓库链接。仅在伦理声明中提及未来将以Apache 2.0许可证发布模型。 模型权重:未提及公开预训练权重。 数据集:使用公开数据集(VGGSound, AudioCaps2.0, WavCaps),并说明了其许可证(见附录F)。 Demo:未提供在线演示链接。 复现材料:提供了详尽的训练细节(优化器、学习率schedule、batch size、训练硬件与时间)、网络结构参数(隐藏维度、block数量),以及消融实验的设置,复现信息较为充分。 引用的开源项目/模型:论文依赖并提及了以下开源工作:CLIP(视觉/文本编码器)、Synchformer(同步特征提取器)、BigVGAN(声码器)、ImageBind(多模态嵌入,用于数据筛选和评估)、AdamW(优化器)。 📌 核心摘要 这篇论文(ICASSP 2026 / ICLR 2026)针对现有视频到音频(V2A)生成方法中依赖文本控制导致的语义粒度粗和描述模糊两大瓶颈,提出了AC-Foley,一种参考音频引导的视频到音频合成框架。其核心方法是直接将参考音频的声学特征作为条件信号,通过多模态Transformer和基于流匹配的生成模型,合成与视频同步且具有参考音频音色特性的声音。与已有方法相比,AC-Foley的新颖之处在于:1) 用音频直接控制,实现了细粒度音色迁移和零样本声音生成;2) 提出了包含重叠与非重叠条件的两阶段训练策略,解决了参考音频的时间适配与泛化问题。 ...

2026-05-04 · 更新于 2026-06-12 · 2 min · 250 words

AudioX: A Unified Framework for Anything-to-Audio Generation

📄 AudioX: A Unified Framework for Anything-to-Audio Generation #音频生成 #音频大模型 #多模态模型 #扩散模型 #数据集 ✅ 7.5/10 | 前25% | #音频生成 | #扩散模型 | #音频大模型 #多模态模型 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Zeyue Tian (Hong Kong University of Science and Technology) 通讯作者:Wei Xue† (Hong Kong University of Science and Technology), Yike Guo† (Hong Kong University of Science and Technology) 作者列表:Zeyue Tian (Hong Kong University of Science and Technology), Zhaoyang Liu (Hong Kong University of Science and Technology), Yizhu Jin (Hong Kong University of Science and Technology), Ruibin Yuan (Hong Kong University of Science and Technology), Liumeng Xue (Hong Kong University of Science and Technology), Xu Tan (Independent Researcher), Qifeng Chen (Hong Kong University of Science and Technology), Wei Xue† (Hong Kong University of Science and Technology), Yike Guo† (Hong Kong University of Science and Technology) 💡 毒舌点评 本文的亮点在于构建了一个工程上非常扎实的统一框架,其设计的多模态自适应融合模块(MAF)有效解决了不同模态信号干扰的问题,并且配套构建的IF-caps数据集在质量和规模上都为训练该类模型提供了宝贵资源。短板在于,尽管实验全面,但论文中声称的“任何东西到音频生成”在当前实现中主要限于文本、视频和音频三种条件输入,对于“任何东西”(如图像、草图等)的泛化能力论证不足,更像一个“文本/视频/音频到音频”的强统一模型。 ...

2026-05-04 · 更新于 2026-06-12 · 4 min · 756 words