AudioGen-Omni: A Unified Multimodal Diffusion Transformer for Video-Synchronized Audio, Speech, and Song Generation

📄 AudioGen-Omni: A Unified Multimodal Diffusion Transformer for Video-Synchronized Audio, Speech, and Song Generation #音频生成 #语音合成 #多模态模型 #扩散模型 #统一音频模型 ✅ 7.5/10 | 前25% | #音频生成 | #多模态模型 | #语音合成 #扩散模型 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Le Wang(中国矿业大学,徐州) 通讯作者:未说明(论文中未明确标注通讯作者) 作者列表:Le Wang(中国矿业大学)、Jun Wang(快手科技,Kling AI)、Chunyu Qiang(快手科技,Kling AI)、Feng Deng(快手科技,Kling AI)、Chen Zhang(快手科技,Kling AI)、Kun Gai(快手科技,Kling AI) 💡 毒舌点评 亮点:这篇论文的野心很大,试图用一个统一的“全家桶”模型解决视频到音频、语音、歌曲的生成,并且通过全面的实验确实做到了在多个任务上刷榜,证明了其架构设计的有效性。 短板:然而,论文对视频输入的强依赖像一根“拐杖”,限制了其在无视频场景下的应用,而号称的“统一”框架在代码和模型完全黑箱的情况下,其宣称的优越性和可复现性都要打上一个问号。 🔗 开源详情 代码:论文中未提及代码仓库链接。 模型权重:未提及公开预训练模型权重。 数据集:论文提及了使用的多个数据集名称及大致规模,但未说明这些数据集是否由作者整理发布,或提供具体的下载/访问方式。部分数据集(如VGGSound, AudioCaps)是公开的,但作者处理后的版本未公开。 Demo:提供了在线演示页面链接:https://ciyou2.github.io/AudioGen-Omni/ 。 复现材料:给出了模型总参数、层数、优化器、学习率、批次大小、GPU型号和训练时长等关键训练细节。但缺乏具体的网络层配置(如隐藏维度、注意力头数)、数据增强方法、评估脚本等,复现材料不充分。 论文中引用的开源项目:论文明确引用了并依赖以下开源模型或工具:F5-TTS [14], ConvNeXt-V2 [10], Synchformer [15], ViT-bigG (MetaCLIP) [31], T5-Base [30], Kling-Foley [32], VQ-CTAP [33], Qwen-Omni [27], Whisper [28], FunASR [29], FLUX [12], SD3 [11]。 📌 核心摘要 解决的问题:现有视频到音频(包括音效、语音、音乐)的生成方法大多任务特定、模型碎片化,且跨模态(如唇音同步)对齐效果不佳,限制了通用性和生成质量。 方法核心:提出AudioGen-Omni,一个基于多模态扩散变换器(MM-DiT)的统一框架。其核心是引入了“歌词-转录编码器”,将音素/字素映射为帧级稠密表示;并设计了“相位对齐各向异性位置注入(PAAPI)”,在注意力机制中对视频、音频、转录文本等有时序结构的模态选择性地应用旋转位置编码,以实现精细的跨模态同步。 创新点:a) 首个能同时处理音频、语音、歌曲生成的统一多模态条件生成框架;b) 提出了无需音素时长监督的歌词转录编码模块;c) PAAPI机制增强了细粒度的时序对齐。与先前工作不同,它解冻了所有模态并采用掩码输入策略,增强了灵活性。 主要实验结果:在VGGSound音频生成测试集上,其FD指标(PaSST 58.77, PANNs 6.29)优于MMAudio等基线(见表1)。在LRS3/LRS2语音生成测试中,其UTMOS(3.982/3.842)和DNSMOS(3.782/3.767)得分甚至超过真实语音,WER也大幅降低(17.56%/17.75%)(见表2)。在说话人相似度(SECS)评估中,其GE2E和VoxSim分数均高于其他方法(见表3)。模型能在1.91秒内生成8秒音频。 实际意义:为多媒体内容创作提供了一个高效、高质量的统一音频生成工具,有望简化视频后期制作流程,增强虚拟人物、游戏、社交媒体的音频沉浸感。 主要局限性:模型依赖视频输入,当无视觉信息时应用受限;论文未开源代码和模型,限制了社区复现和二次开发;虽能生成歌曲,但对复杂音乐结构的控制能力未深入展示。 🏗️ 模型架构 AudioGen-Omni是一个端到端的多模态扩散变换器,旨在根据可选的视频和文本输入,生成同步的音频、语音或歌曲。 ...

2026-04-29 · 更新于 2026-05-20 · 2 min · 412 words

AUV: Teaching Audio Universal Vector Quantization with Single Nested Codebook

📄 AUV: Teaching Audio Universal Vector Quantization with Single Nested Codebook #音频生成 #统一音频模型 #知识蒸馏 #自监督学习 🔥 8.0/10 | 前25% | #音频生成 | #知识蒸馏 | #统一音频模型 #自监督学习 学术质量 5.5/7 | 选题价值 1.8/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Yushen Chen (上海交通大学X-LANCE实验室, MoE人工智能重点实验室, 江苏省语言计算重点实验室, SCS;上海创新研究院) 通讯作者:Xie Chen (上海交通大学X-LANCE实验室, MoE人工智能重点实验室, 江苏省语言计算重点实验室, SCS;上海创新研究院) 作者列表:Yushen Chen(上海交通大学X-LANCE实验室, MoE人工智能重点实验室, 江苏省语言计算重点实验室, SCS;上海创新研究院)、Kai Hu(腾讯混元)、Long Zhou(腾讯混元)、Shulin Feng(腾讯混元)、Xusheng Yang(北京大学,深圳)、Hangting Chen(腾讯混元)、Xie Chen(上海交通大学X-LANCE实验室, MoE人工智能重点实验室, 江苏省语言计算重点实验室, SCS;上海创新研究院) 💡 毒舌点评 亮点是嵌套码本(Matryoshka Codebook)设计巧妙,将领域先验以一种灵活、可学习的方式注入单一码本,避免了复杂多阶段训练和域切换难题。短板在于“统一”模型在语音重建的关键指标(如PESQ)上仍稍逊于领域专用模型(如BigCodec),且论文未公开完整的训练数据与硬件配置,对工业级复现构成挑战。 🔗 开源详情 代码:论文中提供了项目主页链接(https://swivid.github.io/AUV/),并称“The pre-trained model and demo samples are available”,但未明确提供完整代码仓库的GitHub链接。 模型权重:论文提及预训练模型可用,但未说明具体下载地址或平台。 数据集:论文使用了Emilia, LibriTTS, AudioSet等公开数据集及内部数据集。公开数据集部分未说明具体获取或预处理方式。内部数据集未公开。 Demo:论文提供在线演示样本(通过项目主页)。 复现材料:论文提供了非常详细的训练配置(优化器、学习率、调度、模型尺寸等),并在消融实验部分给出了不同设置下的结果,有助于复现。未提及提供预训练检查点、配置文件或复现脚本。 论文中引用的开源项目:VQ-GAN、HiFi-GAN(用于判别器)、EnCodec、DAC、Vocos、Conformer、BigCodec、Stable-Codec(用于MS-STFT判别器设置)、WavLM、MuQ、BEATs(作为教师模型)、EmoVoice(用于TTS评估)、F5-TTS(用于评估数据)。 总结:论文承诺提供模型和演示,但未提供完整的代码和数据获取链路,因此开源信息部分充分,部分未说明。 📌 核心摘要 问题:现有的神经音频编解码器要么是领域专用的(语音、音乐等分开训练),要么在使用单一码本实现统一音频表示时,面临重建质量不佳、训练流程复杂、处理混合域音频能力弱等问题。 方法核心:提出AUV,一个采用单一嵌套码本的统一神经音频编解码器。其核心是设计一个“俄罗斯套娃”式(Matryoshka)的嵌套码本,为语音、人声、音乐、声音等不同领域分配重叠的索引区间作为弱先验。同时,利用多个领域的预训练教师模型(如WavLM、MuQ、BEATs)对学生编解码器进行知识蒸馏,以注入丰富的语义信息,所有训练在单阶段完成。 新意:AUV是首个将嵌套码本设计和多领域教师蒸馏相结合,用于实现统一单码本音频表示的方法。与之前工作(如UniCodec的刚性分割码本和多阶段训练)相比,它更灵活、更高效,且能自然处理混合域音频。 主要实验结果:在语音重建(LibriSpeech test-clean)上,AUV(WER 3.64, SPK-SIM 0.81)与BigCodec(WER 3.63, SPK-SIM 0.84)等专用模型表现相当,并显著优于UniCodec(WER 3.78)。在音乐和声音重建上,AUV的Audiobox Aesthetics各项得分全面超越UniCodec(例如,音乐CE: 5.90 vs 5.06)。消融实验证实了嵌套码本和多领域蒸馏对重建和生成质量的提升。 实际意义:AUV为语音、音乐、声音等多领域提供了一个统一的离散表示基础,有望简化下游音频大模型(如TTS、音频生成)的训练,并能高效处理现实世界中的混合音频内容。 局限性:在极低比特率下的重建保真度仍有提升空间;统一模型在个别语音指标上与最强专用模型仍有微小差距;训练数据的具体细节和获取方式未完全公开。 🏗️ 模型架构 AUV的整体架构为编码器-量化器-解码器(Encoder-Quantizer-Decoder)。 ...

2026-04-29 · 更新于 2026-05-20 · 2 min · 374 words

Break-the-Beat! Controllable MIDI-to-Drum audio synthesis

📄 Break-the-Beat! Controllable MIDI-to-Drum audio synthesis #音乐生成 #扩散模型 #预训练 #音频生成 #模型评估 ✅ 7.5/10 | 前25% | #音乐生成 | #扩散模型 | #预训练 #音频生成 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.3 | 置信度 高 👥 作者与机构 第一作者:Shuyang Cui (Sony Group Corporation) 通讯作者:未说明(论文中未明确标注) 作者列表:Shuyang Cui¹, Zhi Zhong¹, Qiyu Wu¹, Zachary Novack¹*, Woosung Choi², Keisuke Toyama¹, Kin Wai Cheuk², Junghyun Koo², Yukara Ikemiya², Christian Simon¹, Chihiro Nagashima¹, Shusuke Takahashi¹ (1: Sony Group Corporation, 2: Sony AI) 💡 毒舌点评 这篇论文技术方案完备,从数据构建、模型设计到实验评估都做得非常扎实,成功填补了“MIDI-to-Drum”这一特定任务的研究空白,对于音乐制作工具开发具有明确的导向性。然而,其主要创新集中在对现有框架的适配和针对性设计上,在生成模型基础架构层面的突破性略显不足,且缺乏与更多元、更强的基线模型在相似音乐生成任务上的横向比较,说服力可再增强。 ...

2026-04-29 · 更新于 2026-05-20 · 3 min · 440 words

Cardiobridge-DM: Bridging Cross-Cohort Heart Sound Synthesis via Rhythm-Aware Semi-Supervised Diffusion

📄 Cardiobridge-DM: Bridging Cross-Cohort Heart Sound Synthesis via Rhythm-Aware Semi-Supervised Diffusion #音频生成 #扩散模型 #数据增强 #生物声学 #医疗AI ✅ 7.5/10 | 前25% | #音频生成 | #扩散模型 | #数据增强 #生物声学 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0 | 置信度 高 👥 作者与机构 第一作者:Chenyang Xu(西安电子科技大学网络工程学院) 通讯作者:Hao Wang(西安电子科技大学网络工程学院) 作者列表:Chenyang Xu(西安电子科技大学网络工程学院)、Siming Li(西安电子科技大学通信工程学院)、Hao Wang(西安电子科技大学网络工程学院) 💡 毒舌点评 亮点是其半监督Classifier-Free Guidance (CFG) 策略的设计,通过结构化的模态缺失(对弱标注数据强制丢弃ECG),巧妙地迫使模型学习从文本到心律的跨模态映射,这超越了简单的数据拼接。短板在于,作为一个强调“首个”框架和“可扩展”解决方案的工作,其复现信息极度匮乏,未提供任何代码或模型权重,这严重削弱了其作为“开源解决方案”的实用价值,也让论文中的性能声称难以被独立验证。 🔗 开源详情 代码:论文中未提及代码链接。 模型权重:未提及公开权重。 数据集:实验使用了公开的PhysioNet 2016和2022数据集,但论文未说明如何获取或处理后的具体数据形式。 Demo:未提供在线演示。 复现材料:给出了部分训练细节(优化器、学习率、批量大小)、模型总参数量(110M)和超参数敏感性分析图。但关键的网络架构参数、完整训练配置、数据预处理代码等均未说明。 引用的开源项目:论文引用了Wav2Vec 2.0 [21] 和 一种心音���割网络 [23],但未说明是否完全依赖其代码。 总结:论文中未提及开源计划。核心复现信息缺失。 📌 核心摘要 要解决什么问题:医疗AI(特别是心脏听诊AI)面临数据碎片化挑战:大型数据集(如PhysioNet 2016)标注简单,小型数据集(如PhysioNet 2022)标注详细但样本量小。需要一种方法桥接这两类数据,生成高质量、可控的心音(PCG)信号以增强模型泛化能力。 方法核心是什么:提出CardioBridge-DM,一个两阶段半监督扩散框架。第一阶段使用VQ-VAE学习跨队列的通用声学表征。第二阶段训练条件扩散模型,其核心创新是节奏感知的半监督Classifier-Free Guidance (CFG):对有ECG的丰富标注数据进行标准随机丢弃;对无ECG的弱标注数据,强制丢弃ECG模态,迫使模型仅从文本诊断中推断心律。 与已有方法相比新在哪里:首次设计用于跨队列(异构标注)心音合成的扩散框架。提出了半监督CFG机制,将条件生成从单纯的数据融合提升为一种跨模态生理推理能力,使模型能在缺失ECG时仅凭文本生成符合节律的心音。 主要实验结果如何:在FAD(生成质量)上达到4.3,远优于最强基线AudioLDM的9.8。提出了新的CCT(跨队列迁移性)指标,得分为0.82。消融实验证明,移除通用声学表征(第一阶段)和半监督CFG都会显著降低性能。感知图灵测试中,训练听众对合成音频的混淆率达到47.8%(接近50%的理想随机水平),MOS为4.2±0.4(与真实音频4.6±0.3可比)。具体结果见下表。 方法 FAD ↓ IS ↑ CLAP ↑ CCT ↑ StyleGAN2-V (adapted) 14.2±0.9 2.1±0.2 0.41±0.04 0.45±0.05 DiffWave (adapted) 11.2±0.6 2.3±0.2 0.48±0.03 0.51±0.04 AudioLDM (adapted) 9.8±0.5 2.6±0.1 0.52±0.03 0.58±0.06 CardioBridge-DM (Ours) 4.3±0.3 3.7±0.2 0.74±0.02 0.82±0.03 ...

2026-04-29 · 更新于 2026-05-20 · 2 min · 309 words

Combining Multi-Order Attention and Multi-Resolution Discriminator for High-Fidelity Neural Vocoder

📄 Combining Multi-Order Attention and Multi-Resolution Discriminator for High-Fidelity Neural Vocoder #语音合成 #生成模型 #音频生成 #注意力机制 #模型评估 ✅ 6.5/10 | 前50% | #语音合成 | #生成模型 | #音频生成 #注意力机制 学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 中 👥 作者与机构 第一作者:未明确标注(根据署名顺序,Yan Shi 和 Minchuan Chen 标有星号,可能为共同第一作者) 通讯作者:未明确标注 作者列表:Yan Shi(平安科技,联系邮箱shiyanilj@163.com),Jin Shi(平安科技),Minchuan Chen(平安科技,联系邮箱chenminchuan109@pingan.com.cn),Ziyang Zhuang(平安科技),Peng Qi(上海交通大学重庆人工智能研究院),Shaojun Wang(平安科技),Jing Xiao(平安科技) 💡 毒舌点评 论文提出的MSCA模块将空间与通道注意力以级联方式组合,思路清晰,实验对比也做得非常全面,几乎把主流GAN声码器都拉来对比了一遍。但整篇论文读下来更像是一个“工程优化报告”,缺乏对“为什么这样组合就有效”的深入理论剖析,消融实验虽多,但对模块内部设计选择(如不同卷积核尺寸、扩张率)的探索不足,创新天花板可见。 🔗 开源详情 代码:论文提供了项目主页链接 https://moonmore.github.io/msca_mrfbd/,其中应包含或链接至代码仓库(论文中未提供具体GitHub链接)。 模型权重:未提及是否公开预训练模型权重。 数据集:使用标准公开数据集LJ Speech和VCTK,未提供自定义数据或处理脚本。 Demo:论文提到“Audio samples are available online”,链接至项目主页,应包含音频样本演示。 复现材料:给出了训练硬件(4×V100 16G)、批次大小(每GPU 16)、迭代次数(200万)、优化器(AdamW,具体超参数)、学习率调度(余弦衰减)等关键信息。 论文中引用的开源项目:引用了并基于以下开源项目进行对比和集成:HiFi-GAN, BigVGAN, Vocos。 其他:论文中未提及更详细的开源计划(如训练配置文件、检查点等)。 📌 核心摘要 问题:基于GAN的神经声码器虽然在推理速度和感知质量间取得了平衡,但仍存在两大问题:合成语音存在相位不一致和伪影,以及常见的信号处理导致的模糊伪影。 方法核心:提出两个新模块:多阶空间通道注意力(MSCA) 和 多分辨率全带鉴别器(MRFBD)。MSCA嵌入生成器,通过多阶空间注意力(使用不同尺度的并行深度卷积)和通道注意力(使用自注意力)来增强声学特征表示。MRFBD作为鉴别器,将幅度谱、实部谱和虚部谱作为多分辨率输入,利用多尺度通道注意力和全局特征提取器来同时捕捉局部频谱细节和全局波形一致性。 新意:MSCA通过“多阶”(低、中、高阶特征)和“空间-通道”两阶段注意力来精炼特征。MRFBD的创新在于联合处理幅度、实部和虚部谱(显式利用相位信息),并结合多分辨率分析和轻量通道注意力来提升鉴别能力。 实验结果:在LJ Speech和VCTK数据集上,将MSCA集成到HiFi-GAN (M-H)、BigVGAN (M-B)和Vocos (M-I)中,与原基线模型相比,在UTMOS、MCD、PESQ等客观指标和MOS主观评分上均有提升。例如,M-B在LJ Speech上MOS达到4.42±0.06(BigVGAN为4.39±0.08),在VCTK上MOS为4.02±0.12(BigVGAN为3.84±0.10)。MRFBD的消融实验表明,同时输入幅度、实部、虚部谱的效果优于只用单一谱。M-I配置在保持低FLOPs(13.46G)的同时,获得了较高的语音质量(MOS 4.30±0.09)。 实际意义:为提升GAN声码器的合成质量,尤其是减少模糊伪影和改善高频细节,提供了有效的模块化改进方案。MSCA和MRFBD可作为即插即用组件,应用于其他GAN声码器。 主要局限性:论文对MSCA和MRFBD内部设计选择(如多阶特征的维度划分、注意力头数等)的探索和分析不够深入;作者与机构信息不全,削弱了研究的可信度和溯源性;未提供模型权重和完整复现代码,降低了开源价值。 🏗️ 模型架构 本文主要改进了两个部分:生成器中的特征提取模块(MSCA) 和 鉴别器(MRFBD)。 ...

2026-04-29 · 更新于 2026-05-20 · 3 min · 487 words

Constraint Optimized Multichannel Mixer-Limiter Design

📄 Constraint Optimized Multichannel Mixer-Limiter Design #多通道 #信号处理 #音频生成 #实时处理 ✅ 7.0/10 | 前25% | #多通道 | #信号处理 | #音频生成 #实时处理 学术质量 7.0/7 | 选题价值 1.5/2 | 复现加成 0 | 置信度 高 👥 作者与机构 第一作者:Yuancheng Luo (Amazon.com) 通讯作者:未说明 作者列表:Yuancheng Luo (Amazon.com), Dmitriy Yamkovoy (Amazon.com), Guillermo Garcia (Amazon.com) 💡 毒舌点评 亮点:将混音和限幅问题统一建模为线性约束二次规划(QP)是一个优雅且理论扎实的框架,特别是提出的“遮挡剔除”约束缩减算法,能有效降低QP求解复杂度,为实时处理提供了理论可能。 短板:实验部分仅使用人工合成的调幅信号进行验证,缺乏真实音乐或语音内容的主观听感评估和客观指标对比(如LUFS、动态范围),结论的工程实践说服力不足。 🔗 开源详情 论文中未提及任何开源计划,未提供代码链接、模型权重、公开数据集或在线Demo。文中引用了OSQP [22] 作为QP求解器的一个参考,但未明确在实验中使用。 📌 核心摘要 问题:在消费级扬声器阵列中,传统的多通道混音器(负责分配动态余量)与限幅器(保护扬声器)是分开设计的,这会导致音频失真、通道平衡破坏和指向性间歇性改变。 方法核心:提出一种耦合设计,将混音与限幅问题表述为一个高效的线性约束二次规划(QP)问题。其目标是在满足每样本混合信号不超阈值的线性约束下,最小化一个基于通道增益衰减的失真目标函数。 新意:与传统解耦方法相比,新方法实现了跨通道、跨时间的联合优化。论文创新了: 设计了一种支持攻击、保持、释放动态的不对称恒定重叠添加(COLA)窗函数,用于构建平滑的增益包络。 推导了可直接用于QP求解的失真目标二次近似函数,并分析了其凸性条件。 提出了“预混缩减变量”和“遮挡剔除缩减约束”两种高效降低QP问题规模的方法,以满足实时性要求。 实验结果:论文使用合成的多频带、多内容调幅信号进行评估。结果显示: 相比单通道限幅器、多频带/多内容限幅器及拼接预混器,完整的耦合混音-限幅器的失真目标值最低(均值0.16±0.18)。 约束缩减算法效果显著,如将6通道输入的约束数量从约1636个(预处理后)平均降至381.5个(非遮挡集),接近凸包支持面的数量(202.8)。 实际意义:为低功耗、资源受限的消费音频设备(如智能音箱、Soundbar)提供了一种在保证响度的同时,能更自适应、更保真地进行多声道混音与保护的算法框架。 主要局限:实验仅限于合成信号,未在真实音频内容上验证其普适性与听感;论文未提供代码或详细实现指南,复现门槛高。 🏗️ 模型架构 本文并非传统的神经网络模型,而是一个基于优化理论的信号处理算法框架。其核心是一个序列化的二次规划(QP)求解器,结合窗函数包络构建模块。 ...

2026-04-29 · 更新于 2026-05-20 · 2 min · 370 words

Diff-vs: Efficient Audio-Aware Diffusion U-Net for Vocals Separation

📄 Diff-vs: Efficient Audio-Aware Diffusion U-Net for Vocals Separation #语音分离 #扩散模型 #U-Net #数据增强 #音频生成 ✅ 7.5/10 | 前25% | #语音分离 | #扩散模型 | #U-Net #数据增强 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Yun-Ning (Amy) Hung (Moises, USA) 通讯作者:未说明 作者列表:Yun-Ning (Amy) Hung (Moises, USA), Richard Vogl (Moises, USA), Filip Korzeniowski (Moises, USA), Igor Pereira (Moises, USA) 💡 毒舌点评 亮点:论文巧妙地将针对图像生成优化的EDM框架“移植”到音频分离,并通过带分离和双路径RoFormer等音乐领域知识进行“魔改”,成功将扩散模型的推理步数压至个位数,在生成式方法中实现了SOTA性能。短板:虽然在自家构建的生成式对比阵营中鹤立鸡群,但一旦面对经过大规模数据洗礼的判别式“怪兽”(如BS-RoFormer),在客观指标上依然力有不逮,生成式范式在音乐分离上的“逆天改命”之路仍需努力。 🔗 开源详情 代码:论文中提及代码仓库链接为 https://github.com/NVlabs/edm/tree/main(此为EDM框架的开源实现,非本文专用代码)。同时提供了本文模型的具体实现链接:https://github.com/amymoises/diffvs.github.io(注:此链接指向项目主页,具体代码需查看)。因此,论文中提及了代码链接。 模型权重:论文提供了音频示例链接 https://amymoises.github.io/diffvs.github.io/,暗示可能提供了预训练模型或演示。根据上下文,提及了模型权重。 数据集:使用了公开数据集MUSDB18-HQ和MoisesDB。论文中提及了数据集及其获取方式(公开基准)。 Demo:提供了音频样本演示链接 https://amymoises.github.io/diffvs.github.io/,是。 复现材料:论文详细说明了训练超参数(学习率、优化器、步数、batch size等)、模型架构细节(通道数、层数、模块配置)、数据增强方法、STFT参数、推理参数(σ范围,ρ,步数)以及训练硬件(单卡H200,时长约1周)。复现信息较为充分。 论文中引用的开源项目:EDM框架 (https://github.com/NVlabs/edm)。 整体开源情况:论文提供了项目主页、模型代码实现链接(指向GitHub)以及演示音频,模型和数据均为公开可用。训练细节描述详尽,具备较高的可复现性。 📌 核心摘要 问题:当前基于生成式扩散模型的音乐源分离方法,在标准客观指标(如SDR)上通常落后于判别式方法,且推理步数多、模型庞大,限制了其实用性。 方法:本文提出Diff-VS,一个基于Elucidated Diffusion Model (EDM)框架的高效音频感知扩散U-Net模型,专门用于人声分离。模型输入为经过特殊归一化的复数频谱图,并采用带分离和双路径RoFormer块改进的U-Net架构。 创新:首次将EDM框架应用于人声分离,实现了少于10步的高效推理;提出针对音乐信号特性的架构改进(如用双路径RoFormer替换像素自注意力);实验证明生成式方法能达到与判别式方法竞争力的客观指标和更优的感知质量。 实验结果:在MUSDB18-HQ数据集上,仅需7步推理的Diff-VS达到了10.12 dB的cSDR,超越了所有已对比的生成式模型(最高为SGMSE的8.63 dB),并接近SCNet-L (10.86 dB) 等顶尖判别式模型。在基于MERT嵌入的感知质量评估中,Diff-VS (MSE=0.083) 优于SCNet-L (0.096) 和SGMSE (0.089)。 实际意义:该工作证明了经过精心设计的生成式模型,可以在保持分离质量(特别是感知质量)的同时,大幅提升推理效率,为生成式方法在音频分离领域的实际应用提供了可能。 主要局限性:在使用更多数据(MoisesDB)训练的最强判别式模型(如BS-RoFormer-12L)面前,客观性能仍有明显差距;模型目前仅针对人声分离,未验证其在多乐器分离任务上的能力;缺乏对生成多样性的讨论和评估。 🏗️ 模型架构 Diff-VS的整体架构基于EDM框架下的改进型DDPM++ U-Net。 ...

2026-04-29 · 更新于 2026-05-20 · 2 min · 380 words

Diffusion Timbre Transfer via Mutual Information Guided Inpainting

📄 Diffusion Timbre Transfer via Mutual Information Guided Inpainting #音乐生成 #音频生成 #扩散模型 #零样本 ✅ 7.5/10 | 前25% | #音乐生成 | #扩散模型 | #音频生成 #零样本 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度 高 👥 作者与机构 第一作者:Ching Ho Lee(Queen Mary University of London) 通讯作者:未说明 作者列表:Ching Ho Lee(Queen Mary University of London)、Javier Nistal(Sony Computer Science Laboratories, Paris, France)、Stefan Lattner(Sony Computer Science Laboratories, Paris, France)、Marco Pasini(Queen Mary University of London;Sony Computer Science Laboratories, Paris, France)、George Fazekas(Queen Mary University of London) 💡 毒舌点评 亮点:该方法巧妙地将“免训练”和“推理时控制”结合,通过互信息分析“外科手术式”地定位音色通道,再用扩散模型的采样特性来“手术”,在保持旋律节奏和改变音色之间找到了一个精巧的平衡点。短板:这种基于统计的通道解缠在实际复杂音频上可能不够完美(论文中k值仍需调优),且极度依赖底层编码器M2L2和扩散模型DaR的特定性质,方法的普适性和鲁棒性有待更广泛验证。 ...

2026-04-29 · 更新于 2026-05-20 · 2 min · 284 words

Disentangling Physiology from Fidelity: Latent-Guided Diffusion Models for Cross-Modal Cardiac Synthesis

📄 Disentangling Physiology from Fidelity: Latent-Guided Diffusion Models for Cross-Modal Cardiac Synthesis #音频生成 #扩散模型 #状态空间模型 #数据增强 #跨模态 ✅ 7.5/10 | 前25% | #音频生成 | #扩散模型 | #状态空间模型 #数据增强 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度 中 👥 作者与机构 第一作者:Chenyang Xu(西安电子科技大学 网络安全学院) 通讯作者:Hao Wang(西安电子科技大学 网络安全学院) 作者列表:Chenyang Xu(西安电子科技大学 网络安全学院)、Siming Li(西安电子科技大学 电信工程学院)、Wensai Xuan(西安电子科技大学 机电工程学院)、Hao Wang(西安电子科技大学 网络安全学院) 💡 毒舌点评 亮点:论文巧妙地将“内容”(生理状态)与“风格”(信号波形)解耦,其潜在空间t-SNE可视化(图4)首次提供了学习到的生理状态分离的直观证据,这是一个令人信服的贡献。短板:方法的有效性高度依赖于配对、同步且状态标注清晰的高质量数据(如Ephnogram),在真实世界更嘈杂、异构的临床数据中的泛化能力存疑,而论文未对此进行任何讨论或验证。 🔗 开源详情 代码:论文中未提及代码链接或开源计划。 模型权重:未提及公开权重。 数据集:论文使用了公开的Ephnogram数据集,但未提供获取链接或具体说明。 Demo:未提及。 复现材料:论文提供了较为详细的训练超参数(学习率、批大小、优化器、轮数)、模型结构(维度、层数)、损失函数公式及β值选择过程,这有助于复现。但未提供配置文件、训练脚本或预训练检查点。 论文中引用的开源项目:未在文中明确列出依赖的开源工具。架构中引用了Mamba[9]、AdaLN[21]等技术,但未指明是否使用了其官方开源实现。 📌 核心摘要 要解决的问题:心电图(ECG)与心音图(PCG)的跨模态合成对于综合心血管评估至关重要,但面临长程依赖建模和保持临床保真度的挑战。 方法核心:提出Mamba-Diff-VAE两阶段框架。第一阶段,共享的Mamba-VAE编码器将输入信号编码到一个捕获核心生理内容的结构化共享潜在空间。第二阶段,条件Mamba扩散解码器在潜在代码和元数据(如生理状态)的引导下,生成高保真的目标波形。 与已有方法相比新在哪里:不同于直接端到端的条件扩散模型,该工作明确将“内容表示”与“波形生成”解耦。使用Mamba替代Transformer处理长序列,具有线性复杂度优势。并且首次实证了学习到的潜在空间能有意义地区分生理状态(如静息与运动后)。 主要实验结果:在Ephnogram数据集上,该方法在ECG-to-PCG和PCG-to-ECG双向合成任务上均取得SOTA。与最强基线SSSM-Diff相比,在ECG-to-PCG任务上MSE降低40%(0.149 vs 0.089),相关性提高13%(0.745 vs 0.847);在PCG-to-ECG任务上MSE降低35%(0.173 vs 0.112)。消融研究(表2)证实了VAE组件和共享编码器的关键作用。 实际意义:该框架可用于生成高质量的合成心脏信号进行数据增强,提升下游诊断模型性能;其结构化潜在空间为心脏生理状态建模和潜在生物标志物发现提供了新途径。 主要局限性:研究仅基于一个公开数据集(Ephnogram)和健康/运动状态,未在病理数据集上验证泛化性;潜在空间分析主要停留在t-SNE可视化层面;推理过程未针对临床实时性进行优化。 🏗️ 模型架构 论文提出的Mamba-Diff-VAE是一个两阶段生成框架,旨在实现ECG和PCG信号的双向合成。其整体架构如图1所示。 ...

2026-04-29 · 更新于 2026-05-20 · 2 min · 313 words

Diverse and Few-Step Audio Captioning via Flow Matching

📄 Diverse and Few-Step Audio Captioning via Flow Matching #音频字幕生成 #流匹配 #音频生成 #高效生成 #可控生成 ✅ 6.5/10 | 前50% | #音频字幕生成 | #流匹配 | #音频生成 #高效生成 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 -0.5 | 置信度 中 👥 作者与机构 第一作者:未说明(论文仅列出作者姓名,未明确标注第一作者) 通讯作者:未说明 作者列表:Naoaki Fujita(Panasonic Holdings Corporation, Osaka, Japan)、Hiroki Nakamura(Panasonic Holdings Corporation, Osaka, Japan)、Kosuke Itakura(Panasonic Holdings Corporation, Osaka, Japan) 💡 毒舌点评 亮点:首次将流匹配(Flow Matching)引入自动音频字幕生成,实验证明其在大幅减少采样步数(最高25倍)的同时,能保持甚至超越扩散基线的准确性和多样性,效率提升显著。 短板:研究局限于替换生成过程的“最后一公里”,模型架构(BART解码器、BEATs编码器)直接沿用前人工作;更关键的是,论文未开源代码与模型,且未提供训练硬件与时间,严重削弱了其实用价值和可复现性。 🔗 开源详情 代码:论文中未提及代码链接。 模型权重:未提及。 数据集:使用的是公开数据集Clotho和AudioCaps,但论文未说明其具体获取或预处理方式。 Demo:未提及。 复现材料:提供了算法伪代码(Algorithm 1, 2)和主要训练超参数(优化器、学习率、batch size等)。但缺失模型架构细节(如层数、维度)、硬件信息、完整配置文件。 论文中引用的开源项目:使用了预训练的 BEATs [22] 音频编码器和 BART [12] 语言解码器。评估工具使用了 aac-metrics 库。 总结:论文中未提及开源计划。 📌 核心摘要 要解决的问题:现有的基于扩散模型的多样化音频字幕生成方法,因需要数百步迭代去噪而导致推理计算成本高、速度慢,难以满足实时或大规模处理需求。减少步数则会显著损害生成质量。 方法核心:提出首个基于流匹配的音频字幕生成框架(FAC),直接预测从噪声到字幕表示的确定性、线性传输路径,从而用少量采样步数完成生成。 与已有方法相比新在哪里:完全用流匹配替代了扩散过程。与基于迭代去噪的扩散模型不同,流匹配学习的是近乎直线的概率路径,使得生成过程更高效、稳定。 主要实验结果:在Clotho和AudioCaps数据集上,FAC在30步甚至10步采样下的准确性和多样性指标,与扩散基线(250步)相当或更优。例如,在Clotho上,10步FAC的SPIDEr(0.257)优于250步基线(0.247)。推理时间从每样本2.28秒(250步)降至0.19秒(10步),提速约12倍。通过调节训练时的噪声尺度σ,可以在不增加推理成本的情况下控制生成多样性。 实际意义:为高效、可控的多样化音频字幕生成提供了新方案,降低了流式或实时应用中的延迟和计算开销。 主要局限性:未开源代码和模型;未报告训练硬件与时间;作为首个应用,流匹配在音频字幕任务上的潜力和边界有待进一步探索;实验主要聚焦于生成过程,未改进音频编码器和语言解码器本身。 🏗️ 模型架构 FAC的整体架构遵循DAC-RLD流水线,如图1所示。其核心是用一个流匹配模块替代了原有的扩散去噪模块。 ...

2026-04-29 · 更新于 2026-05-20 · 2 min · 361 words