Noise-to-Notes: Diffusion-Based Generation and Refinement for Automatic Drum Transcription

📄 Noise-to-Notes: Diffusion-Based Generation and Refinement for Automatic Drum Transcription #音乐信息检索 #扩散模型 #生成模型 #鲁棒性 🔥 8.0/10 | 前10% | #音乐信息检索 | #扩散模型 | #生成模型 #鲁棒性 学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度 高 👥 作者与机构 第一作者:未说明(论文未明确标注) 通讯作者:未说明(论文未明确标注) 作者列表:Michael Yeung(Sony Group Corporation, Tokyo, Japan)、Keisuke Toyama(Sony Group Corporation, Tokyo, Japan)、Toya Teramoto(Sony Group Corporation, Tokyo, Japan)、Shusuke Takahashi(Sony Group Corporation, Tokyo, Japan)、Tamaki Kojima(Sony Group Corporation, Tokyo, Japan) 💡 毒舌点评 亮点:首次将扩散模型作为生成范式应用于自动鼓转录(ADT),不仅在多个基准测试上超越了所有判别模型,还展示了在音频部分缺失情况下的“修复”能力,这在ADT乃至更广的音乐转录领域都是新颖的。 短板:论文的核心卖点是“生成模型超越判别模型”,但作为生成模型的代价是推理速度显著慢于同等性能的判别模型(例如,单步推理0.163s vs. 0.086s),这使得其在实时或低延迟应用场景中的实用性大打折扣。 ...

2026-04-29 · 更新于 2026-05-20 · 2 min · 366 words

PG-SE: Predictive Acceleration and Correction for Generative Speech Enhancement

📄 PG-SE: Predictive Acceleration and Correction for Generative Speech Enhancement #语音增强 #扩散模型 #生成模型 #预测模型 #语音增强的加速推理 ✅ 7.5/10 | 前25% | #语音增强 | #扩散模型 | #生成模型 #预测模型 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度 高 👥 作者与机构 第一作者:Yikai Huang(清华大学深圳国际研究生院) 通讯作者:Zhiyong Wu(清华大学深圳国际研究生院),Shiyin Kang(商汤科技) 作者列表:Yikai Huang(清华大学深圳国际研究生院)、Jinjiang Liu(清华大学深圳国际研究生院)、Zijian Lin(清华大学深圳国际研究生院)、Xiang Li(清华大学深圳国际研究生院)、Renjie Yu(清华大学深圳国际研究生院)、Zhiyong Wu(清华大学深圳国际研究生院)、Shiyin Kang(商汤科技) 💡 毒舌点评 亮点在于“前后夹击”的架构设计非常巧妙:用前级预测模型为扩散过程提供高质量起点以大幅压缩采样步数,再用后级预测校正器修复加速带来的瑕疵,形成一个闭环。短板是其实验仅在一个广泛使用的合成数据集(VB-DMD)上完成,缺乏在真实复杂声学环境或不同语言上的验证,其通用性和实际部署效果仍需进一步证明。 🔗 开源详情 代码:论文中未提及代码链接。 模型权重:论文中未提及公开模型权重。 数据集:使用公开的VB-DMD数据集,但论文中未说明获取方式,需读者自行查找。 Demo:论文中未提供在线演示。 复现材料:提供了部分训练细节(优化器、学习率、批大小、训练轮数)、SDE超参数和网络架构(NCSN++),但缺失硬件信息、音频预处理参数、校正器独立损失细节等关键信息。 引用的开源项目:论文中未提及具体引用的开源代码库,其基础模型(如NCSN++)来自已发表的论文。 总结:论文中未提及开源计划。 📌 核心摘要 问题:基于扩散模型的语音增强方法虽然能生成细节丰富的语音,但面临两大挑战:一是噪声抑制能力通常弱于预测(判别式)模型;二是逆采样过程需要大量的神经函数评估(NFEs),导致计算成本高,难以满足低延迟部署需求。 方法核心:提出PG-SE框架,在扩散推理的前后阶段分别引入预测模型。前级预测模型(先验估计器)生成粗略估计,并将其扩散到一个浅时间步作为逆过程的起点,从而大幅减少所需采样步数。后级预测模型(校正器)则以原始含噪语音和扩散生成结果为条件,对输出进行细化,以抑制残余噪声和生成伪影。 创新点:相比于将预测目标与扩散目标紧密耦合(如CRP),本方法将预测组件解耦为独立的预处理和后处理模块,分别专注于加速和细化,提供了更灵活的优化空间。创新还包括基于KL散度分析来启发式地选择最优的浅层起始时间步。 主要实验结果:在VB-DMD数据集上,PG-SE仅需5个NFEs(对比全步骤方法需30+ NFEs),在PESQ、ESTOI、SI-SDR等多项指标上超越了全步骤的SGMSE+、同等NFEs的FlowSE和CRP等SOTA基线。例如,PESQ分数达到3.40,高于FlowSE(3.09)和CRP(3.06)。消融实验显示,去掉校正器后性能仍有竞争力,证明了前级加速的有效性。 实际意义:该框架为平衡生成式语音增强的性能和效率提供了一个有效范式,通过将推理NFEs减少80%以上,使其更适用于实时或低延迟的应用场景。 主要局限性:实验仅在单一基准数据集上进行,未在真实世界噪声或复杂场景中验证其鲁棒性;论文未提供代码和模型,复现性依赖读者自行实现;此外,性能提升幅度在某些指标上相对有限(如SI-SDR提升0.2dB),且校正器引入了额外的推理计算(尽管NFEs总计仍很低)。 🏗️ 模型架构 PG-SE的整体架构是一个三阶段的流水线,如图1所示。以下是结合图示的详细描述: ...

2026-04-29 · 更新于 2026-05-20 · 2 min · 407 words

PICOAUDIO2: Temporal Controllable Text-to-Audio Generation with Natural Language Description

📄 PICOAUDIO2: Temporal Controllable Text-to-Audio Generation with Natural Language Description #音频生成 #扩散模型 #文本到音频 #时间控制 ✅ 7.5/10 | 前25% | #音频生成 | #扩散模型 | #文本到音频 #时间控制 学术质量 6.0/7 | 选题价值 1.0/2 | 复现加成 0.5 | 置信度 中 👥 作者与机构 第一作者:Zihao Zheng†(†标注表明该作者贡献部分在实习期间完成,其正式单位为上海交通大学MoE人工智能重点实验室X-LANCE实验室和上海AI实验室) 通讯作者:Mengyue Wu(上海交通大学MoE人工智能重点实验室X-LANCE实验室) 作者列表:Zihao Zheng(上海交通大学X-LANCE实验室 & 上海AI实验室)、Zeyu Xie(未说明具体单位,但根据作者排序和实验室隶属,推测可能同属X-LANCE或上海AI实验室)、Xuenan Xu(上海交通大学X-LANCE实验室 & 上海AI实验室)、Wen Wu(上海AI实验室)、Chao Zhang(上海AI实验室)、Mengyue Wu(上海交通大学X-LANCE实验室) 💡 毒舌点评 亮点:论文在数据处理上“两条腿走路”,既用LLM增强仿真数据的自然性,又用TAG模型从真实数据中挖掘时间信息,这种务实的混合训练策略有效弥合了合成与真实数据的鸿沟。短板:虽然声称在时序控制上达到SOTA,但核心生成骨架(DiT)是沿用已有工作(EzAudio),而时间戳矩阵的概念也源自其前身PicoAudio,因此“新瓶装旧酒”的成分略重,原创性打了点折扣。 📌 核心摘要 PicoAudio2旨在解决当前可控文本到音频(TTA)生成模型在音频质量(常依赖合成数据)和控制灵活性(受限于固定词汇)方面的不足。该方法的核心是提出一套结合仿真数据和真实数据(通过LLM和TAG模型标注时间)的混合数据处理流程,并设计了一个新颖的生成框架,该框架同时处理粗粒度的自然语言描述(TCC)和细粒度的、包含具体事件描述及时间戳的矩阵(TDC)。与现有方法相比,PicoAudio2首次实现了对开放域自由文本事件的细粒度时间控制,同时保持了高质量音频生成。实验证明,PicoAudio2在时间可控性(Segment-F1达0.857,多事件F1达0.771)和音频质量(IS达12.347,CLAP达0.383)上均优于AudioComposer、MAA2等基线,尤其在多事件时间对齐任务上表现突出。其实际意义在于为音视频内容创作、虚拟现实等需要精确音频时序编排的场景提供了更强大的工具。主要局限在于当前模型主要在时间上不重叠的真实数据子集上训练,因此对事件重叠场景的时间控制能力有限,这也是作者指出的未来工作方向。 🏗️ 模型架构 PicoAudio2的整体架构(如图2所示)基于扩散Transformer(DiT),旨在将文本语义和细粒度的时间控制信息融合,生成高质量的音频。 完整输入输出流程: 训练阶段:输入为音频波形、时间粗描述(TCC,如“a dog barks and a man speaks”)和时间细描述(TDC,包含事件描述和时间戳,如“dog barking at 1-3s, man speaking at 5-7s”)。音频经VAE编码为潜变量A;TCC经冻结的Flan-T5文本编码器得到语义特征C;TDC经时间戳编码器得到时间戳矩阵T。三者输入扩散骨干网络进行训练。 推理阶段:用户可提供TCC或TDC。若只提供TCC,系统会通过一个外部的LLM将其转化为TDC(如图3所示)。之后流程与训练类似:C来自TCC,T来自TDC(若无TDC,则T使用一个固定的嵌入序列)。模型通过扩散过程从噪声生成音频潜变量A,再经VAE解码为波形。 ...

2026-04-29 · 更新于 2026-05-20 · 2 min · 238 words

PRoADS: Provably Secure And Robust Audio Diffusion Steganography With Latent Optimization And Backward Euler Inversion

📄 PRoADS: Provably Secure And Robust Audio Diffusion Steganography With Latent Optimization And Backward Euler Inversion #音频安全 #扩散模型 #音频生成 ✅ 6.5/10 | 前50% | #音频安全 | #扩散模型 | #音频生成 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 -0.5 | 置信度 高 👥 作者与机构 第一作者:Yongpeng Yan(武汉大学国家网络安全学院) 通讯作者:Yanzhen Ren(武汉大学国家网络安全学院) 作者列表:Yongpeng Yan(武汉大学国家网络安全学院),Yanan Li(武汉大学国家网络安全学院),Qiyang Xiao(武汉大学国家网络安全学院),Yanzhen Ren(武汉大学国家网络安全学院,武汉大学航空航天信息安全与可信计算教育部重点实验室) 💡 毒舌点评 亮点: 本文精准地抓住了“初始噪声嵌入式”扩散隐写方法在逆向提取时的痛点——重建误差,并针对性地提出了“潜在空间优化”和“后向欧拉反演”两个技术改进,实验结果也清晰地证明了其有效性(BER显著降低),是一篇问题导向明确、解决方案扎实的改进型工作。 短板: 论文最大的软肋在于其核心实验基础——EzAudio模型——的复现信息几乎完全缺失,且未开源任何代码,这使得其宣称的“可复现”和“高效”大打折扣;同时,提取过程的高计算开销(106秒 vs 6.8秒)限制了其实时应用场景,论文对此的讨论也较为轻描淡写。 🔗 开源详情 代码:论文中未提及代码链接。 模型权重:未提及公开PRoADS模型的权重。实验使用的是预训练的EzAudio模型,但论文未给出其具体获取方式或版本。 数据集:使用了公开的AudioCaps数据集,但未说明具体版本和使用方式。 Demo:未提供在线演示。 复现材料:未提供训练细节(本方法无需训练)、配置文件、检查点或附录说明。复现依赖于对论文算法描述的理解和对EzAudio模型的自行配置。 论文中引用的开源项目:明确依赖于EzAudio [7] 音频扩散模型进行实验。其他基线方法(如GSD, DiffStega, Gaussian Shading)也多为已发表的工作,但本文未提供其代码链接。 📌 核心摘要 本文旨在解决基于扩散模型的生成式音频隐写术中,由于扩散模型逆向过程误差导致的秘密消息提取比特错误率(BER)过高的问题。其核心方法是提出PRoADS框架,通过正交矩阵投影将消息嵌入扩散模型初始噪声,并引入两项关键技术来最小化逆向误差:一是在编码器将隐写音频转为潜在表示后,进行潜在空间梯度优化以逼近原始潜在变量;二是采用更精确的后向欧拉迭代法替代朴素的DDIM反演来求解扩散逆过程。与现有方法(如Hu[17])相比,本文的主要新意在于同时从“潜在变量重构”和“扩散逆过程求解”两个层面减少误差。实验表明,在EzAudio模型上,PRoADS在64 kbps MP3压缩攻击下实现了0.15%的低BER,相比基线方法有显著提升(例如在DPMSolver下,较Hu[17]降低约0.5%)。该工作的实际意义在于为生成式音频隐写提供了更高鲁棒性的解决方案,主要局限性是提取过程计算开销大(106秒),且未提供开源代码和详细模型参数,限制了复现与应用。 ...

2026-04-29 · 更新于 2026-05-20 · 2 min · 239 words

PromptSep: Generative Audio Separation Via Multimodal Prompting

📄 PromptSep: Generative Audio Separation Via Multimodal Prompting #语音分离 #扩散模型 #数据增强 #多模态模型 ✅ 7.5/10 | 前10% | #语音分离 | #扩散模型 | #数据增强 #多模态模型 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度 高 👥 作者与机构 第一作者:Yutong Wen (Adobe Research & University of Illinois Urbana-Champaign) 通讯作者:未明确说明 作者列表:Yutong Wen (Adobe Research & University of Illinois Urbana-Champaign), Ke Chen (Adobe Research), Prem Seetharaman (Adobe Research), Oriol Nieto (Adobe Research), Jiaqi Su (Adobe Research), Rithesh Kumar (Adobe Research), Minje Kim (University of Illinois Urbana-Champaign), Paris Smaragdis (MIT), Zeyu Jin (Adobe Research), Justin Salamon (Adobe Research) 💡 毒舌点评 亮点: 创新性地将“声音移除”与“声乐模仿”整合进统一框架,直击现有LASS系统的两大软肋,实验设计(多基准、多设置、消融研究)堪称全面典范。短板: 训练过程的“黑盒”化严重,关键优化超参数、硬件配置等细节缺失,使得其强大的结果难以被独立复现验证,削弱了学术贡献的坚实性。 ...

2026-04-29 · 更新于 2026-05-20 · 2 min · 381 words

RAP: Real-Time Audio-Driven Portrait Animation with Video Diffusion Transformer

📄 RAP: Real-Time Audio-Driven Portrait Animation with Video Diffusion Transformer #音视频 #扩散模型 #流匹配 #DiT ✅ 7.0/10 | 前25% | #音视频 | #扩散模型 | #流匹配 #DiT 学术质量 4.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Fangyu Du (Soul AI, Xi’an Jiaotong University), Taiqing Li (Soul AI, Dalian University of Technology) (论文标注为共同第一作者) 通讯作者:Shunshun Yin (Soul AI), Siyuan Liu (Soul AI) (论文标注为共同通讯作者,且Siyuan Liu为项目负责人) 作者列表:Fangyu Du (Soul AI, Xi’an Jiaotong University), Taiqing Li (Soul AI, Dalian University of Technology), Qian Qiao (Soul AI), Tan Yu (Soul AI), Dingcheng Zhen (Soul AI), Ziwei Zhang (Soul AI), Xu Jia (Dalian University of Technology), Yang Yang (Xi’an Jiaotong University), Shunshun Yin (Soul AI), Siyuan Liu (Soul AI) 💡 毒舌点评 这篇论文在“实时”这个硬约束下,非常工程化地解决了高压缩潜在空间中的唇形同步和长视频生成漂移这两个核心痛点,展现了不错的系统设计能力。但其核心创新(混合注意力和训练策略)更多是针对特定问题的有效工程组合,而非开辟新范式;此外,虽然强调实时,但高压缩率(LTX-VAE)对图像纹理细节的潜在损失并未被深入讨论,这可能是其实时性与质量权衡中一个未被充分审视的代价。 ...

2026-04-29 · 更新于 2026-05-20 · 3 min · 454 words

RFM-Editing: Rectified Flow Matching for Text-Guided Audio Editing

📄 RFM-Editing: Rectified Flow Matching for Text-Guided Audio Editing #音频编辑 #流匹配 #扩散模型 #数据集 #零样本 ✅ 7.5/10 | 前25% | #音频编辑 | #流匹配 | #扩散模型 #数据集 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Liting Gao(英国萨里大学视觉、语音与信号处理中心) 通讯作者:未说明 作者列表:Liting Gao(英国萨里大学视觉、语音与信号处理中心),Yi Yuan(英国萨里大学视觉、语音与信号处理中心),Yaru Chen(英国萨里大学视觉、语音与信号处理中心),Yuelan Cheng(英国萨里大学视觉、语音与信号处理中心),Zhenbo Li(中国农业大学信息与电气工程学院),Juan Wen(中国农业大学信息与电气工程学院),Shubin Zhang(中国海洋大学水产学院),Wenwu Wang(英国萨里大学视觉、语音与信号处理中心) 💡 毒舌点评 亮点:论文巧妙地利用Rectified Flow Matching的确定性ODE过程,将音频编辑重新定义为学习从噪声到目标音频的“速度场”,并通过对原始音频潜变量的拼接作为条件,实现了一个优雅的、端到端且无需掩码的训练范式。短板:虽然整体表现均衡,但在衡量编辑忠实度的关键指标CLAP分数上,训练完整数据集的RFM-Editingfull(0.4398)仍略低于需要复杂优化的AudioEditor(0.4579),显示出其“效率换精度”的妥协,且编辑时间并非最快。 🔗 开源详情 代码:论文中提及了项目主页(https://katelin-glt.github.io/RFM-Editing-Demo/),但未明确说明是否提供代码仓库链接。推测可能为Demo页面,代码未提及是否开源。 模型权重:论文中未提及是否公开模型权重。 数据集:论文明确构造了新的音频编辑数据集,并提供了规模和构成细节,但未说明数据集是否已公开或如何获取。 Demo:项目主页可能包含在线演示(从链接名称推断),但论文正文未明确描述。 复现材料:论文详细说明了训练数据构建、训练超参数(学习率、epoch数)、模型架构组件(Flan-T5+LoRA, U-Net, VAE, BigVGAN)和评估指标,提供了较好的复现基础。 论文中引用的开源项目:Flan-T5, LoRA, BigVGAN声码器, AudioLDM, CLAP, PANNs, VGGish。 📌 核心摘要 要解决什么问题:现有的文本引导音频编辑方法要么依赖昂贵的训练时优化(如null-text optimization),要么需要完整的目标描述文本或人工掩码,在复杂重叠声音场景下编辑效果不佳且实用性受限。 方法核心是什么:提出RFM-Editing,一个基于Rectified Flow Matching(RFM)的端到端音频编辑框架。其核心是训练一个U-Net来学习从含噪潜变量指向目标音频潜变量的“速度场”,并以原始音频的潜变量和文本指令为条件,从而直接学习编辑区域,无需显式掩码。 与已有方法相比新在哪里:首次将RFM范式应用于指令引导的音频编辑;实现了纯指令驱动的端到端训练,摒弃了对完整描述或掩码的依赖;同时构建了一个包含复杂重叠声音事件的新音频编辑数据集用于训练和评测。 主要实验结果如何:在自建数据集上,RFM-Editingfull在FD(13.27)和KL(2.77)指标上优于所有基线,表明其分布一致性更好;在CLAP分数(0.4398)上优于AUDIT(0.1113)和Zero-Shot(0.4333),但略低于AudioEditor(0.4579)。编辑速度(约11秒/音频)远快于AudioEditor(约102秒)。 实际意义是什么:提供了一种更高效、更实用的音频编辑方案,用户只需给出简单的编辑指令(如“移除警报声”),无需专业知识或复杂标注,即可完成高质量的音频内容修改,在内容创作和后期制作中有直接应用价值。 主要局限性是什么:在最高精度的CLAP分数上尚未超越最优的免训练方法;新构建的数据集规模虽大但基于AudioCaps2合成,可能与真实世界复杂音频分布存在差距;论文未明确提供代码和模型权重的开源链接。 🏗️ 模型架构 RFM-Editing的完整架构如图1所示,是一个基于潜在扩散模型(LDM)的端到端框架,主要包含以下组件: ...

2026-04-29 · 更新于 2026-05-20 · 2 min · 284 words

S-PRESSO: Ultra Low Bitrate Sound Effect Compression with Diffusion Autoencoders and Offline Quantization

📄 S-PRESSO: Ultra Low Bitrate Sound Effect Compression with Diffusion Autoencoders and Offline Quantization #音频生成 #扩散模型 #量化 #模型比较 ✅ 7.5/10 | 前25% | #音频生成 | #扩散模型 | #量化 #模型比较 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Zineb Lahrichi(Sony AI, LTCI, T´el´ecom Paris, Institut Polytechnique de Paris) 通讯作者:未说明 作者列表:Zineb Lahrichi(Sony AI, LTCI, T´el´ecom Paris, Institut Polytechnique de Paris)、Ga¨etan Hadjeres(Sony AI)、Ga¨el Richard(LTCI, T´el´ecom Paris, Institut Polytechnique de Paris)、Geoffroy Peeters(LTCI, T´el´ecom Paris, Institut Polytechnique de Paris) 💡 毒舌点评 S-PRESSO巧妙地将扩散先验与离线量化结合,在0.096kbps下实现了惊人的音效重建质量,超越了现有连续和离散方法。但其创新本质是工程优化而非理论突破,且当前版本仅限于5秒音效、推理缓慢,离实用还有距离。 ...

2026-04-29 · 更新于 2026-05-20 · 2 min · 410 words

SAGA-SR: Semantically and Acoustically Guided Audio Super-Resolution

📄 SAGA-SR: Semantically and Acoustically Guided Audio Super-Resolution #音频增强 #扩散模型 #流匹配 #生成模型 ✅ 7.5/10 | 前25% | #音频增强 | #扩散模型 | #流匹配 #生成模型 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 中 👥 作者与机构 第一作者:Jaekwon Im(KAIST 文化技术研究生院) 通讯作者:未说明 作者列表:Jaekwon Im(KAIST 文化技术研究生院)、Juhan Nam(KAIST 文化技术研究生院) 💡 毒舌点评 这篇论文的亮点在于巧妙地将文本语义信息和频谱滚降这一物理特征结合,作为扩散模型的双重引导,有效解决了通用音频超分辨率中“对齐差”和“高频能量不稳定”这两大痛点。不过,论文在训练硬件、具体模型参数量等复现关键信息上完全缺失,对于想复现其成果的同行来说,这无异于只给了地图却没标比例尺,实用性打了折扣。 🔗 开源详情 代码:论文中提供了代码和示例的链接:http://jakeoneijk.github.io/saga-sr-project。 模型权重:论文中未明确提及是否公开预训练模型权重。 数据集:论文使用的训练数据集(FreeSound, MedleyDB等)均为公开数据集,但论文未说明具体如何组合和预处理。测试集(VCTK, FMA-small, ESC50)也是公开数据集。 Demo:项目主页链接可能包含声音示例(论文中提及“Sound examples…are available online”),但论文内未直接给出在线演示链接。 复现材料:论文提供了详细的训练超参数(学习率、batch size、优化器、步数、调度器参数等)、数据预处理方法(滤波器类型、截止频率范围)和推理设置(采样步数、引导尺度)。但未提供模型结构细节(如DiT具体配置)、训练硬件信息、检查点文件或完整的训练配置代码。 论文中引用的开源项目:依赖预训练的VAE(来自[12] Stable Audio Open)、Qwen2-Audio(用于音频字幕生成)、T5-base(文本编码器)、librosa(频谱滚降计算)以及参考了AudioSR、FlashSR等工作的代码实现(用于对比)。 📌 核心摘要 问题:现有的通用音频超分辨率方法(如AudioSR、FlashSR)在重建高频时,常出现语义不匹配(如生成不自然的齿音)和高频能量分布不一致的问题。 方法核心:提出SAGA-SR模型,基于DiT(Diffusion Transformer)架构和流匹配(Flow Matching)目标进行训练。其核心创新在于引入了双重条件引导:(1)由音频生成的文本描述提供的语义嵌入;(2)由输入和目标音频的频谱滚降频率提供的声学嵌入。 新颖之处:首次在音频超分辨率任务中系统性地引入了基于文本的语义引导,解决了现有方法生成音频语义失真的问题;同时,引入了频谱滚降这一可量化的声学特征,为模型提供了明确的高频能量分布指导,并允许用户在推理时通过单一标量控制输出音频的高频能量。 主要结果:在语音、音乐、音效三个领域的测试中,SAGA-SR在所有客观指标(LSD、FD)和主观评估分数上均优于AudioSR和FlashSR。例如,在主观评估中,SAGA-SR在音效任务上得分3.88,显著高于FlashSR的3.34。消融实验证实了文本嵌入和频谱滚降嵌入的有效性。 实际意义:SAGA-SR提供了一个能够处理任意输入采样率(4-32 kHz)并统一上采样到44.1 kHz的通用音频增强工具,其可控的高频能量生成特性使其在音频修复、后期制作等场景中具有应用潜力。 主要局限性:模型对于包含多个重叠声源的复杂音频的处理能力有限;后处理中的低频替换操作可能引入频段间的不自然连接。 🏗️ 模型架构 SAGA-SR的整体架构(图1)是一个以条件DiT为核心的生成模型,包含以下流程: ...

2026-04-29 · 更新于 2026-05-20 · 2 min · 339 words

Savgbench: Benchmarking Spatially Aligned Audio-Video Generation

📄 Savgbench: Benchmarking Spatially Aligned Audio-Video Generation #基准测试 #跨模态 #扩散模型 #空间音频 ✅ 7.5/10 | 前50% | #基准测试 | #扩散模型 | #跨模态 #空间音频 学术质量 5.0/7 | 选题价值 1.5/2 | 复现加成 1.0 | 置信度 高 👥 作者与机构 第一作者:Kazuki Shimada(Sony AI) 通讯作者:未说明 作者列表:Kazuki Shimada(Sony AI)、Christian Simon(Sony Group Corporation)、Takashi Shibuya(Sony AI)、Shusuke Takahashi(Sony Group Corporation)、Yuki Mitsufuji(Sony AI, Sony Group Corporation) 💡 毒舌点评 亮点:该研究精准地切中了多模态生成中一个关键但常被忽视的维度——空间对齐,并为之提供了从数据、指标到基准的完整评测工具链,堪称“多模态生成评测”方向的一次高质量“基建”工作。短板:作为一篇“Benchmarking”论文,它提出并评估的基线方法(联合扩散模型与两阶段方法)本身在架构上较为基础,未能展现更先进的生成模型技术,这使得基准的“天花板”略显不足,也削弱了对新方法吸引力的论证力度。 🔗 开源详情 代码:提供了代码仓库链接:https://github.com/SonyResearch/SAVGBench。 模型权重:论文中未提及公开预训练模型权重。 数据集:已公开,可通过Zenodo获取:https://zenodo.org/records/17139882。 Demo:论文中未提及在线演示。 复现材料:提供了代码仓库,包含了数据集处理、模型训练和评估的脚本与配置。论文中承诺更多实现细节(如学习率)可在GitHub中找到。 论文中引用的开源项目: 数据集处理:py360convert(用于视角转换)。 目标检测:YOLOX。 视频生成基线:MM-Diffusion。 音视频生成基线:MMAudio。 视频-音频同步特征提取:Synchformer。 视觉特征提取:CLIP。 扩散模型:Guided Diffusion(用于超分辨率模型初始化),DDPM,DPM-Solver。 论文中未提及开源计划:模型权重、在线Demo。 📌 核心摘要 要解决什么问题:现有的视频生成模型大多忽略了生成的音频与视频之间的空间对齐(例如,声音的方向应与画面中发声物体的位置匹配),这限制了沉浸式体验。目前缺乏针对这一任务的标准评测基准。 方法核心是什么:提出一个名为SAVGBench的新基准,包含两个核心部分:(1) 一个精心筛选的音视频数据集,其中音频和视频根据发声事件是否在画面内进行策展;(2) 一个新的评估指标“Spatial AV-Align”,它利用目标检测和声音事件定位与检测模型,无需真实音频即可评估生成音视频的空间对齐度。 与已有方法相比新在哪里:这是第一个专门针对“空间对齐音视频生成”任务建立的系统性基准。以往研究要么关注非空间化的音频生成,要么评估需要真实音频作为参考,而本文提出的指标适用于两者均为生成的场景。 主要实验结果如何:论文对比了联合生成方法(Stereo MM-Diffusion)和两阶段方法(Video Diffusion + Stereo MMAudio)。客观与主观评估均表明,联合方法在空间对齐上优于两阶段方法,但两者与真实数据(Ground Truth)在视频/音频质量及空间对齐度上仍存在显著差距。关键数据见下表: 方法 FVD ↓ KVD ↓ FAD ↓ 时间对齐 ↑ 空间对齐 (Spatial AV-Align) ↑ Ground Truth 689.35 29.22 5.77 0.89 0.92 联合方法 (Stereo MM-Diff.) 1265.91 66.35 12.53 0.72 0.51 两阶段方法 (Video Diff. + Stereo MMAudio) 1386.53 71.82 12.00 0.78 0.35 实际意义是什么:为音视频生成研究,特别是追求沉浸感的VR/AR应用,提供了一个明确的评估框架和研究方向,鼓励社区关注并提升生成内容的空间一致性。 主要局限性是什么:数据集源自单一场景(室内、特定人物和乐器),规模和多样性有限;基线方法相对简单,未与更先进的单模态或多模态生成模型进行对比;评估仅限于立体声,未扩展至更高阶的空间音频格式。 🏗️ 模型架构 本文的核心贡献并非提出新的生成架构,而是建立基准。因此,其“模型架构”部分主要描述了用于基线对比的两种方法: ...

2026-04-29 · 更新于 2026-05-20 · 2 min · 216 words