FoleyBench: A Benchmark for Video-to-Audio Models

📄 FoleyBench: A Benchmark for Video-to-Audio Models #音频生成 #基准测试 #音视频 #多模态模型 ✅ 7.5/10 | 前25% | #音频生成 | #基准测试 | #音视频 #多模态模型 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Satvik Dixit(Carnegie Mellon University) 通讯作者:未说明 作者列表:Satvik Dixit (Carnegie Mellon University), Koichi Saito (Sony AI), Zhi Zhong (Sony AI), Yuki Mitsufuji (Sony AI, Sony Group Corporation), Chris Donahue (Carnegie Mellon University) 💡 毒舌点评 论文精准地指出了现有V2A评估基准(如VGGSound)在Foley场景下的核心缺陷(74%样本音画对应差),并针对性地提出了首个专用基准,分析深入且实用。然而,其数据集构建管道严重依赖商业模型(Gemini 2.5 Pro)进行质量过滤,这不仅增加了复现成本,也使得“可扩展自动化”的宣称打了一定折扣。 🔗 开源详情 代码:论文中未提及公开的代码仓库链接(如用于数据集构建的管道代码)。 模型权重:未提及。本文是基准论文,不提出自有模型。 数据集:论文提供了数据集样本网站(https://gclef-cmu.org/foleybench),并描述了数据来源和构建方法,但未明确说明完整数据集是否公开下载及具体获取方式。 Demo:未提及。 复现材料:论文详细描述了数据集构建的多阶段管道、使用的工具(YAMNet, Gemini 2.5 Pro)和过滤参数,为复现其数据集创建过程提供了清晰指南。评测指标使用了公开的AV-benchmark工具包。 论文中引用的开源项目:YAMNet, AV-benchmark toolkit, PANNs, LAION-CLAP, ImageBind等。 📌 核心摘要 要解决什么问题:现有的视频到音频(V2A)生成模型评估基准(如VGGSound)与Foley(音效)等实际下游应用严重脱节。分析发现,VGGSound中74%的视频音画对应关系差,且内容被语音和音乐主导,无法有效评估专为视觉事件生成同步音效的模型。 方法核心是什么:提出FoleyBench,首个大规模、专门针对Foley场景的V2A评估基准。它包含5000个经过自动筛选的高质量(视频、真实音频、文本描述)三元组。其核心是一个自动化的多阶段数据集构建管道:收集网络视频 -> 场景检测与裁剪 -> 通过YAMNet过滤语音/音乐 -> 使用Gemini 2.5 Pro筛选确保音画因果关系。 与已有方法相比新在哪里:(1)定义并专注于Foley场景(非语音、非音乐、音源可见且同步),填补了专用基准的空白;(2)设计了包含AudioSet和UCS标签、声源复杂度、声音包络类型等丰富元数据的标注体系,支持细粒度分析;(3)提供了包含650个30秒长视频的子集FoleyBench-Long,以评估长音频生成能力。 主要实验结果如何: 基准对比:与VGGSound相比,FoleyBench的Foley类别覆盖更广(Shannon熵5.35 vs 4.73),且评估结果相关性在音频保真度指标上较弱,说明其能提供不同的评估视角。 模型评估:在对11个SotA V2A模型的评估中,MMAudio在多数指标上表现最佳,Seeing & Hearing在语义对齐(IB)上最优,V-AURA在时序同步(DS)上次优。主要发现包括:模型在生成离散事件音时,同步变好但质量变差;在处理背景音和多源声音时性能显著下降;文本条件能提供关键的语义先验。 长视频评估:在FoleyBench-Long上,所有模型性能普遍下降,MMAudio仍保持同步优势,但音频质量大幅下滑;而专为长视频设计的LOVA在音频质量上表现相对较好。 关键数据表格: 方法 VGGSound IB↑ FoleyBench IB↑ FoleyBench DS↓ FoleyBench FAD↓ FoleyBench IS↑ V-AURA 0.276 0.237 0.716 27.2 6.44 Seeing&Hearing 0.339 0.371 1.08 25.0 4.80 MMAudio^T 0.332 0.306 0.447 8.76 11.2 实际意义是什么:为V2A研究社区,特别是Foley合成方向,提供了一个更可靠、更贴近应用的评估标准,有助于更准确地衡量模型进展,并指明未来改进方向(如提升离散事件音保真度、处理多源/背景音、长时生成)。 主要局限性是什么:(1)数据集构建核心环节依赖商业黑箱模型(Gemini),可复现性和透明度受限;(2)虽然分析了失败模式,但并未提出解决这些核心挑战(如多源声音混合、长时一致性)的新模型或算法。 🏗️ 模型架构 本文并未提出一个新的V2A生成模型,而是提出了一个用于评估现有模型的基准测试框架。因此,其核心“架构”是数据集构建管道与评估体系。 ...

2026-04-29 · 更新于 2026-06-15 · 2 min · 297 words

FxSearcher: Gradient-Free Text-Driven Audio Transformation

📄 FxSearcher: Gradient-Free Text-Driven Audio Transformation #音频生成 #贝叶斯优化 #CLAP #音频效果处理 #无梯度优化 ✅ 7.0/10 | 前50% | #音频生成 | #贝叶斯优化 | #CLAP #音频效果处理 学术质量 5.5/7 | 选题价值 1.0/2 | 复现加成 0.0 | 置信度 高 👥 作者与机构 第一作者:Hojoon Ki (Korea Advanced Institute of Science and Technology, KAIST) 通讯作者:未说明 作者列表:Hojoon Ki (Korea Advanced Institute of Science and Technology, KAIST), Jongsuk Kim (Korea Advanced Institute of Science and Technology, KAIST), Minchan Kwon (Korea Advanced Institute of Science and Technology, KAIST), Junmo Kim (Korea Advanced Institute of Science and Technology, KAIST) 💡 毒舌点评 这篇论文巧妙地将贝叶斯优化与CLAP结合,绕过了音频效果链必须可微的“紧箍咒”,为文本驱动音频变换打开了一扇新门,其工程思路可圈可点。然而,其核心理论贡献(如“引导提示”策略)更像是一种经验性的启发式技巧,缺乏更深入的理论分析或广泛的适用性证明,使其更像是一个精心调优的“系统工程”而非一个具有深远影响力的理论突破。 ...

2026-04-29 · 更新于 2026-06-15 · 2 min · 359 words

Generating Localized Audible Zones Using a Single-Channel Parametric Loudspeaker

📄 Generating Localized Audible Zones Using a Single-Channel Parametric Loudspeaker #空间音频 #麦克风阵列 #信号处理 #音频生成 ✅ 6.5/10 | 前50% | #空间音频 | #麦克风阵列 | #信号处理 #音频生成 学术质量 5.0/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度 中 👥 作者与机构 第一作者:Tao Zhuang(南京大学现代声学实验室;南京大学-地平线智能音频联合实验室) 通讯作者:未说明 作者列表:Tao Zhuang(南京大学现代声学实验室;南京大学-地平线智能音频联合实验室),Shaozhe Li(南京大学现代声学实验室;南京大学-地平线智能音频联合实验室),Feng Niu(国家计量院力学与声学部),Jia-Xin Zhong(宾夕法尼亚州立大学声学研究生项目),Jing Lu(南京大学现代声学实验室;南京大学-地平线智能音频联合实验室) 💡 毒舌点评 亮点在于概念上的巧妙“偷天换日”,将多通道阵列处理所需的物理通道数,通过超声波非线性效应“虚拟”出来,从而用单一物理扬声器硬件实现了复杂声场控制,思路新颖且具启发性。短板则是这篇顶会论文的实验部分显得过于“理论”,仅停留在自由场条件的数值仿真,缺乏任何硬件原型搭建与实测数据验证,使得从“概念可行”到“实际可用”的距离依然模糊,论文的说服力因此大打折扣。 🔗 开源详情 论文中未提及任何开源计划,包括代码、模型权重、数据集、Demo或复现材料。也未列出所依赖的开源项目。 📌 核心摘要 本文针对传统声音区域控制(SZC)系统依赖多通道扬声器阵列、硬件复杂的瓶颈,提出了一种单通道多载波参量扬声器(MCPL)方案。其核心是将不同音频信号调制到多个不同频率的超声波载波上,合成单路信号后由单一换能器发射,利用空气的非线性自解调效应,在空气中虚拟出多个独立的音频通道,从而将为传统阵列设计的SZC算法直接应用于此虚拟通道。与已有双载波方法相比,该方案推广至N个载波,提供了更强的声场控制自由度。仿真实验表明,该方案能有效缩短声音的传播距离(例如,1kHz音频下,4载波系统的有效传播距离从传统PL的约7米缩短至1.8米),并生成局部化的听音区,验证了该方法在简化硬件系统的同时维持SZC性能的潜力。该工作的主要局限是所有结论均基于数值模拟,未进行实际硬件实验,且未讨论复杂声学环境下的鲁棒性。 🏗️ 模型架构 该系统并非传统意义上的深度学习模型,而是一个基于声学物理原理的信号处理与控制系统。其架构流程如下: 输入:一个音频信号 audio_signal(频率为fa)。 多载波调制(数字域):将该音频信号调制到N个频率不同(fc,1, fc,2, …, fc,N)的超声波载波上。每个载波通道 n 生成两个边带信号 wu,n 和 wu,n,分别控制下边带和上边带的幅度和相位,得到调制信号 sn(t)。 信号合成(数字域):将所有调制后的信号 sn(t) 相加,生成一个单一的复合电信号 s(t)。这是整个系统唯一的物理输出信号。 数模转换与发射:单一通道信号 s(t) 经过单个DAC转换为模拟信号,驱动单个超声波换能器阵列(文中称为“单通道参量扬声器”)。 空气非线性解调(物理域):发射出的超声波复合信号在空气中传播时,由于空气的非线性特性,不同载波频率的信号之间发生相互作用,自解调产生音频信号。论文的核心论点在于,当各载波频率间距足够大(>20kHz)时,最终产生的总音频声压 pa(r, ωa) 是各虚拟通道贡献的线性叠加,如公式(6)所示:pa = Σ wn * Ha,n。这等效于创建了N个虚拟的、由权重 wn 控制的独立音频源通道。 声场控制:基于这个虚拟的多通道模型,应用经典的声学对比度控制(ACC)算法。通过优化权重向量 w = [w1, ..., wN]T,最大化目标“亮区”与“暗区”之间的声压平方比(公式9-10),从而生成所需的局部化听音区。 图1:(a) 展示了圆形MCPL在平面内生成亮区和暗区的示意图。(b) 是信号流程图,清晰地展示了音频信号如何调制到N个载波,合成单一信号 s(t),并通过空气解调形成N个虚拟通道,最终辐射出所需的音频声场。 ...

2026-04-29 · 更新于 2026-06-15 · 1 min · 202 words

Generating Moving 3d Soundscapes with Latent Diffusion Models

📄 Generating Moving 3d Soundscapes with Latent Diffusion Models #空间音频 #扩散模型 #音频生成 #数据增强 #多通道 ✅ 7.5/10 | 前25% | #空间音频 | #扩散模型 | #音频生成 #数据增强 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Christian Templin (Stevens Institute of Technology, Hoboken, NJ, USA) 通讯作者:未说明 作者列表:Christian Templin(Stevens Institute of Technology)、Yanda Zhu(Hunan Normal University, Changsha, China)、Hao Wang(Stevens Institute of Technology) 💡 毒舌点评 亮点:首次将潜在扩散模型用于生成带动态声源轨迹控制的一阶Ambisonics音频,并构建了首个大规模带标注的动态空间音频数据集,填补了明确的空白。短板:虽然引入了参数化模型以提高空间精度,但对“动态”这一核心特性的评估主要停留在起止点的角度误差上,对声源在运动过程中轨迹的平滑度、连续性以及听感上的真实性缺乏更细致的量化分析和主观评估。 🔗 开源详情 代码:论文中未提及代码仓库链接。 模型权重:未提及公开预训练模型权重。 数据集:论文明确表示将发布新构建的包含超过100万样本的数据集(训练/验证/测试划分),可通过项目网站获取(https://intellisys.haow.us/spatial-audio-project/)。 Demo:提供了在线演示网站(同上链接)。 复现材料:论文给出了较详细的训练数据构建方法、模型架构描述、损失函数公式和主要超参数(学习率、批大小、优化器、训练步数等),但未提供具体的训练代码、环境配置或最终检查点。 论文中���用的开源项目:Descript Audio Codec (DAC) [11]、T5编码器 [12]、CLAP模型 [13]、AuraLoss [14]、VGGish [15]。 📌 核心摘要 问题:现有文本到音频生成模型大多局限于单声道或立体声,无法生成完整的三维空间音频。少数能生成一阶Ambisonics(FOA)音频的模型仅支持静态声源,无法处理用户指定的动态声源轨迹,且缺乏相关训练数据集。 方法核心:提出SonicMotion框架,这是一个端到端的潜在扩散模型,专为生成FOA音频设计。其核心创新在于引入了两种条件化方式:1)描述式模型,仅使用文本提示;2)参数式模型,额外使用一个“状态矩阵”作为条件,该矩阵显式编码了声源在时间上的方位角和仰角轨迹。 新意:这是首个能够生成带有用户可控运动轨迹的FOA音频的潜在扩散模型。同时,为解决数据匮乏问题,作者构建了一个超过100万对模拟的FOA-文本数据对的新数据集,包含静态和动态声源及详细运动元数据。 主要结果:实验表明,SonicMotion在语义对齐(CLAP分数)和感知质量(FD, FAD)上与领先的文本到音频模型(如AudioLDM 2)相当。在空间精度上,参数式模型(SM-P)显著优于描述式模型(SM-D),其方位角误差降至13.17°,仰角误差降至4.01°,空间总角度误差降至14.32°,相比SM-D有约51%的整体性能提升。自编码器的重建保真度极高,空间角度误差仅为3.72°。 实际意义:为VR/AR、电影和音乐制作提供了自动化创建沉浸式动态声景的新工具,有望降低专业空间音频内容的制作门槛和成本。 主要局限性:模型基于模拟数据训练和评估,其在真实录音或复杂声学场景下的泛化能力有待验证。评估指标主要关注声源起止点的定位精度,对整个运动轨迹的保真度评估不足。此外,仅支持一阶Ambisonics,更高阶的空间分辨率有待探索。 🏗️ 模型架构 SonicMotion是一个端到端的框架,整体流程分为数据准备、自编码器训练和扩散模型生成三个主要阶段。 ...

2026-04-29 · 更新于 2026-06-15 · 2 min · 257 words

Generative Audio Extension and Morphing

📄 Generative Audio Extension and Morphing #音频生成 #扩散模型 #数据集 #音频编辑 ✅ 7.5/10 | 前25% | #音频生成 | #扩散模型 | #数据集 #音频编辑 学术质量 6.5/7 | 选题价值 1.0/2 | 复现加成 0.0 | 置信度 高 👥 作者与机构 第一作者:未说明(论文注明Prem Seetharaman⋆, Oriol Nieto⋆为同等贡献) 通讯作者:未说明 作者列表:Prem Seetharaman(Adobe Research, San Francisco, CA, USA)、Oriol Nieto(Adobe Research, San Francisco, CA, USA)、Justin Salamon���Adobe Research, San Francisco, CA, USA) 💡 毒舌点评 论文的亮点在于将技术问题(音频生成)与特定用户群体(音效设计师)的需求紧密结合,并针对性地设计了“噪声底数据集”来解决生成静态声音时的幻觉问题,展现了工程上的巧思。短板则在于,它本质上是将音频修复/填充任务包装成了一个“生成”任务,且缺乏与当前最先进文本到音频模型(如AudioLDM 2, VampNet等)在通用生成能力上的直接对比,其技术壁垒和普适性有待商榷。 🔗 开源详情 代码:论文中未提及任何代码仓库链接。 模型权重:未提及公开模型权重。 数据集:主训练数据集(110万样本)为专有和许可数据混合,未公开。噪声底数据集是论文中合成的新数据集,也未提及公开。 Demo:论文提供了一个伴站网站(https://sites.google.com/view/genextendblend/home),可能包含音频示例,但未明确说明是在线可交互的Demo。 复现材料:给出了部分训练细节(优化器、学习率、batch size、训练步数、硬件型号),但缺乏完整的配置文件、预训练模型或详细的代码实现,不足以进行完全复现。 论文中引用的开源项目:引用了以下开源项目作为技术组件:语音分离模型[26](MDX-GAN,代码已共享)、音频编解码器DAC[29]、文本嵌入模型Mixtral[32]、音频嵌入模型CLAP[36]。 总结:论文中未提及任何开源计划。其复现性高度依赖作者未共享的专有数据、合成数据集和内部代码实现。 📌 核心摘要 要解决什么问题:音效设计师在创作中常需要将现有音频片段进行扩展(向前或向后)或在两个不同音频间进行无缝变形(morphing),传统方法耗时且易产生伪影。 方法核心是什么:使用基于扩散Transformer(DiT)的模型,在音频的潜在空间进行操作。核心是提出了一种音频提示指导(Audio Prompt Guidance, APG) 技术,通过在扩散过程中对已知(被掩码的)音频潜在表示和未知(噪声)部分应用一种变体的分类器自由引导(CFG),使生成结果更好地贴合原始音频提示。此外,为了克服在生成持续/静态声音(如环境音)时模型易产生无关噪声的“幻觉”问题,提出了使用合成的噪声底数据集(Noise Floor Dataset) 对模型进行微调。 与已有方法相比新在哪里:1) 提出APG,首次将CFG变体直接应用于音频模态本身以增强生成音频与输入提示的保真度。2) 设计了专门针对音效设计师需求(处理48kHz立体声、特效/环境声)的端到端扩展/变形框架。3) 创新性地构建大规模合成数据集(1.3M小时)并用于微调,以缓解特定数据分布导致的生成幻觉问题。 主要实验结果如何: 客观质量(FAD↓):生成变形(GenMorph)的FAD为0.432,与原始音频(0.426)几乎持平,显著优于白噪声(1.358)和卷积噪声匹配(0.599)等基线。 方法 FAD ↓ GenExtend 0.520 GenMorph 0.432 Convolutional Noise Matching 0.599 White Noise 1.358 Noise Floor 0.586 Original Audio (上界) 0.426 - 主观测试(MOS 1-5分):15名参与者(含专业人士)对音频扩展结果的平滑度、一致性和质量平均评分为3.5,3.8,3.5。中位数评分均为4分(对应“相当无缝”、“相当相关”、“良好”)。 - APG消融:指导强度γ从0增加到5时,FAD持续改善;在γ=5时,变形任务的FAD略有上升,故选定γ=5。 实际意义是什么:为音效设计师提供了一个高效、高质量的音频片段扩展与变形工具,有望减少重复性手动操作,提升创作效率。其提出的APG和数据集微调策略也可能对其他条件音频生成任务有参考价值。 主要局限性是什么:1) 应用范围限定在音效和环境声,明确排除了语音和音乐。2) 未与当前最强的通用音频生成模型(如基于大规模网络文本-音频对训练的模型)进行对比,其生成质量的天花板尚不明确。3) 训练数据(110万样本)和噪声底数据集(合成)的具体内容和质量未详细公开,可复现性依赖于作者未共享的资源。 🏗️ 模型架构 模型整体架构是一个在音频潜在空间进行操作的扩散流程,主要包含编码器、扩散Transformer(DiT)、解码器以及核心的APG和掩码机制。 ...

2026-04-29 · 更新于 2026-06-15 · 2 min · 318 words

GMS-CAVP: Improving Audio-Video Correspondence with Multi-Scale Constrative and Generative Pretraining

📄 GMS-CAVP: Improving Audio-Video Correspondence with Multi-Scale Constrative and Generative Pretraining #音视频 #对比学习 #扩散模型 #音频生成 #多尺度模型 ✅ 7.5/10 | 前25% | #音频生成 | #扩散模型 | #音视频 #对比学习 学术质量 7.0/7 | 选题价值 1.5/2 | 复现加成 -0.5 | 置信度 中 👥 作者与机构 第一作者:未说明(论文作者列表为“Shentong Mo1,2,3, Zehua Chen3, Jun Zhu3”,未明确标注第一作者) 通讯作者:未说明 作者列表:Shentong Mo(卡内基梅隆大学,MBZUAI,清华大学),Zehua Chen(清华大学),Jun Zhu(清华大学) 💡 毒舌点评 亮点在于将多尺度对比学习和多尺度扩散生成统一在一个框架内,为音视频预训练提供了新范式,实验结果在多个指标上刷新了SOTA;短板是论文对于模型具体架构细节(如扩散模型中噪声预测网络的具体设计)、训练硬件和完整超参数列表描述不足,且未提及开源计划,这使得严格的复现存在挑战。 🔗 开源详情 代码:论文中未提及代码链接。 模型权重:未提及公开权重。 数据集:使用了公开数据集VGGSound、AudioSet和Panda70M,但未说明是否提供了特定的预处理脚本。 Demo:未提及在线演示。 复现材料:给出了部分训练细节(优化器、学习率、批次大小、训练轮数),并参考了Diff-Foley的扩散设置。但模型架构的具体实现细节、完整的超参数列表和训练日志/检查点未提供。 论文中引用的开源项目:引用并基于Diff-Foley [6]的生成器设置;使用Adam优化器。 开源计划:论文中未提及开源计划。 📌 核心摘要 本文旨在解决现有对比音视频预训练方法在捕捉细粒度、多层次跨模态对应关系以及直接支持生成任务方面的不足。方法核心是提出GMS-CAVP框架,它统一了多尺度视频-音频对齐(MSA)的对比学习目标与多尺度空间-时间扩散(MSD)的生成预训练目标。与之前仅使用单尺度全局对比学习的方法相比,GMS-CAVP能捕获从细到粗的时空依赖关系,并直接建模模态间的转换映射。主要实验结果表明,在VGGSound等数据集上,GMS-CAVP在视频到音频生成任务(KLD: 1.63, FAD: 0.75, Align Acc: 95.87)和检索任务(如视频到音频R@1: 28.90)上均大幅超越了现有方法。其实际意义是为音视频理解与生成提供了更强大、统一的预训练基础。主要局限性可能包括模型复杂度增加带来的计算开销,以及对扩散模型采样速度的潜在影响(论文未深入讨论)。 ...

2026-04-29 · 更新于 2026-06-15 · 2 min · 354 words

HFSQVAE: Hierarchical Vector Quantization with Residuals for Frequency-Specific Embedding

📄 HFSQVAE: Hierarchical Vector Quantization with Residuals for Frequency-Specific Embedding #向量量化 #音频生成 #音频分类 #图像重建 #信号处理 ✅ 7.0/10 | 前25% | #音频生成 | #向量量化 | #音频分类 #图像重建 学术质量 6.0/7 | 选题价值 1.0/2 | 复现加成 0.0 | 置信度 中 👥 作者与机构 第一作者:Min Woo Kim(首尔大学电气与计算机工程系,INMC实验室) 通讯作者:未说明 作者列表:Min Woo Kim(首尔大学电气与计算机工程系,INMC实验室)、Seonji Park(首尔大学电气与计算机工程系,INMC实验室)、Nam Ik Cho(首尔大学电气与计算机工程系,INMC实验室) 💡 毒舌点评 亮点:将“频谱偏差”从模型缺陷转化为可利用的先验知识,用“分而治之”的思路设计分层码本,并用乘积量化高效编码高频残差,逻辑清晰且工程实现合理。 短板:作为一篇发表在ICASSP 2026的论文,未提供任何代码或模型权重,对于一个方法论文来说,这严重削弱了其可复现性和社区影响力;此外,对比的基线方法(VQVAE, SQVAE等)已非当前SOTA,说服力有待加强。 🔗 开源详情 代码:论文中未提及代码链接。 模型权重:未提及。 数据集:使用公开的ImageNet和UrbanSound8K数据集,但论文未说明具体获取或预处理方式。 Demo:未提及。 复现材料:未提供训练细节(如优化器、学习率、batch size)、配置文件、检查点或附录补充说明。 论文中引用的开源项目:论文引用了多个开源工作(如VQVAE、RQVAE),但未明确说明其实现是否基于这些项目。 总结:论文中未提及开源计划,复现难度较高。 📌 核心摘要 这篇论文旨在解决卷积神经网络在向量量化变分自编码器中固有的“频谱偏差”问题,即模型倾向于优先编码低频信息而忽略高频细节。 核心方法是提出HFSQVAE,一个包含两个层次化码本的架构:第一个码本(C_L)利用网络的天然频谱偏差来编码低频成分;第二个码本(C_H)则通过乘积量化技术,专注于编码输入图像减去第一个码本重建结果后得到的高频残差信息。 与已有方法相比,其新意在于:1) 将频率分离作为显式设计目标;2) 在图像空间而非潜在空间处理残差;3) 引入乘积量化以高效扩展高频码本容量;4) 提出交替训练策略以稳定优化。 实验结果表明,HFSQVAE在ImageNet(图像)和UrbanSound8K(音频频谱)数据集上,以更少的码本参数量,取得了优于VQVAE、SQVAE、CVQVAE、RQVAE等基线的重建精度。例如,在ImageNet上PSNR达到29.703(基线最优为27.719),LPIPS降至0.139(基线最优为0.221)。 实际意义在于为图像和音频的离散表示学习提供了一种更高效、更保真的编码方案,可能有助于下游的生成或分析任务。 主要局限性包括:未在更复杂的生成任务(如图像生成)中验证;未与最新的基于扩散模型的生成方法进行比较;且未开源任何实现细节。 ...

2026-04-29 · 更新于 2026-06-15 · 2 min · 312 words

Hierarchical Discrete Flow Matching For Multi-Codebook Codec-Based Text-To-Speech

📄 Hierarchical Discrete Flow Matching For Multi-Codebook Codec-Based Text-To-Speech #语音合成 #流匹配 #零样本 #音频生成 ✅ 7.5/10 | 前25% | #语音合成 | #流匹配 | #零样本 #音频生成 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0 | 置信度 中 👥 作者与机构 第一作者:未说明(论文中列出了多位作者,未明确指出第一作者) 通讯作者:未说明(论文中未明确指出) 作者列表:Joun Yeop Lee(三星研究院,三星电子)、Heejin Choi(三星研究院,三星电子)、Min-Kyung Kim(三星研究院,三星电子)、Ji-Hyun Lee(三星研究院,三星电子)、Hoon-Young Cho(三星研究院,三星电子) 💡 毒舌点评 该论文巧妙地将RVQ编解码器的“由粗到细”先验知识,内化为流匹配模型的训练课程与推理调度,逻辑清晰且实验增益显著,这是其最亮眼的工程创新。然而,论文对训练细节的“黑箱化”处理(如模型具体大小、完整超参数列表、训练时长)和仅有演示页面而无代码公开的现状,让其学术严谨性和社区复现性大打折扣。 🔗 开源详情 代码:论文中未提及代码链接。 模型权重:未提及公开模型权重。 数据集:使用了LibriTTS和Emilia数据集,但未说明是否提供自定义处理版本。LibriTTS是公开数据集,Emilia数据集信息未说明。 Demo:提供了在线演示页面:https://srtts.github.io/hierarchical-dfm 复现材料:论文中给出了部分训练细节(如数据集、迭代步数、GPU型号),但缺失关键超参数(模型维度、完整优化器配置)和训练时长,复现材料不充分。 论文中引用的开源项目:依赖的开源项目/模型包括F5-TTS、HiFi-Codec、Whisper-large-v3、WavLM-large、UTMOS。 整体开源情况:论文中未提及全面的开源计划。 📌 核心摘要 要解决什么问题:现有将离散流匹配(DFM)应用于基于残差向量量化(RVQ)的文本到语音(TTS)时,通常将所有码本视为同等,忽略了浅层码本(捕获粗结构)与深层码本(细化细节)之间的层次依赖关系,导致性能受限。 方法核心是什么:提出分层离散流匹配(H-DFM)。核心包括两方面:训练阶段,采用随机粗细模式课程学习——粗模式下遮蔽细码本噪声样本,仅更新粗码本头;细模式下用真实粗码本条件化,仅更新细码本头。推理阶段,采用粗偏向的两阶段调度——先用大部分步骤(Bc步)稳定粗码本(全局结构),再用少量步骤(Bf步)细化细码本。 与已有方法相比新在哪里:首次系统性地将RVQ的层次结构显式对齐到DFM的训练与推理过程中。相比直接应用DFM(F5-DFM),H-DFM通过架构(多头)和策略(课程学习、偏向调度)强制模型学习码本间的依赖关系,而非独立预测。 主要实验结果如何: 在零样本TTS评估中(NFE=32,粗细比例1/16),H-DFM相比基线显著提升。 关键客观指标对比: 模型 WER (%) ↓ SECS ↑ UTMOS ↑ F5-TTS (连续FM基线) 4.559 0.605 3.853 F5-DFM (朴素离散FM) 4.434 0.564 4.013 F5-H-DFM (本文方法) 3.036 0.609 4.205 H-DFM在可懂度(WER)和说话人相似度(SECS)上均取得最优,并在自然度(UTMOS)上也有较大提升。 消融实验表明,粗细推理比例(rcf=1/16)优于更平衡的比例(1/8, 1/2),验证了粗偏向策略的有效性。 实际意义是什么:为基于RVQ的高质量、非自回归TTS提供了一种更高效的解码方案。通过尊重编解码器的设计原理,可以在固定计算预算下获得更好的合成质量,对追求低延迟和高质量语音合成的工业应用有直接价值。 主要局限性:方法依赖于特定编解码器(HiFi-Codec)的固定层次结构和预先定义的粗细划分;训练与推理调度中的超参数(如pc=0.7, rcf=1/16)需要手动调整;论文未详细公开所有训练细节和模型参数,限制了可复现性。 🏗️ 模型架构 H-DFM的模型架构基于F5-TTS的扩散Transformer(DiT)主干网络进行修改。 ...

2026-04-29 · 更新于 2026-06-15 · 2 min · 366 words

ICASSP 2026 - 音频生成 论文列表

ICASSP 2026 - 音频生成 共 39 篇论文 ← 返回 ICASSP 2026 总览 排名 论文 评分 分档 🥇 SwitchCodec: Adaptive Residual-Expert Sparse Quantization fo 8.5分 前25% 🥈 Synthcloner: Synthesizer-Style Audio Transfer via Factorized 8.5分 前25% 🥉 MAG: Multi-Modal Aligned Autoregressive Co-Speech Gesture Ge 8.0分 前25% 4. Training-Free Multimodal Guidance for Video to Audio Generat 8.0分 前25% 5. Audience-Aware Co-speech Gesture Generation in Public Speaki 8.0分 前50% 6. Matching Reverberant Speech Through Learned Acoustic Embeddi 8.0分 前25% 7. Assessing The Perceptual Impact of Low-Altitude Aircraft Noi 8.0分 前25% 8. Parametric Neural Amp Modeling with Active Learning 8.0分 前25% 9. AUV: Teaching Audio Universal Vector Quantization with Singl 8.0分 前25% 10. EuleroDec: A Complex-Valued RVQ-VAE for Efficient and Robust 8.0分 前25% 11. Improving Interpretability in Generative Multitimbral DDSP F 7.5分 前25% 12. Cardiobridge-DM: Bridging Cross-Cohort Heart Sound Synthesis 7.5分 前25% 13. Disentangling Physiology from Fidelity: Latent-Guided Diffus 7.5分 前25% 14. GMS-CAVP: Improving Audio-Video Correspondence with Multi-Sc 7.5分 前25% 15. KSDIFF: Keyframe-Augmented Speech-Aware Dual-Path Diffusion 7.5分 前25% 16. Sunac: Source-Aware Unified Neural Audio Codec 7.5分 前50% 17. S-PRESSO: Ultra Low Bitrate Sound Effect Compression with Di 7.5分 前25% 18. PICOAUDIO2: Temporal Controllable Text-to-Audio Generation w 7.5分 前25% 19. FoleyBench: A Benchmark for Video-to-Audio Models 7.5分 前25% 20. Multimodal Room Impulse Response Generation Through Latent R 7.5分 前25% 21. Mix2Morph: Learning Sound Morphing from Noisy Mixes 7.5分 前25% 22. Generative Audio Extension and Morphing 7.5分 前25% 23. FlashFoley: Fast Interactive Sketch2audio Generation 7.5分 前25% 24. Mitigating Data Replication in Text-to-Audio Generative Diff 7.5分 前25% 25. Learning Linearity in Audio Consistency Autoencoders via Imp 7.5分 前25% 26. Spring Reverb Emulation with Hybrid Gated Convolutional Netw 7.5分 前25% 27. StereoFoley: Object-Aware Stereo Audio Generation from Video 7.5分 前25% 28. AudioGen-Omni: A Unified Multimodal Diffusion Transformer fo 7.5分 前25% 29. Meanflow-Accelerated Multimodal Video-to-Audio Synthesis Via 7.5分 前25% 30. TAG: Structured Temporal Audio Generation via LLM-Guided Man 7.5分 前25% 31. HFSQVAE: Hierarchical Vector Quantization with Residuals for 7.0分 前25% 32. Sounds that Shape: Audio-Driven 3D Mesh Generation with Attr 7.0分 前25% 33. ReCoM: Realistic Co-Speech Motion Generation with Recurrent 7.0分 前25% 34. Arbitrarily Settable Frame Rate Neural Speech Codec with Con 7.0分 前25% 35. A Speech-Driven Paradigm for Physics-Informed Modeling of Co 7.0分 前50% 36. FxSearcher: Gradient-Free Text-Driven Audio Transformation 7.0分 前50% 37. FODGE : High-Fidelity Dance Generation via Full-Body Optimiz 6.5分 前50% 38. Feedback-Driven Retrieval-Augmented Audio Generation with La 6.5分 前25% 39. Taming Audio VAEs via Target-KL Regularization 6.5分 前25% 📋 论文详情 🥇 SwitchCodec: Adaptive Residual-Expert Sparse Quantization for High-Fidelity Neural Audio Coding 🔥 8.5/10 | 前25% | #音频生成 | #模型评估 | #向量量化 #混合专家 ...

2026-04-29 · 更新于 2026-06-15 · 22 min · 4597 words

Improving Interpretability in Generative Multitimbral DDSP Frameworks via Semantically-Disentangled Musical Attributes

📄 Improving Interpretability in Generative Multitimbral DDSP Frameworks via Semantically-Disentangled Musical Attributes #音频生成 #音乐生成 #信号处理 #解耦表示 ✅ 7.5/10 | 前25% | #音频生成 | #信号处理 | #音乐生成 #解耦表示 学术质量 6.5/7 | 选题价值 1.0/2 | 复现加成 1.0 | 置信度 高 👥 作者与机构 第一作者:Francesco Ardan Dal Rì(特伦托大学信息工程与计算机科学系) 通讯作者:未说明 作者列表:Francesco Ardan Dal Rì(特伦托大学信息工程与计算机科学系)、Nicola Conci(特伦托大学信息工程与计算机科学系) 💡 毒舌点评 这篇论文巧妙地将语义解耦的VAE与改进的DDSP结合,解决了多乐器生成中“控制黑箱”的痛点,实验也证明了其灵活生成能力。不过,它只在TinySOL这样的小型数据集上验证,且避开了与更强大的扩散式音频生成模型的正面比较,说服力打了折扣。 🔗 开源详情 代码:论文明确提供了代码仓库链接:https://github.com/return-nihil/MT-GEN_DDSP/ 模型权重:论文中未提及是否公开预训练模型权重。 数据集:使用的是公开数据集TinySOL,论文中未提供其获取方式链接,但注明“a publicly available dataset”。 Demo:论文中未提及在线演示。 复现材料:论文详细给出了训练超参数(学习率、批量大小、轮数、优化器)、数据增强方法、模型架构细节和评估指标,为复现提供了充分信息。 论文中引用的开源项目:论文引用了多个开源框架和工具,如DDSP[6]、FLAMO[8]、MIDI-DDSP[16]、SnakeGAN[19]、FAD指标[21]等,表明其工作建立在开源生态之上。 📌 核心摘要 要解决什么问题:传统DDSP(可微分数字信号处理)架构依赖帧级潜在编码,在多乐器纯生成设置中缺乏全局语义可解释性,且音色与力度等音乐属性相互纠缠,难以实现独立、可控的生成。 方法核心是什么:提出一个由Triple-VAE编码器和改进DDSP解码器组成的框架。Triple-VAE从频谱图中提取语义解耦的全局音色(t)和力度(d)嵌入(各8维)。DDSP解码器以这些全局嵌入、归一化包络曲线和音高轮廓为输入,使用双层GRU来学习复杂的时序依赖,最终通过谐波+噪声(HpN)模块合成波形。 与已有方法相比新在哪里:首次在多乐器DDSP框架中引入通过监督学习强制解耦的全局音色与力度表示,替代了传统的帧级z编码。同时,用归一化包络曲线替代原始响度曲线作为控制信号,并使用双层GRU而非单层RNN来更好地从全局表示中建模时序细节。 主要实验结果如何:在TinySOL数据集上,框架在多种乐器数量配置下均表现出色。 Triple-VAE的属性分类准确率(C Acc.)接近1.0,而“移除器”准确率(R Acc.)较低,证明解耦有效。 DDSP重建的感知质量(MR-STFT)稳定在1.133-1.209,与基线相当。 生成质量(FAD)优于基线,其中PANN-FAD(时序相关)随乐器数增加显著下降至0.019×10⁻⁴,表明包络建模能力增强。 相较于基线(无解耦VAE+传统DDSP),本框架在FAD指标上提升显著(如VGG-FAD: 2.256 vs 4.556 @ t=2)。 关键数据见下表: 配置 Triple-VAE MSE (×10⁻³)↓ C Acc.↑ (t/p/d) R Acc.↓ (t/p/d) DDSP MR-STFT↓ DDSP MSE (×10⁻³)↓ DDSP FAD VGG↓ DDSP FAD PANN (×10⁻⁴)↓ t=2 5.664 ± 3.970 1.00 / 1.00 / 1.00 0.74 / 0.21 / 0.44 1.208 ± 0.056 4.168 ± 0.974 2.256 0.500 t=4 5.488 ± 3.698 1.00 / 1.00 / 0.99 0.50 / 0.19 / 0.52 1.209 ± 0.077 6.263 ± 1.873 2.448 0.132 t=8 5.556 ± 3.797 1.00 / 1.00 / 0.99 0.37 / 0.13 / 0.54 1.153 ± 0.075 10.310 ± 4.550 2.618 0.019 t=14 5.733 ± 4.808 0.99 / 1.00 / 0.99 0.29 / 0.14 / 0.54 1.133 ± 0.078 13.622 ± 6.220 2.743 0.019 基线 (t=2) 5.574 ± 4.879 1.00 / 0.99 / 0.99 // // // 1.292 ± 0.072 4.728 ± 1.662 4.556 1.688 实际意义是什么:该框架使得从仅16维的紧凑、语义明确的潜在空间中生成高质量、可控的多乐器音频成为可能,为实时声音设计、音乐制作和创意音频合成提供了新的工具。 主要局限性:实验仅在小型数据集(TinySOL)上进行,且乐器种类有限。框架性能随乐器数量增加在波形级(MSE)和频谱级(VGG-FAD)上有所下降。未来需验证其在更大规模、更多样数据集及复杂非谐波声音上的泛化能力。 🏗️ 模型架构 本文提出一个端到端的“Triple-VAE编码器 + DDSP解码器”框架,用于多乐器声学声音的可控生成。整体流程如下:输入音频首先被转换为频谱图和归一化的包络(RMS)、音高(YIN)轮廓。频谱图被送入Triple-VAE编码器,输出解耦的全局潜在表示;包络和音高轮廓与全局潜在表示拼接后,作为DDSP解码器的输入,最终合成音频波形。 ...

2026-04-29 · 更新于 2026-06-15 · 2 min · 404 words