StereoFoley: Object-Aware Stereo Audio Generation from Video

📄 StereoFoley: Object-Aware Stereo Audio Generation from Video #音频生成 #扩散模型 #空间音频 #跨模态 ✅ 7.5/10 | 前25% | #音频生成 | #扩散模型 | #空间音频 #跨模态 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度 高 👥 作者与机构 第一作者:Tornike Karchkhadze(UC San Diego) 通讯作者:未说明(论文中未明确标注通讯作者) 作者列表:Tornike Karchkhadze(UC San Diego)、Kuan-Lin Chen(Apple)、Mojtaba Heydari(Apple)、Robert Henzel(Apple)、Alessandro Toso(Apple)、Mehrez Souden(Apple)、Joshua Atkins(Apple) 💡 毒舌点评 亮点:论文的核心贡献——合成数据管线,巧妙地将视频对象分割、跟踪与音频空间化规则结合,为解决小众任务的冷启动问题提供了一个系统且可扩展的“数据工厂”蓝图。短板:论文对合成数据与真实数据的差距讨论不足,且关键组件(如OVD、T2A模型)均为“内部”或“借鉴”,极大限制了结果的可复现性和社区验证。 🔗 开源详情 代码:论文中未提及代码链接。 模型权重:未提及公开模型权重。 数据集:未提及公开其合成的立体声数据集。实验使用了公开的VGGSound和AudioSet,但筛选和替换后的具体版本未公开。 Demo:未提及在线演示。 复现材料:论文提供了详细的模型架构描述、训练超参数、数据集筛选条件和合成管线流程图,但缺乏关键的实现细节和工具链。 引用的开源项目:论文引用并基于了Synchformer、SAM2等开源模型或思想,但具体集成方式未详述。 整体:论文中未提及开源计划。 📌 核心摘要 问题:现有视频到音频生成模型大多只能生成单声道,或无法实现基于视频中物体位置的、语义一致的立体声效。主要瓶颈在于缺乏专业的、空间信息准确的立体声V2A训练数据集。 方法核心:提出StereoFoley框架,包含一个基础立体声V2A模型和一个合成数据管线。基础模型基于潜扩散和Transformer架构。核心创新是合成数据管线,它通过视频分析、对象检测与分割、文本到音频生成及基于规则的立体声空间化(基于物体位置和尺寸),自动生成带有精确空间标签的训练数据。 新意:首次提出端到端的、对象感知的立体声视频到音频生成框架。与现有工作相比,其创新不在于新的网络架构,而在于通过精心设计的合成数据管线,系统性地解决了训练数据缺失这一根本性障碍。 实验结果: 基础性能:StereoFoley-base在VGGSound数据集上的语义一致性(IB-score 30.61)、同步性(DeSync 0.42)等指标上与SOTA模型MMAudio和Kling-Foley性能相当。 对象感知效果:在合成的VGG-obj测试集上,StereoFoley-obj的立体声对象对齐分数(BAS)为0.33,显著高于基线MMAudio(0.08)和StereoFoley-base(0.23)。在用户研究中,StereoFoley-obj的MOS评分为3.46,显著高于其他系统(p < 0.001)。 实际意义:为影视、游戏、AR/VR内容创作提供了自动化生成空间准确音效的潜在工具,并建立了首个相关基准和评估指标(BAS)。 局限性:合成数据管线依赖多个复杂的、未公开的内部模型,其生成数据的真实感和多样性可能不足。模型规模庞大(~1.1B参数),训练成本高。 🏗️ 模型架构 StereoFoley的架构基于潜扩散模型,由编码器和扩散生成基础模型两大部分组成。 ...

2026-04-29 · 更新于 2026-05-20 · 2 min · 284 words

StylePitcher: Generating Style-Following and Expressive Pitch Curves for Versatile Singing Tasks

📄 StylePitcher: Generating Style-Following and Expressive Pitch Curves for Versatile Singing Tasks #歌唱语音合成 #流匹配 #音频生成 #语音转换 #零样本 ✅ 7.5/10 | 前25% | #歌唱语音合成 | #流匹配 | #音频生成 #语音转换 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Jingyue Huang (University of California San Diego, Smule Labs) 通讯作者:未说明 作者列表:Jingyue Huang(△University of California San Diego, ◦Smule Labs)、Qihui Yang(△University of California San Diego, ◦Smule Labs)、Fei-Yueh Chen(†University of Rochester, ◦Smule Labs)、Julian McAuley(△University of California San Diego)、Randal Leistikow(◦Smule Labs)、Perry R. Cook(◦Smule Labs)、Yongyi Zang(◦Smule Labs) 💡 毒舌点评 亮点在于它敏锐地抓住了唱歌音高曲线“既要符合乐谱,又要保留歌手个人风格”这个核心矛盾,并用一个优雅的掩码填充框架将其统一解决,体现了扎实的工程直觉和对音乐的理解。短板是,虽然实验覆盖了多个任务,但其作为“通用模块”的潜力在很大程度上依赖于下游系统本身,论文并未深入探讨在极端风格差异或复杂旋律转移场景下的鲁棒性边界。 ...

2026-04-29 · 更新于 2026-05-20 · 2 min · 355 words

Subsequence SDTW: Differentiable Alignment with Flexible Boundary Conditions

📄 Subsequence SDTW: Differentiable Alignment with Flexible Boundary Conditions #音乐信息检索 #信号处理 #弱监督学习 #音频生成 🔥 8.0/10 | 前25% | #音乐信息检索 | #信号处理 | #弱监督学习 #音频生成 学术质量 6.5/7 | 选题价值 1.0/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Johannes Zeitler (International Audio Laboratories Erlangen) 通讯作者:未说明 作者列表:Johannes Zeitler (International Audio Laboratories Erlangen), Meinard Müller (International Audio Laboratories Erlangen, 联合了弗里德里希-亚历山大-埃尔朗根-纽伦堡大学 (FAU) 和弗劳恩霍夫集成电路研究所 (IIS)) 💡 毒舌点评 这篇论文漂亮地解决了弱监督训练中一个被长期忽视但极为实际的问题——边界不准。其数学推导清晰严谨,将子序列对齐的灵活性完美地融入了可微分框架。亮点是其问题定义的精准性和解决方案的完备性。短板在于,实验验证仅限于单一的钢琴多音高估计任务,缺乏在语音识别等更主流任务上的直接对比,这削弱了其宣称的普适性说服力。 🔗 开源详情 代码:论文明确提供了代码仓库链接:https://github.com/groupmm/subsequenceSDTW。实现了CUDA兼容的subSDTW损失函数,并包含复现实验的代码。 模型权重:未提及公开的预训练模型权重。 数据集:使用了公开数据集MAESTRO和BPSD。论文未提供新的数据集。 Demo:未提及在线演示。 复现材料:论文提供了超参数设置(如γ, 步权重),并指出完整代码已开源,包含了训练细节。 引用的开源项目:模型架构基于“Onsets and Frames” [17]的Python实现。使用了Adam优化器 [20]。 📌 核心摘要 解决的问题:在使用弱监督数据(如只知道大致起止点)训练深度神经网络时,现有的CTC和SDTW损失函数都假设序列边界必须精确对齐。然而在真实场景中,数据常存在边界偏移,这一刚性假设会损害模型性能。 方法核心:提出了子序列软动态时间规整(subsequence SDTW, subSDTW)损失函数。它允许对齐路径的起点和终点不固定,而是在一个预定义的边界区域集合中灵活选择,并通过引入与路径长度成比例的边界权重来避免退化对齐(如坍缩到最短路径)。 与已有方法相比新在哪里:subSDTW是经典子序列DTW的可微分版本。与标准SDTW相比,它放松了边界严格对齐的约束;与CTC相比,它支持任意代价矩阵和多标签任务,更适合音乐转录等复杂任务。 主要实验结果:在基于Beethoven钢琴奏鸣曲数据集的弱监督多音高估计任务中,当引入±2.0秒的边界偏移时,标准SDTW的F值从0.67降至0.63,无权重subSDTW因路径坍缩暴跌至0.41,而加权subSDTW(subSDTW-W)仍能保持0.66的F值,接近使用强对齐数据训练的基准(0.67)。关键结果见下表: 配置 边界偏移 (∆) 精度 召回率 F值 Strong (强对齐基准) - 0.70 0.65 0.67 SDTW 0.0 s 0.70 0.65 0.67 2.0 s 0.72 0.57 0.63 subSDTW (无权重) 2.0 s 0.77 0.28 0.41 subSDTW-W (加权) 2.0 s 0.70 0.63 0.66 实际意义:为众多依赖弱监督序列对齐的深度学习任务(如语音识别、音乐转录)提供了一个即插即用的、能容忍边界噪声的损失函数,提升了模型在现实不完美数据上的训练稳定性和最终性能。 主要局限性:方法的有效性在一定程度上依赖于任务特定的边界权重参数化;实验验证集中在音乐领域,其在语音识别等任务上的泛化能力有待进一步证明。 🏗️ 模型架构 本论文的核心贡献不是提出一个新的神经网络模型,而是提出一个新的、可微分的损失函数(subSDTW),它可以与任何现有的序列预测模型(如论文中用于多音高估计的卷积网络)结合使用。 (图1: 展示了边界不匹配的问题场景。a) 乐谱作为弱对齐目标。b) DNN的预测帧。c) 带有边界不确定性±∆的输入音频。d) subSDTW的代价矩阵,显示了具有灵活边界条件的对齐路径。) ...

2026-04-29 · 更新于 2026-05-20 · 2 min · 316 words

Sunac: Source-Aware Unified Neural Audio Codec

📄 Sunac: Source-Aware Unified Neural Audio Codec #音频生成 #提示学习 #语音分离 #端到端 ✅ 7.5/10 | 前50% | #音频生成 | #提示学习 | #语音分离 #端到端 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度 中 👥 作者与机构 第一作者:Ryo Aihara(三菱电机研究实验室, 三菱电机公司) 通讯作者:未说明 作者列表:Ryo Aihara(三菱电机研究实验室, 三菱电机公司)、Yoshiki Masuyama(三菱电机研究实验室)、Francesco Paissan(特伦托大学, 三菱电机研究实验室)、François G. Germain(三菱电机研究实验室)、Gordon Wichern(三菱电机研究实验室)、Jonathan Le Roux(三菱电机研究实验室) 💡 毒舌点评 亮点:将源分离与音频编解码在特征空间进行优雅融合,通过提示机制统一处理不同数量和种类的音频源,设计思路非常灵活且具有前瞻性。 短板:论文在展示模型最强能力(处理多个同类型源)的关键实验上,缺乏对“条件特征提取器”各模块贡献的消融分析,使得模型高效性的来源不够透明;同时,完全缺乏代码和训练细节,让“可复现性”成为泡影。 🔗 开源详情 代码:论文中未提及代码链接。 模型权重:未提及公开SUNAC模型权重。文中使用了预训练的DAC^1、TUSS^2、FasTUSS^2和SDCodec^3模型,但这些并非SUNAC本身。 数据集:评估使用了更新版的Divide and Remaster (DnR)数据集^36,但论文未说明其是否公开或如何获取训练集。 Demo:未提及。 复现材料:论文未给出训练超参数(如学习率、优化器)、检查点或附录说明。仅提供了模型参数量和计算量的总结表格(表1),不足以支撑复现。 论文中引用的开源项目: Descript Audio Codec (DAC):https://github.com/descriptinc/descript-audio-codec Task-Aware Unified Source Separation (TUSS):https://github.com/merlresearch/unified-source-separation SDCodec:https://github.com/XiaoyuBIE1994/SDCodec ViSQOL评估工具:https://github.com/google/visqol 论文中未提及开源计划:关于SUNAC自身的代码、模型或数据的开源计划,论文中未提及。 📌 核心摘要 问题:传统的神经音频编解码器(NAC)将混合音频信号(如语音+音乐)纠缠在一起编码,这对于只需要处理特定源(如会议纪要只需语音)的下游任务(如LLM)是低效的。现有方案(如SDCodec)无法处理同一类型的多个并发源(如两人同时说话)。 方法核心:提出SUNAC,一个基于提示的源感知统一神经音频编解码器。其核心是在共享的编码器之后、量化器之前,插入一个“条件特征提取器”。该模块接收编码特征和表示目标源类型的可学习提示向量,直接从混合特征中提取出指定源的特征,然后共享的量化器和解码器对其进行重建。同时,提出了一个级联系统(TUSS-DAC)作为性能上界。 新在哪里: 架构:相比于级联系统,SUNAC将分离与编码在特征空间集成,避免重复计算;相比于SDCodec,它使用统一的特征提取和单一共享的RVQ,通过提示实现灵活提取,且能处理同类型多源。 技术:在条件特征提取器中,创新性地使用了跨提示Transformer模块和基于FiLM的条件注入机制。 训练:采用置换不变训练(PIT)在特征空间解决同类型多源的输出排列模糊问题。 主要实验结果: 计算效率:SUNAC(69.2M参数,总MAC可扩展)比级联系统(如TUSS-DAC:85.2M)计算量更低,且优于轻量化级联版本(FasTUSS-DACT)。 核心能力:在分离两个说话人(表4)任务中,SDCodec(SI-SDR为0)完全失败,而SUNAC(SI-SDR为11.80)取得了与级联系统(13.35)可比的性能。 基础性能:在分离不同类源(表3)任务中,SUNAC的VisQOL得分(语音3.68, 音乐4.14)与最优基线接近;在复杂混合源(表5, 含两个说话人)任务中,SUNAC在语音分离上的SI-SDR(7.46)远高于SDCodec(约-1),接近级联系统(9.07)。 模型 SI-SDR (混合) ↑ VisQOL (混合) ↑ SI-SDR (语音) ↑ VisQOL (语音) ↑ TUSS-DAC – – 13.35 ± 3.80 4.08 ± 0.39 FasTUSS-DACT – – 10.73 ± 4.66 3.83 ± 0.46 SDCodec 0.00 ± 2.83 3.04 ± 0.62 0.00 ± 2.83 3.04 ± 0.62 SUNAC 11.80 ± 3.07 4.12 ± 0.42 11.80 ± 3.07 4.12 ± 0.42 表4:从{, }中分离结果。SUNAC在处理同类型多源上显著优于SDCodec。 实际意义:为音频LLM、全双工对话系统、音频事件检测等下游任务提供了一种更高效、灵活的前端音频表示获取方案,允许用户按需从混合信号中提取和编码感兴趣的源。 主要局限:模型在处理训练时未见过的源数量和类型组合时性能会下降(表5);论文未提供代码和详细训练配置,复现困难;缺乏对条件特征提取器内部模块的详细消融实验。 🏗️ 模型架构 SUNAC是一个端到端的神经音频编解码器,其目标是从混合音频信号\(x\)中,根据用户提供的提示(如“语音”、“音乐”),直接生成对应源的离散token。 整体架构(图1(c))包含四个主要部分,数据流如下: ...

2026-04-29 · 更新于 2026-05-20 · 2 min · 336 words

SwitchCodec: Adaptive Residual-Expert Sparse Quantization for High-Fidelity Neural Audio Coding

📄 SwitchCodec: Adaptive Residual-Expert Sparse Quantization for High-Fidelity Neural Audio Coding #音频生成 #模型评估 #向量量化 #混合专家 #可变比特率 🔥 8.5/10 | 前25% | #音频生成 | #模型评估 | #向量量化 #混合专家 学术质量 6.5/7 | 选题价值 1.8/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Xiangbo Wang(杭州电子科技大学通信工程学院) 通讯作者:Wenbin Jiang(杭州电子科技大学通信工程学院) 作者列表:Xiangbo Wang(杭州电子科技大学通信工程学院)、Wenbin Jiang(杭州电子科技大学通信工程学院,通讯作者)、Jin Wang(杭州电子科技大学通信工程学院)、Yubo You(杭州电子科技大学通信工程学院)、Sheng Fang(杭州电子科技大学电子信息学院)、Fei Wen(上海交通大学信息科学与电子工程学院) 💡 毒舌点评 亮点:将混合专家的思想与残差量化巧妙结合,通过“选择-顺序解耦”的设计,既保留了RVQ能量递减的稳定性,又实现了根据内容动态分配比特,最终在2.67 kbps下获得了极高的MUSHRA主观分数(91.7),证明了该策略的有效性。短板:侧信息(路由掩码)的传输开销在极低比特率下可能被低估,且论文未与更多最新或专门的音频编码模型(如HiFi-Codec, TiCodec)进行对比,削弱了“全面领先”结论的说服力。 🔗 开源详情 代码:论文中未提供代码仓库链接。仅提供了一个在线音频示例演示页面:https://raconiy.github.io/Switchcodec。 模型权重:未提及公开模型权重。 数据集:训练数据来自公开数据集(VCTK, LibriTTS, FMA, Common Voice),但论文未说明是否提供了预处理后的数据或数据加载脚本。 Demo:提供了上述在线音频示例演示页面。 复现材料:论文提供了一些训练细节(如数据集、窗口长度、优化器、学习率、迭代次数),但关键超参数(如码本大小)和完整的训练代码/配置缺失。 论文中引用的开源项目:引用了DAC的代码库(作为架构基础),但未明确说明是否使用了其开源实现。论文中提到的参考实现可能包括DAC。 开源计划:论文中未提及开源计划。 📌 核心摘要 问题:现有基于残差向量量化(RVQ)的神经音频编解码器使用固定数量的量化器,导致在简单音频段上比特分配浪费,在复杂音频段上表示能力不足,效率低下。 核心方法:提出SwitchCodec,其核心是残差专家向量量化(REVQ)。该框架包含一个共享的基量化器和一组可稀疏激活的路由专家量化器。通过一个门控网络动态选择一小部分(top-k)最匹配当前音频段的专家进行残差细化。 创新之处:与现有自适应RVQ或MoE-VQ相比,创新点在于解耦了量化器的选择与应用顺序。被选中的专家仍按固定索引顺序应用于残差,保留了能量递减的稳定层次结构,避免了训练不稳定问题。此外,通过调整推理时激活的专家数量(k),实现了单模型的可变比特率(VBR)操作。 实验结果:在VCTK等数据集上,SwitchCodec在2.67 kbps和5.33 kbps比特率下,所有客观指标(Mel距离, STFT距离, PESQ, ViSQOL)均显著优于EnCodec和DAC。主观MUSHRA测试得分分别达到91.7和93.4,接近原始音质。消融实验显示,增加专家池数量(Nr)到9以上,在激活率下降的同时能维持质量。关键数据对比如下表: Codec Bitrate (kbps) Mel distance ↓ STFT distance ↓ PESQ ↑ ViSQOL ↑ MUSHRA ↑ SwitchCodec 2.67 0.75 1.71 2.87 4.04 91.7 5.33 0.66 1.65 3.49 4.25 93.4 EnCodec 3 1.20 2.43 1.71 2.09 61.3 6 1.06 2.29 2.21 2.71 70.4 DAC 2.67 0.87 1.89 2.31 3.61 86.3 5.33 0.72 1.77 3.31 3.87 88.9 图3:Mel频谱图对比。(a)原始音频;(b)SwitchCodec生成;(c)DAC生成;(d)EnCodec生成。SwitchCodec的输出在复杂区域(如高频谐波)模糊最少,与原始频谱最接近。 ...

2026-04-29 · 更新于 2026-05-20 · 2 min · 366 words

Synthcloner: Synthesizer-Style Audio Transfer via Factorized Codec with ADSR Envelope Control

📄 Synthcloner: Synthesizer-Style Audio Transfer via Factorized Codec with ADSR Envelope Control #音频生成 #解耦表征学习 #因子分解 #合成器 #音频迁移 🔥 8.5/10 | 前25% | #音频生成 | #解耦表征学习 | #因子分解 #合成器 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 1.0 | 置信度 高 👥 作者与机构 第一作者:Jeng-Yue Liu(国立台湾大学,中央研究院,卡内基梅隆大学) 通讯作者:未说明(论文标注“Jeng-Yue Liu1,2,3∗, Ting-Chao Hsu1∗”为共同第一作者,未明确通讯作者) 作者列表:Jeng-Yue Liu(国立台湾大学,中央研究院,卡内基梅隆大学)、Ting-Chao Hsu(国立台湾大学)、Yen-Tung Yeh(国立台湾大学)、Li Su(中央研究院)、Yi-Hsuan Yang(国立台湾大学) 💡 毒舌点评 论文直击合成器音频迁移中“包络控制”这个长期被忽略的痛点,并给出了一个从数据集到模型的完整解决方案,消融实验清晰地证明了显式建模ADSR的必要性,技术路线扎实。然而,其核心依赖的“音色”定义(从平稳区域提取one-shot)和数据集构建(依赖特定商业软件Serum及其预设)可能限制了模型对真实世界复杂合成器声音的泛化能力,使得“通用合成器迁移”的承诺打了一点折扣。 🔗 开源详情 代码: 论文提供了代码仓库链接:https://buffett0323.github.io/synthcloner/。 模型权重: 论文明确提到提供了模型检查点(model checkpoint),可通过上述链接获取。 数据集: 论文提出了SynthCAT数据集,并说明了其构成和渲染管线,但具体下载方式需查阅提供的链接或项目主页。 Demo: 论文提供了音频示例(audio examples)链接。 复现材料: 论文给出了详细的训练细节(实现框架、优化器、学习率、损失函数及权重、批量大小、训练步数、硬件),超参数(RVQ配置、音频段长)也已说明。 论文中引用的开源项目: 引用了audiotools(用于计算MSTFT)、torchcrepe(用于提取F0)等开源工具。模型架构灵感来源于FACodec和NANSY。 论文中未提及开源计划: 论文未提及。 📌 核心摘要 本文针对合成器风格音频迁移(SAT)任务,指出现有方法缺乏对ADSR包络(声音的时域动态)的显式控制。为此,作者提出了两个核心贡献:1)SynthCloner,一个因子分解编解码器模型,将音频解耦为ADSR包络、音色(时不变频谱特征)和内容(音高序列)三个独立属性,并支持对它们的独立控制和迁移;2)SynthCAT,一个通过系统化渲染流程构建的大规模合成器数据集,覆盖了250种音色、120种ADSR包络和100个MIDI序列的笛卡尔积,总计约3M样本。实验表明,在SynthCAT数据集上,SynthCloner在客观指标(多尺度STFT损失、对数RMS距离、F0 RMSE)和主观评估(音色相似度、ADSR包络相似度、内容相似度MOS)上均显著优于SS-VAE和CTD等基线模型。消融实验证实了显式ADSR建模对于高保真迁移至关重要。该工作为电子音乐制作提供了新的自动化工具,但其模型和数据集目前聚焦于单声道基础合成器声音,尚未涵盖LFO等复杂调制效果。 ...

2026-04-29 · 更新于 2026-05-20 · 2 min · 324 words

TAG: Structured Temporal Audio Generation via LLM-Guided Manual Scription and Control

📄 TAG: Structured Temporal Audio Generation via LLM-Guided Manual Scription and Control #音频生成 #大语言模型 #扩散模型 #免训练方法 #注意力机制 ✅ 7.5/10 | 前25% | #音频生成 | #扩散模型 | #大语言模型 #免训练方法 学术质量 7.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Hanwen Zhang(USC,美国) 通讯作者:Shuhui Wang(ICT, CAS,中国);Wei Yang(HUST,中国) 作者列表: Hanwen Zhang(USC,美国) Jinshen Zhang(HUST,中国) Cong Zhang(UCAS,中国) Shuhui Wang(ICT, CAS,中国) Wei Yang(HUST,中国) 💡 毒舌点评 亮点:该工作最大的价值在于提出了一个“即插即用”的免训练框架,通过操纵已有音频生成模型的注意力图来实现精确的时间控制,巧妙地将语言理解的复杂性与生成模型的控制分离。短板:其性能高度依赖于作为“大脑”的LLM的指令遵循能力和基础生成模型的预训练质量,论文未能充分分析这种依赖性带来的边界情况或失效模式。 🔗 开源详情 代码:论文中未提及代码链接。 模型权重:未提及公开的TAG框架自身或微调后的基础模型权重。 数据集:实验使用公开的Audiocaps和AudioCondition数据集,但论文未提供数据处理脚本或增强细节。 Demo:未提及在线演示。 复现材料:未提供详细的训练细节(针对基础模型)、配置文件、检查点或附录说明。 论文中引用的开源项目:引用了TANGO2, Stable Audio Open等基础模型,但未说明TAG框架如何具体集成这些模型的代码。 📌 核心摘要 本文针对现有文本到音频生成方法在生成具有复杂时间结构的音频时面临的挑战,提出了一种名为TAG的两阶段框架。问题:现有方法独立构建结构化信息,缺乏灵活性,且现有时间控制方法计算成本高或适应性有限。方法核心:第一阶段利用大语言模型作为推理器和规划器,将复杂文本提示解析为结构化的“音频生成手册”;第二阶段是一个免训练的生成框架,通过对扩散模型的交叉注意力图进行动态、自适应的调制,实现精确的时间控制。新意:相比独立于模型构建结构或需要重新训练的方法,TAG将LLM的语义规划能力与对现有模型注意力的无损操作相结合,且可轻松集成到各种基于注意力的扩散模型中(如UNet和DiT架构)。实验结果:在Audiocaps数据集上,TAG在保持或提升音频质量(FAD, CLAP)的同时,显著提升了文本-音频对齐度。在AudioCondition数据集上的时间控制评估表明,TAG在事件基指标(Eb)和宏观F1(At)上大幅超越了基线模型和先前的SOTA方法,例如,Stable Audio Open + TAG在Eb上达到47.21(基线8.13),At达到74.77(基线56.96)。实际意义:为可定制、时间结构精确的音频生成提供了一个高效、通用且易于部署的解决方案。局限性:方法的上限受限于基础生成模型的能力和LLM对复杂指令的解析精度;免训练的控制方式可能在某些极端场景下对原始生成分布造成干扰。 ...

2026-04-29 · 更新于 2026-05-20 · 2 min · 343 words

Taming Audio VAEs via Target-KL Regularization

📄 Taming Audio VAEs via Target-KL Regularization #音频生成 #扩散模型 #自编码器 #低资源 #基准测试 ✅ 6.5/10 | 前25% | #音频生成 | #扩散模型 | #自编码器 #低资源 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 -0.5 | 置信度 高 👥 作者与机构 第一作者:未说明(论文标注“Equal contribution”) 通讯作者:未说明 作者列表:Prem Seetharaman(Adobe Research), Rithesh Kumar(Adobe Research) 💡 毒舌点评 亮点:论文提出了一个清晰、可操作的框架(Target-KL正则化)来系统性地研究音频VAE训练中“正则化强度”与“重建质量”这一经典权衡,将原本模糊的“调节KL权重”转化为可量化、可比较的“目标比特率”,为潜在扩散模型的自编码器选型提供了重要方法论参考。 短板:论文的创新更多是方法论上的框架性改进,核心的VAE架构(DAC-VAE)本身并无颠覆性突破;下游生成任务的实验结论(如最优比特率)较为直观,且未能深入剖析高/低比特率影响生成质量的内在机理(如语义与声学特性的保留差异)。 🔗 开源详情 代码:论文中未提及代码链接。 模型权重:未提及。 数据集:论文使用了多个内部专有数据集,未提及公开。仅提到使用了标准公开数据集(AudioSet, CommonVoice等)进行评估或训练。 Demo:未提及。 复现材料:提供了部分训练细节(如模型架构修改、Passthrough比例、Target-KL值列表),但整体不足以支持完全复现。 论文中引用的开源项目:DAC、EnCodec、BigVGAN v2、Stable Audio Open、FLAM、T5、Phonemizer等。 📌 核心摘要 问题:在潜在扩散模型中,音频变分自编码器(VAE)的训练是一个“黑盒”过程,其正则化强度(KL散度权重λ)难以调节,导致在“重建质量差”和“潜空间难以预测”之间摇摆,缺乏系统的权衡研究框架。 方法核心:提出Target-KL正则化方法。其核心思想是将VAE的KL散度项与信息论中的“比特率”联系起来,通过新增一个损失项 L_target-KL = (KL - KL_target)^2,将训练目标从“调节KL权重λ”转变为“直接回归一个目标KL值”,从而实现训练特定、固定比特率的连续VAE。 新意:这是首次为连续音频VAE提供一个类似于离散神经编解码器的、可精确定位压缩率(比特率)的训练框架。这使得连续与离散模型(如EnCodec, DAC)能在统一的速率-失真曲线上进行直接、公平的比较。 主要实验结果: 在音频压缩任务上(AudioSet评估集),论文提出的DAC-VAE架构在所有比特率下均达到了最优的速率-失真帕累托曲线,优于SpectroStream、Stable Audio VAE以及离散的RVQ模型。 文本到声音效果生成实验表明,存在一个最优的压缩率(约11.56 kbps,对应Target-KL=200),在此点下游扩散模型的文本-音频相似度(70.67)和生成质量(KAD: 1.70)最佳,过高或过低比特率均导致性能下降。 文本到语音(TTS) 实验显示了更复杂的模式:低比特率模型通常带来更好的词错误率(WER)和说话人相似度(SSIM),但定性分析发现部分高比特率模型生成的语音虽内容准确,但自然度较差。 关键数据见下表: 模型 目标KL (实际KL) 比特率 (kbps) 文本-音频相似度 KAD ↓ FAD ↓ Ours 200 (200.39) 11.56 70.67 1.70 0.11 Ours 80 (132.63) 7.65 69.76 1.93 0.11 Ours 320 (341.26) 19.69 68.80 2.28 0.12 SAO (Stable Audio Open) - (82.16) 4.74 68.38 2.13 0.13 实际意义:为潜在扩散模型(如文本到音频/音乐/语音)的自编码器组件提供了一种更可控、可复现的训练方法。研究者可以像选择离散编解码器比特率一样,为连续VAE选择一个明确的压缩目标,从而系统性地优化生成流水线。 局限性:论文未探讨模型规模(参数量)与给定比特率预算下重建质量的关系;其提出的“最优比特率”可能高度依赖于具体的下游生成任务和数据分布,结论的普适性有待验证;对TTS任务中出现的复杂现象(高比特率WER低但不自然)未给出深入解释。 🏗️ 模型架构 论文的核心是提出并评估了一种连续VAE架构,名为DAC-VAE,其整体流程和关键组件如下: ...

2026-04-29 · 更新于 2026-05-20 · 2 min · 352 words

Text2Move: Text-To-Moving Sound Generation via Trajectory Prediction and Temporal Alignment

📄 Text2Move: Text-To-Moving Sound Generation via Trajectory Prediction and Temporal Alignment #空间音频 #音频生成 #预训练 #多任务学习 #数据集 🔥 8.0/10 | 前25% | #空间音频 | #多任务学习 | #音频生成 #预训练 学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度 高 👥 作者与机构 第一作者:Yunyi Liu(悉尼大学 University of Sydney) 通讯作者:未说明 作者列表:Yunyi Liu(悉尼大学)、Shaofan Yang(杜比实验室 Dolby Laboratories)、Kai Li(杜比实验室)、Xu Li(杜比实验室) 💡 毒舌点评 论文的亮点在于其巧妙的“分解”思想,将复杂的移动声音生成问题拆解为可控的轨迹预测、单声道音频生成与基于对象的音频空间化,框架清晰且具有很好的模块化扩展性。但短板在于,为了评估轨迹预测模块,构建了一个基于线性匀速运动的简化合成数据集,这可能无法充分代表真实世界中声音轨迹的复杂性和音频的多样性,使得方法在泛化到真实场景时的有效性存疑。 🔗 开源详情 代码:论文中未提及代码仓库链接。 模型权重:未提及公开模型权重。 数据集:论文中明确说明构建了合成数据集(76,850个样本),但未提供公开下载或获取方式。 Demo:提供了在线演示网站链接:https://reinliu.github.io/text2move/。 复现材料:论文给出了部分训练细节(优化器、学习率、轮数、批次大小等),但未提供完整的配置、检查点或附录说明。 论文中引用的开源项目:使用了DistilBERT文本编码器[14]、Make-An-Audio 2扩散模型[16]、AudioTime数据集[17]和HRTF库[18]。 📌 核心摘要 问题:现有文本驱动的空间音频生成主要聚焦于静态声源,无法有效生成具有动态空间运动的声音,限制了沉浸式体验。 方法核心:提出一种混合框架,将生成过程分解为:a) 从文本预测声源的三维时空轨迹;b) 微调一个预训练的文本到音频模型以生成与该轨迹时间对齐的单声道音频;c) 基于预测的轨迹对单声道音频进行基于对象的空间化模拟。 新意:首次在统一框架中显式地连接了文本、轨迹和音频,利用了“轨迹”作为中间表示来提供精确的空间和时间控制,区别于端到端生成FOA或双耳音频的方法。 主要结果: 文本到轨迹模型在合成测试集上表现出合理的预测能力(例如,方位角MAE为18.53°,范围感知MAE为15.52°)。 轨迹预测器和时间调整器均能实现高精度的时间对齐(起止点MAE均低于0.01秒,重叠率OLR分别为0.86和0.94)。 与仅预测端点的基线模型相比,全轨迹预测模型的绝对精度较低,但预测结果仍落在预定义的空间范围内。 实际意义:为可控的移动声音生成提供了新思路,可集成到现有的文本到音频工作流中,应用于VR/AR、游戏、电影音效等需要动态空间音频的领域。 主要局限性:完全依赖于构建的合成数据集进行训练和评估,数据集中的运动轨迹为简单的线性匀速运动,音频与空间属性是解耦合成的,可能无法完全反映真实世界数据的复杂性;未与现有的端到端空间音频生成方法在生成质量(如听感自然度、空间准确性)上进行直接对比。 🏗️ 模型架构 本文提出的Text2Move框架由两个主要部分构成,其整体架构如图1所示。 ...

2026-04-29 · 更新于 2026-05-20 · 2 min · 243 words

Training-Free Multimodal Guidance for Video to Audio Generation

📄 Training-Free Multimodal Guidance for Video to Audio Generation #音频生成 #多模态模型 #扩散模型 #音视频 🔥 8.0/10 | 前25% | #音频生成 | #扩散模型 #多模态模型 | #多模态模型 #扩散模型 学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Eleonora Grassucci*(罗马第一大学信息工程、电子与电信系) 通讯作者:未说明 作者列表:Eleonora Grassucci(罗马第一大学信息工程、电子与电信系)、Giuliano Galadini(罗马第一大学信息工程、电子与电信系;米兰理工大学电子、信息与生物工程系)、Giordano Cicchetti*(罗马第一大学信息工程、电子与电信系)、Aurelio Uncini(罗马第一大学信息工程、电子与电信系)、Fabio Antonacci(米兰理工大学电子、信息与生物工程系)、Danilo Comminiello(罗马第一大学信息工程、电子与电信系) 💡 毒舌点评 亮点:巧妙地将多模态嵌入空间的“体积”作为语义一致性度量,并将其融入扩散过程的梯度引导,为训练-free的V2A生成提供了一个优雅且理论动机清晰的新方向。短板:该方法高度依赖于一个强大的预训练多模态对齐空间(GRAM),且实验主要限于合成数据集VGGSound和描述性数据集AudioCaps,其在复杂真实场景(如声源不可见、环境噪声大)下的鲁棒性和有效性有待进一步验证。 🔗 开源详情 代码:论文中未提及代码仓库链接。 模型权重:论文中使用了公开的预训练模型:cvssp/audioldm-m-full(AudioLDM)和 GRAM 预训练权重(4modalities checkpoint)。作者自己的方法无需训练,因此无自有模型权重。 数据集:使用了公开的VGGSound和AudioCaps测试集。论文中说明VGGSound评估使用了3k样本,AudioCaps使用了697个样本。 Demo:未提及。 复现材料:论文详细给出了所有关键实现细节,包括模型选择、超参数设置(优化器、学习率、采样步数、warmup比例)、输入处理方式,并提供了完整的算法伪代码(Algorithm 1),复现指南较为充分。 论文中引用的开源项目:主要引用了 AudioLDM、GRAM、ImageBind 以及评估工具 AVGen-Eval Toolkit。 📌 核心摘要 问题:现有视频到音频(V2A)生成方法要么需要在大规模配对数据上进行昂贵的联合训练,要么依赖于成对的相似度(如余弦相似度)进行引导,这可能导致全局多模态一致性不足,生成语义不对齐的音频。 方法核心:提出了一种新颖的训练-free多模态扩散引导(MDG)机制。其核心思想是利用视频、音频、文本三种模态的嵌入向量在共享潜在空间中张成的平行六面体体积作为语义相似度的度量。在推理时,通过最小化这个体积来引导预训练的音频扩散模型的去噪过程,使生成的音频在嵌入空间中与视频和文本条件“对齐”。 与已有方法相比新在哪里:不同于之前依赖成对余弦相似度的引导方法(如Seeing&Hearing),MDG提出了基于三模态联合几何结构(体积)的引导信号,能更有效地捕捉跨模态的全局语义一致性。该方法是训练-free、即插即用的,无需修改扩散模型或编码器。 主要实验结果:在VGGSound数据集上,MDG在几乎所有评估指标(FAD、FAVD、PEAVS、KL、ISc、FD)上均优于基线方法(SpecVQGAN, Diff-Foley, Seeing&Hearing)。例如,FAD从Seeing&Hearing的7.80降至6.04,FAVD从3.44降至2.60。在AudioCaps数据集上,MDG也持续优于Seeing&Hearing。语义一致性分析显示,MDG生成音频与原始视频及文本的体积V和跨模态距离均更小。 实际意义:提供了一种轻量、高效、可即插即用地增强现有音频生成模型多模态对齐能力的方法,无需昂贵的训练,降低了V2A生成技术的应用门槛。 主要局限性:性能依赖于GRAM预训练编码器的质量;引导过程需要额外的编码和优化计算;在音频与视觉内容关联不直接的数据集(如AudioCaps)上,提升幅度相对有限。 🏗️ 模型架构 本文提出的多模态扩散引导(MDG)是一个训练-free的推理时引导框架,它不设计新的生成模型,而是为现有的预训练音频扩散模型提供一个控制信号。其整体流程如下: ...

2026-04-29 · 更新于 2026-05-20 · 2 min · 321 words