TAG: Structured Temporal Audio Generation via LLM-Guided Manual Scription and Control

📄 TAG: Structured Temporal Audio Generation via LLM-Guided Manual Scription and Control #音频生成 #大语言模型 #扩散模型 #免训练方法 #注意力机制 ✅ 7.5/10 | 前25% | #音频生成 | #扩散模型 | #大语言模型 #免训练方法 学术质量 7.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Hanwen Zhang(USC,美国) 通讯作者:Shuhui Wang(ICT, CAS,中国);Wei Yang(HUST,中国) 作者列表: Hanwen Zhang(USC,美国) Jinshen Zhang(HUST,中国) Cong Zhang(UCAS,中国) Shuhui Wang(ICT, CAS,中国) Wei Yang(HUST,中国) 💡 毒舌点评 亮点:该工作最大的价值在于提出了一个“即插即用”的免训练框架,通过操纵已有音频生成模型的注意力图来实现精确的时间控制,巧妙地将语言理解的复杂性与生成模型的控制分离。短板:其性能高度依赖于作为“大脑”的LLM的指令遵循能力和基础生成模型的预训练质量,论文未能充分分析这种依赖性带来的边界情况或失效模式。 📌 核心摘要 本文针对现有文本到音频生成方法在生成具有复杂时间结构的音频时面临的挑战,提出了一种名为TAG的两阶段框架。问题:现有方法独立构建结构化信息,缺乏灵活性,且现有时间控制方法计算成本高或适应性有限。方法核心:第一阶段利用大语言模型作为推理器和规划器,将复杂文本提示解析为结构化的“音频生成手册”;第二阶段是一个免训练的生成框架,通过对扩散模型的交叉注意力图进行动态、自适应的调制,实现精确的时间控制。新意:相比独立于模型构建结构或需要重新训练的方法,TAG将LLM的语义规划能力与对现有模型注意力的无损操作相结合,且可轻松集成到各种基于注意力的扩散模型中(如UNet和DiT架构)。实验结果:在Audiocaps数据集上,TAG在保持或提升音频质量(FAD, CLAP)的同时,显著提升了文本-音频对齐度。在AudioCondition数据集上的时间控制评估表明,TAG在事件基指标(Eb)和宏观F1(At)上大幅超越了基线模型和先前的SOTA方法,例如,Stable Audio Open + TAG在Eb上达到47.21(基线8.13),At达到74.77(基线56.96)。实际意义:为可定制、时间结构精确的音频生成提供了一个高效、通用且易于部署的解决方案。局限性:方法的上限受限于基础生成模型的能力和LLM对复杂指令的解析精度;免训练的控制方式可能在某些极端场景下对原始生成分布造成干扰。 ...

2026-04-29

Taming Audio VAEs via Target-KL Regularization

📄 Taming Audio VAEs via Target-KL Regularization #音频生成 #扩散模型 #自编码器 #低资源 #基准测试 ✅ 6.5/10 | 前25% | #音频生成 | #扩散模型 | #自编码器 #低资源 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 -0.5 | 置信度 高 👥 作者与机构 第一作者:未说明(论文标注“Equal contribution”) 通讯作者:未说明 作者列表:Prem Seetharaman(Adobe Research), Rithesh Kumar(Adobe Research) 💡 毒舌点评 亮点:论文提出了一个清晰、可操作的框架(Target-KL正则化)来系统性地研究音频VAE训练中“正则化强度”与“重建质量”这一经典权衡,将原本模糊的“调节KL权重”转化为可量化、可比较的“目标比特率”,为潜在扩散模型的自编码器选型提供了重要方法论参考。 短板:论文的创新更多是方法论上的框架性改进,核心的VAE架构(DAC-VAE)本身并无颠覆性突破;下游生成任务的实验结论(如最优比特率)较为直观,且未能深入剖析高/低比特率影响生成质量的内在机理(如语义与声学特性的保留差异)。 📌 核心摘要 问题:在潜在扩散模型中,音频变分自编码器(VAE)的训练是一个“黑盒”过程,其正则化强度(KL散度权重λ)难以调节,导致在“重建质量差”和“潜空间难以预测”之间摇摆,缺乏系统的权衡研究框架。 方法核心:提出Target-KL正则化方法。其核心思想是将VAE的KL散度项与信息论中的“比特率”联系起来,通过新增一个损失项 L_target-KL = (KL - KL_target)^2,将训练目标从“调节KL权重λ”转变为“直接回归一个目标KL值”,从而实现训练特定、固定比特率的连续VAE。 新意:这是首次为连续音频VAE提供一个类似于离散神经编解码器的、可精确定位压缩率(比特率)的训练框架。这使得连续与离散模型(如EnCodec, DAC)能在统一的速率-失真曲线上进行直接、公平的比较。 主要实验结果: 在音频压缩任务上(AudioSet评估集),论文提出的DAC-VAE架构在所有比特率下均达到了最优的速率-失真帕累托曲线,优于SpectroStream、Stable Audio VAE以及离散的RVQ模型。 文本到声音效果生成实验表明,存在一个最优的压缩率(约11.56 kbps,对应Target-KL=200),在此点下游扩散模型的文本-音频相似度(70.67)和生成质量(KAD: 1.70)最佳,过高或过低比特率均导致性能下降。 文本到语音(TTS) 实验显示了更复杂的模式:低比特率模型通常带来更好的词错误率(WER)和说话人相似度(SSIM),但定性分析发现部分高比特率模型生成的语音虽内容准确,但自然度较差。 关键数据见下表: 模型 目标KL (实际KL) 比特率 (kbps) 文本-音频相似度 KAD ↓ FAD ↓ Ours 200 (200.39) 11.56 70.67 1.70 0.11 Ours 80 (132.63) 7.65 69.76 1.93 0.11 Ours 320 (341.26) 19.69 68.80 2.28 0.12 SAO (Stable Audio Open) - (82.16) 4.74 68.38 2.13 0.13 实际意义:为潜在扩散模型(如文本到音频/音乐/语音)的自编码器组件提供了一种更可控、可复现的训练方法。研究者可以像选择离散编解码器比特率一样,为连续VAE选择一个明确的压缩目标,从而系统性地优化生成流水线。 局限性:论文未探讨模型规模(参数量)与给定比特率预算下重建质量的关系;其提出的“最优比特率”可能高度依赖于具体的下游生成任务和数据分布,结论的普适性有待验证;对TTS任务中出现的复杂现象(高比特率WER低但不自然)未给出深入解释。 🏗️ 模型架构 论文的核心是提出并评估了一种连续VAE架构,名为DAC-VAE,其整体流程和关键组件如下: ...

2026-04-29

Text2Move: Text-To-Moving Sound Generation via Trajectory Prediction and Temporal Alignment

📄 Text2Move: Text-To-Moving Sound Generation via Trajectory Prediction and Temporal Alignment #空间音频 #音频生成 #预训练 #多任务学习 #数据集 🔥 8.0/10 | 前25% | #空间音频 | #多任务学习 | #音频生成 #预训练 学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度 高 👥 作者与机构 第一作者:Yunyi Liu(悉尼大学 University of Sydney) 通讯作者:未说明 作者列表:Yunyi Liu(悉尼大学)、Shaofan Yang(杜比实验室 Dolby Laboratories)、Kai Li(杜比实验室)、Xu Li(杜比实验室) 💡 毒舌点评 论文的亮点在于其巧妙的“分解”思想,将复杂的移动声音生成问题拆解为可控的轨迹预测、单声道音频生成与基于对象的音频空间化,框架清晰且具有很好的模块化扩展性。但短板在于,为了评估轨迹预测模块,构建了一个基于线性匀速运动的简化合成数据集,这可能无法充分代表真实世界中声音轨迹的复杂性和音频的多样性,使得方法在泛化到真实场景时的有效性存疑。 📌 核心摘要 问题:现有文本驱动的空间音频生成主要聚焦于静态声源,无法有效生成具有动态空间运动的声音,限制了沉浸式体验。 方法核心:提出一种混合框架,将生成过程分解为:a) 从文本预测声源的三维时空轨迹;b) 微调一个预训练的文本到音频模型以生成与该轨迹时间对齐的单声道音频;c) 基于预测的轨迹对单声道音频进行基于对象的空间化模拟。 新意:首次在统一框架中显式地连接了文本、轨迹和音频,利用了“轨迹”作为中间表示来提供精确的空间和时间控制,区别于端到端生成FOA或双耳音频的方法。 主要结果: 文本到轨迹模型在合成测试集上表现出合理的预测能力(例如,方位角MAE为18.53°,范围感知MAE为15.52°)。 轨迹预测器和时间调整器均能实现高精度的时间对齐(起止点MAE均低于0.01秒,重叠率OLR分别为0.86和0.94)。 与仅预测端点的基线模型相比,全轨迹预测模型的绝对精度较低,但预测结果仍落在预定义的空间范围内。 实际意义:为可控的移动声音生成提供了新思路,可集成到现有的文本到音频工作流中,应用于VR/AR、游戏、电影音效等需要动态空间音频的领域。 主要局限性:完全依赖于构建的合成数据集进行训练和评估,数据集中的运动轨迹为简单的线性匀速运动,音频与空间属性是解耦合成的,可能无法完全反映真实世界数据的复杂性;未与现有的端到端空间音频生成方法在生成质量(如听感自然度、空间准确性)上进行直接对比。 🏗️ 模型架构 本文提出的Text2Move框架由两个主要部分构成,其整体架构如图1所示。 ...

2026-04-29

Training-Free Multimodal Guidance for Video to Audio Generation

📄 Training-Free Multimodal Guidance for Video to Audio Generation #音频生成 #多模态模型 #扩散模型 #音视频 🔥 8.0/10 | 前25% | #音频生成 | #扩散模型 #多模态模型 | #多模态模型 #扩散模型 学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Eleonora Grassucci*(罗马第一大学信息工程、电子与电信系) 通讯作者:未说明 作者列表:Eleonora Grassucci(罗马第一大学信息工程、电子与电信系)、Giuliano Galadini(罗马第一大学信息工程、电子与电信系;米兰理工大学电子、信息与生物工程系)、Giordano Cicchetti*(罗马第一大学信息工程、电子与电信系)、Aurelio Uncini(罗马第一大学信息工程、电子与电信系)、Fabio Antonacci(米兰理工大学电子、信息与生物工程系)、Danilo Comminiello(罗马第一大学信息工程、电子与电信系) 💡 毒舌点评 亮点:巧妙地将多模态嵌入空间的“体积”作为语义一致性度量,并将其融入扩散过程的梯度引导,为训练-free的V2A生成提供了一个优雅且理论动机清晰的新方向。短板:该方法高度依赖于一个强大的预训练多模态对齐空间(GRAM),且实验主要限于合成数据集VGGSound和描述性数据集AudioCaps,其在复杂真实场景(如声源不可见、环境噪声大)下的鲁棒性和有效性有待进一步验证。 📌 核心摘要 问题:现有视频到音频(V2A)生成方法要么需要在大规模配对数据上进行昂贵的联合训练,要么依赖于成对的相似度(如余弦相似度)进行引导,这可能导致全局多模态一致性不足,生成语义不对齐的音频。 方法核心:提出了一种新颖的训练-free多模态扩散引导(MDG)机制。其核心思想是利用视频、音频、文本三种模态的嵌入向量在共享潜在空间中张成的平行六面体体积作为语义相似度的度量。在推理时,通过最小化这个体积来引导预训练的音频扩散模型的去噪过程,使生成的音频在嵌入空间中与视频和文本条件“对齐”。 与已有方法相比新在哪里:不同于之前依赖成对余弦相似度的引导方法(如Seeing&Hearing),MDG提出了基于三模态联合几何结构(体积)的引导信号,能更有效地捕捉跨模态的全局语义一致性。该方法是训练-free、即插即用的,无需修改扩散模型或编码器。 主要实验结果:在VGGSound数据集上,MDG在几乎所有评估指标(FAD、FAVD、PEAVS、KL、ISc、FD)上均优于基线方法(SpecVQGAN, Diff-Foley, Seeing&Hearing)。例如,FAD从Seeing&Hearing的7.80降至6.04,FAVD从3.44降至2.60。在AudioCaps数据集上,MDG也持续优于Seeing&Hearing。语义一致性分析显示,MDG生成音频与原始视频及文本的体积V和跨模态距离均更小。 实际意义:提供了一种轻量、高效、可即插即用地增强现有音频生成模型多模态对齐能力的方法,无需昂贵的训练,降低了V2A生成技术的应用门槛。 主要局限性:性能依赖于GRAM预训练编码器的质量;引导过程需要额外的编码和优化计算;在音频与视觉内容关联不直接的数据集(如AudioCaps)上,提升幅度相对有限。 🏗️ 模型架构 本文提出的多模态扩散引导(MDG)是一个训练-free的推理时引导框架,它不设计新的生成模型,而是为现有的预训练音频扩散模型提供一个控制信号。其整体流程如下: 输入:一个无声视频 x_v 和一个可选的文本描述 x_p。 预训练组件: 音频生成模型:采用一个潜在扩散模型(LDM),具体是预训练的 AudioLDM。它包含音频编码器 E_a、解码器 D、扩散去噪网络 ε_θ 和一个基于文本的条件机制。 多模态编码器:采用预训练的 GRAM 编码器,它能将视频帧、音频频谱图和文本分别映射到一个共享的、对齐的D维潜在空间中。具体使用:EVAClip-ViT-G(视频),BEATS(音频),BERT-B(文本),记为 E_v, E_a, E_p。 引导流程(如算法1所示): 条件编码:首先,使用 E_p 和 E_v 分别编码文本和视频,得到固定的嵌入 e_p 和 e_v。 扩散采样循环:启动 AudioLDM 的标准DDIM采样过程(共T步)。 注入引导:在采样循环的后80%步数中(即当 t < K,K为warmup步数),在每个去噪步骤后执行引导优化: 根据当前带噪潜变量 z_a^t,通过去噪网络预测一个干净的音频潜变量 ~z_a^0。 使用 E_a 将 ~z_a^0 编码为音频嵌入 e_a。 计算由向量 e_v, e_a, e_p 构成的格拉姆矩阵 K 及其行列式的平方根,即体积 V(公式7)。 通过梯度下降更新带噪潜变量:z_a^t ← z_a^t - η ∇_{z_a^t} V,使体积减小。 输出:采样结束后,得到引导后的音频潜变量 z_a^0,经解码器 D 得到最终音频频谱图,再可通过任何声码器转换为波形。 图2] 图2:多模态扩散引导(MDG)框架概览。图中显示了视频输入 x_v 和文本输入 x_p 被编码为嵌入,与当前生成的音频嵌入 e_a 一起计算体积 V,该体积信号通过梯度反向传播来调整音频扩散模型的去噪轨迹 z_a^t。 ...

2026-04-29

Universr: Unified and Versatile Audio Super-Resolution Via Vocoder-Free Flow Matching

📄 Universr: Unified and Versatile Audio Super-Resolution Via Vocoder-Free Flow Matching #音频超分辨率 #流匹配 #语音增强 #音频生成 #模型评估 🔥 8.0/10 | 前25% | #音频超分辨率 | #流匹配 | #语音增强 #音频生成 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.8 | 置信度 高 👥 作者与机构 第一作者:Woongjib Choi(延世大学电气与电子工程系) 通讯作者:未说明 作者列表:Woongjib Choi(延世大学电气与电子工程系)、Sangmin Lee(延世大学电气与电子工程系)、Hyungseob Lim(延世大学电气与电子工程系)、Hong-Goo Kang(延世大学电气与电子工程系) 💡 毒舌点评 这篇论文最大的亮点是提供了一个优雅且高效的“去vocoder”解决方案,用一个统一的流匹配模型直击频谱,避免了传统两阶段管线的性能天花板,在主观听感上甚至优于vocoded的GT。然而,其核心架构本质是成熟的ConvNeXt V2 U-Net在频域数据上的应用,创新更多体现在任务定义和流程整合上,而非模型架构本身,这使得它更像一个工程上的巧妙优化而非理论上的重大突破。 📌 核心摘要 要解决什么问题:传统的两阶段音频超分辨率方法需要先预测梅尔频谱,再依赖预训练的神经声码器合成波形,导致最终质量受限于声码器性能,且流程复杂。 方法核心是什么:论文提出 UniverSR,一个无 vocoder 的端到端框架。它将音频超分辨率视为频谱修复问题,使用流匹配生成模型直接估计低频谱条件下的复数谱系数(包含幅度和相位)的条件分布,然后通过逆短时傅里叶变换(iSTFT)直接恢复波形。 与已有方法相比新在哪里:a) 去 vocoder:直接建模复数谱,无需单独的波形合成阶段,简化了流程并突破了性能瓶颈;b) 使用流匹配:相比传统扩散模型,流匹配在较少采样步数(如4步)下即可生成高质量结果,效率更高;c) 统一架构:单一模型可处理语音、音乐、音效等多种音频类型及多种上采样倍率(×2 到 ×6)。 主要实验结果如何: 在统一模型评估中(Table 1),UniverSR 在音乐和音效领域全面超越 AudioSR 和 FlashSR,在语音领域也达到竞争水平,且参数量(57M)远小于基线(>600M)。 在纯语音数据集VCTK上的评估(Table 2)显示,在最具挑战性的8kHz→48kHz任务中,UniverSR 取得了最优的 LSD-HF(1.14)和2f-model(31.41)分数。 主观听感测试(图3)表明,在8kHz上采样任务中,UniverSR 的MOS分数最高,甚至高于“经vocoder处理的真实音频(GT (Vocoded))”。 定性分析(图4)显示,UniverSR 生成的频谱谐波结构更清晰,高频细节更丰富。 消融研究(Table 3)表明,引导尺度 ω 的选择在感知丰富度和客观保真度之间存在权衡。 实际意义是什么:该方法为高质量、高效的音频带宽扩展提供了一个更简洁、更统一的解决方案,可广泛应用于提升语音清晰度、修复历史录音、增强流媒体音频质量等场景。其“去 vocoder”范式可能启发其他音频生成任务。 主要局限性是什么:论文未明确讨论模型在极度低比特率或极端噪声条件下的鲁棒性;频谱修复方法依赖于STFT/iSTFT,可能引入相位相关的伪影(虽然实验显示听感良好);模型在最困难的语音任务(8kHz→48kHz)上,部分客观指标(如2f-model)略低于某些基线。 🏗️ 模型架构 整体流程:模型采用端到端设计。输入为低分辨率(LR)波形 s_lr,首先通过 sinc 插值上采样至目标高分辨率(HR)长度,然后进行STFT得到复数谱。从复数谱中提取包含所有可能高频区域的固定大小高频目标 X_h,以及对应于原始LR带宽的低频谱 X_l。训练时,向量场估计器(VFE)在流匹配目标下学习,以低频谱 X_l 为条件,从高斯噪声中逐步生成 X_h。推理时,从噪声开始,通过ODE求解器迭代生成 X_h,最后与 X_l 拼接成完整频谱,并通过iSTFT得到HR波形。 ...

2026-04-29

Via Score to Performance: Efficient Human-Controllable Long Song Generation with Bar-Level Symbolic Notation

📄 Via Score to Performance: Efficient Human-Controllable Long Song Generation with Bar-Level Symbolic Notation #音乐生成 #自回归模型 #音频生成 #开源工具 ✅ 7.5/10 | 前25% | #音乐生成 | #自回归模型 | #音频生成 #开源工具 学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 中 👥 作者与机构 第一作者:Tongxi Wang(Southeast University, 中国) 通讯作者:Junlang Qian(Nanyang Technological University, 新加坡) 作者列表:Tongxi Wang(Southeast University), Yang Yu(Southeast University), Qing Wang(Southeast University), Junlang Qian(Nanyang Technological University) 💡 毒舌点评 这篇论文的“先乐谱后表演”范式巧妙地将复杂音频生成问题解耦为可解释的符号生成和相对成熟的音频渲染问题,在可控性和效率上取得了显著进步,是思路清晰的“曲线救国”方案。然而,其“演奏”阶段严重依赖商用歌声合成软件VOCALOID和通用MIDI合成器FluidSynth,这使得最终音频质量的上限被锁定在这些工具的能力上,论文的“端到端”生成能力并非完全自包含,这在一定程度上削弱了其作为完全自主生成系统的创新性说服力。 📌 核心摘要 问题:现有基于音频的歌曲生成方法存在可控性差、可解释性弱、计算开销大的问题。将歌曲生成视为同时学习音乐理论与演奏的“即兴表演”,任务过于复杂。 方法核心:提出“先作曲后演奏”的新范式和BACH(Bar-level AI Composing Helper)框架。核心是使用小节(bar)作为语义单元进行符号乐谱生成,再将生成的乐谱渲染为音频。 创新点:首次将小节级符号乐谱生成引入歌曲生成;提出小节流分块(bar-stream patching) 和双流预测(Dual-NTP) 方法,分别处理人声与伴奏;引入链式乐谱(Chain-of-Score) 条件化以保持长程结构一致性。 实验结果: 自动评估(表1):BACH在多个指标上达到SOTA,尤其是内容感知指标(CE、CU)和音频-文本对齐指标(CLaMP3)。其KL散度显著优于商业系统(如0.391 vs Suno的0.620)。 人类评估(图4):BACH在音乐性上超越所有开源基线(YuE、YuE-light等),并与Udio有竞争力,略逊于Suno。在可控性(图5)上,其节拍/节奏和人声伴奏平衡表现突出。 效率:在RTX 4090上生成3分钟歌曲仅需约5分钟,远快于YuE等模型。 实际意义:提供了一种高效、可控、可解释的AI歌曲生成路径,生成的乐谱可被人直接阅读和编辑,极大促进了人机协作创作。代码开源有助于推动该方向研究。 主要局限性:最终音频渲染质量受限于外部工具(VOCALOID, FluidSynth),非端到端的纯AI生成;在风格和情感控制等可控性维度上仍有提升空间;论文未公开模型权重和完整训练细节。 🏗️ 模型架构 BACH是一个三阶段的系统流水线: ...

2026-04-29

UniSonate: A Unified Model for Speech, Music, and Sound Effect Generation with Text Instructions

📄 UniSonate: A Unified Model for Speech, Music, and Sound Effect Generation with Text Instructions #音频生成 #流匹配 #扩散模型 #统一音频模型 #语音合成 🔥 8.5/10 | 前25% | #音频生成 | #流匹配 | #扩散模型 #统一音频模型 | arxiv 学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Chunyu Qiang(天津大学, 快手科技) 通讯作者:Longbiao Wang(天津大学), Jianwu Dang(天津大学) 作者列表:Chunyu Qiang(天津大学, 快手科技)、Xiaopeng Wang(快手科技)、Kang Yin(快手科技)、Yuzhe Liang(快手科技)、Yuxin Guo(快手科技, 中国科学院自动化研究所)、Teng Ma(快手科技)、Ziyu Zhang(快手科技)、Tianrui Wang(天津大学)、Cheng Gong(天津大学)、Yushen Chen(快手科技)、Ruibo Fu(中国科学院自动化研究所)、Chen Zhang(快手科技)、Longbiao Wang(天津大学)、Jianwu Dang(天津大学) 💡 毒舌点评 亮点:论文真正实现了语音、音乐、音效的“三合一”生成,且通过精巧的“动态token注入”和“课程学习”让这个庞然大物不仅能跑,还在语音和音乐的主流评测中刷出了新SOTA,证明了“团结就是力量”。 短板:在音效生成这个“混沌领域”,这个统一模型还是打不过那些专精于此的专门模型(如GenAU-L),并且论文未开源代码和模型,让其优秀的实验结论暂时停留在了“可看不可摸”的阶段。 ...

2026-04-27

Materialistic RIR: Material Conditioned Realistic RIR Generation

📄 Materialistic RIR: Material Conditioned Realistic RIR Generation #音频生成 #多模态模型 #Transformer #对比学习 #空间音频 ✅ 7.5/10 | 前25% | #音频生成 | #多模态模型 | #Transformer #对比学习 | arxiv 学术质量 3.8/7 | 选题价值 1.5/2 | 复现加成 0.2 | 置信度 中 👥 作者与机构 第一作者:Mahnoor Fatima Saad (University of Utah) 通讯作者:未说明 作者列表:Mahnoor Fatima Saad (University of Utah)、Sagnik Majumder (UT Austin)、Kristen Grauman (UT Austin)、Ziad Al-Halah (University of Utah) 💡 毒舌点评 这篇论文的亮点在于提出了一个优雅的解耦框架(MatRIR),将空间布局和材料属性对声学的影响分开建模,从而实现了对RIR生成的精细控制,这在概念上和实验上都比之前纠缠在一起的方法更合理。然而,其短板也相当明显:模型严重依赖模拟数据集(Acoustic Wonderland),且对某些材料(如钢)的建模效果不佳,这限制了其在真实世界复杂场景中的泛化能力;此外,论文未提供代码和预训练模型,大大削弱了其可复现性和即时影响力。 📌 核心摘要 问题:现有的房间脉冲响应(RIR)生成方法通常将场景的空间布局和材料属性纠缠在一个表示中,导致用户无法独立控制材料配置来探索其对声学的影响,限制了生成的灵活性和真实性。 方法核心:提出MatRIR模型,采用显式解耦设计。它包含一个空间模块(仅从RGB图像和深度图预测反映空间布局的初始RIR)和一个材料感知模块(根据用户指定的材料分割掩码,对初始RIR进行调制,生成最终的材料条件RIR)。该设计允许在不改变空间结构的情况下修改材料配置。 创新点:与先前方法(如M-CAPA)相比,核心创新在于显式解耦空间和材料因素的建模过程,而非在联合表示中隐式学习。此外,引入了两个新的评估指标(MatC和MatD)来专门衡量模型对材料声学特性的捕获能力。 主要实验结果:在Acoustic Wonderland数据集上,MatRIR在标准声学指标(如RTE)和材料指标(MatC, MatD)上均显著优于最强基线(M-CAPA)。具体而言,在未见材料配置的测试集上,RTE(混响时间误差)降低了约16.8%,材料分类准确率(MatC)提升了71.2%。人类感知研究显示,60.4%的参与者认为MatRIR生成的音频更真实。 实际意义:该工作为虚拟现实(VR)、增强现实(AR)、机器人和建筑声学设计等领域提供了更真实、可控的声学模拟能力,允许用户探索不同材料对空间听感的影响。 主要局限性:模型在输入视角受限(如靠近墙壁)或场景被严重遮挡时性能下降;对某些材料(如钢)的声学特性建模不准确;评估和训练完全依赖于模拟数据集,真实世界泛化能力有待验证。 🏗️ 模型架构 MatRIR模型采用模块化设计,核心思想是将空间和材料因素对RIR的影响显式分离并顺序建模。 ...

2026-04-24

BEAT: Tokenizing and Generating Symbolic Music by Uniform Temporal Steps

📄 BEAT: Tokenizing and Generating Symbolic Music by Uniform Temporal Steps #音乐生成 #自回归模型 #实时处理 #数据集 #音频生成 🔥 评分:8.5/10 | arxiv 👥 作者与机构 根据论文标题页信息,作者为: 第一作者:Lekai Qian 通讯作者:Ziyu Wang (根据常规学术论文作者排序惯例推断,论文未明确标注) 其他作者:Haoyu Gu, Jingwei Zhao 论文未明确标注作者所属机构。根据arXiv论文的常见情况及作者姓名推测,作者可能来自中国的高校或研究机构(如清华大学、北京大学、中国科学院等),但论文正文中未提供明确信息。 💡 毒舌点评 亮点:把钢琴卷帘(Piano-roll)这种“笨重”的2D表示,巧妙地“压扁”成按拍(beat)分组的稀疏token序列,既保留了时间网格的规整性,又获得了堪比事件序列的紧凑性,这个“鱼与熊掌兼得”的思路非常优雅。 槽点:模型规模(150M)相对保守,在当今大模型时代略显“迷你”,限制了其性能上限和作为通用音乐表示的潜力;此外,实验主要集中在西方音乐传统(MIDI, 4/4拍),对其他音乐文化的普适性有待验证。 📌 核心摘要 本文针对符号音乐生成中主流的事件序列(event-based)tokenization方法隐含处理时间规律、导致模型需额外学习时间网格的问题,提出了一种名为BEAT的新型网格化tokenization框架。其核心思想是将音乐在时间上均匀离散化为“拍”(beat)作为基本单位,将每拍内每个音高的活动状态(起音、持续、静音)编码为一个“模式”(pattern)令牌,并与音高、力度信息组合,形成按拍组织的稀疏令牌序列。这种方法显式地融入了音乐时间均匀性的归纳偏置。实验表明,在音乐续写和实时伴奏生成任务上,BEAT在节奏一致性(JS GC)、分布相似性(FMD)等客观指标和主观听感评价上均优于REMI、Compound Word等基线方法。进一步分析显示,BEAT表示更紧凑、具有更好的可压缩性,能更有效地捕捉长程结构,并天然支持实时流式生成。该工作为符号音乐表示学习提供了一个兼具理论优雅性和实践有效性的新方向。 🏗️ 模型架构 BEAT的核心并非一个全新的模型架构,而是一种新的音乐表示(tokenization)方案,该方案可无缝接入标准的自回归Transformer语言模型。 完整输入输出流程: 输入:多轨符号音乐(如MIDI),被表示为三维张量 (轨道数 P, 时间步数 T) 的钢琴卷帘矩阵,每个元素取值 {0(静音), 1(起音), 2(持续)},并附带力度信息。 编码阶段(BEAT Encoding): 步骤1(拍内编码):以固定时间步长 τ(默认为4个十六分音符,即一拍)将钢琴卷帘分割为 N 个“拍段” B(i)。对于每个拍段内的每个音高 p,将其 τ 个时间步的状态向量通过三进制转整数编码为一个“模式令牌” PAT_x。同时,计算该音高在此拍内的平均力度,编码为“力度令牌” VEL_x。 步骤2(拍级组装):识别当前拍段内的活跃音高集合,按音高降序排列。第一个音高使用绝对音高索引作为“音高令牌” PIT_d,后续音高使用与前一音高的相对音程差作为音高令牌。这样,一个拍的内容被表示为一组 (PIT_d, PAT_s, VEL_v) 三元组的序列。若该拍全休止,则用一个特殊的 REST 令牌表示。 步骤3(序列构建):在每个拍的序列前插入 BEAT 令牌作为分隔符。在每小节开始处插入 BAR 令牌。对于多轨音乐,在每个拍的轨道内容前插入乐器令牌 INS_x。最终,所有拍的序列按时间顺序拼接,形成完整的令牌序列。 建模阶段:将上述令牌序列输入标准的16层Transformer解码器(150M参数,遵循LLaMA架构),使用自回归方式建模令牌的联合概率分布,训练时最小化交叉熵损失。 输出与解码:模型自回归生成令牌序列。解码器通过识别绝对/相对音高令牌来重建拍段和钢琴卷帘,最终还原为可播放的符号音乐。 关键设计选择理由: ...

2026-04-22

Latent Fourier Transform

📄 Latent Fourier Transform #音乐生成 #扩散模型 #生成模型 #数据集 #音频生成 ✅ 评分:7.5/10 | arxiv 👥 作者与机构 第一作者:Mason L. Wang (MIT CSAIL) 通讯作者:Cheng-Zhi Anna Huang (MIT CSAIL) 其他作者:无 💡 毒舌点评 亮点:这篇论文最妙的地方在于,它没有去折腾音频波形本身,而是聪明地给音乐模型的“脑内活动”(潜在表示)做了一次傅里叶体检,然后像调EQ一样去调节音乐在不同时间尺度上的特征,思路非常清奇且有效。槽点:目前这“脑内手术”需要专门训练一套模型才能做,还不能直接给一个现成的音乐生成模型(如MusicLM)装上这个“傅里叶控制插件”,限制了其即插即用的潜力。 📌 核心摘要 这篇论文旨在解决现有音乐生成模型难以对任意时间尺度上的音乐模式进行精确控制的问题。作者提出了潜在傅里叶变换(LatentFT) 框架,其核心是将离散傅里叶变换应用于由扩散自编码器编码得到的潜在向量序列,从而得到“潜在频谱”。通过在训练过程中对潜在频谱进行随机频率掩码,迫使解码器学会从部分频率信息中重建音乐,使得训练后的模型潜在空间对频率域操作具有鲁棒性。这使得用户可以在推理时,通过指定潜在频率(对应音乐模式的时间尺度)来生成保留特定尺度特征的变体,或将两首乐曲按不同时间尺度进行混合。实验表明,LatentFT在条件生成和混合任务的保真度与质量上均优于多个基线方法。用户研究也证实了其生成质量和混合效果更受青睐。此外,论文还展示了隔离特定潜在频率以“聆听”对应音乐模式,以及分析不同音乐属性(如流派、和声、节奏)在潜在频谱中分布的能力。该工作为生成模型引入了一种直观、连续的频率域控制维度,推动了更可解释、可交互的音乐生成模型的发展。其局限性在于需要端到端训练特定模型,且目前主要应用于音乐领域。 🏗️ 模型架构 LatentFT 是一个端到端的编码器-解码器架构,其完整流程如下: 编码阶段: 输入:音频波形或梅尔频谱图 x₀。 编码器:将 x₀ 映射为一个时间序列的潜在向量 z ∈ R^(C'×T')。论文尝试了三种编码器:帧级MLP、1D U-Net(基于梅尔谱)和基于Descript音频编解码器(DAC)的编码器+1D U-Net。 潜在傅里叶变换:对潜在序列 z 沿时间轴应用离散傅里叶变换(DFT),得到潜在频谱 Z ∈ C^(C'×K)。Z 的频率轴称为潜在频率轴,其上的频率(Hz)对应于潜在序列振荡的速率,即音乐模式的时间尺度。 频率掩码(训练时随机,推理时用户指定): 采样一个随机阈值 η 和一组频率分箱得分 s(通过相关矩阵 K 生成,使相邻分箱得分相关)。 生成二进制掩码 M,保留得分高于阈值的分箱。 应用掩码:Z_masked = Z ⊙ M。 逆变换:对掩码后的频谱 Z_masked 应用逆DFT,得到频率掩码后的潜在序列 z_masked。 解码/生成阶段: 解码器:一个基于扩散模型的U-Net。其输入是:(a) 频率掩码后的潜在序列 z_masked(作为条件),(b) 带噪的梅尔频谱图 x_τ(训练时为加噪的真实数据,推理时为随机噪声),(c) 噪声水平 τ。 输出:预测的干净梅尔频谱图 x̂₀。最终通过BigVGAN声码器将梅尔谱转换为音频波形。 关键设计理由: 使用扩散自编码器:结合了表示学习(编码器)和强大的生成能力(扩散解码器),且其潜在表示具有语义意义。 在潜在空间而非音频空间做傅里叶变换:音频的频谱对应音色,而潜在序列的频谱对应音乐模式的时间变化(如和弦变化、节奏型)。这使得控制直接作用于音乐结构。 训练时频率掩码:这是核心创新。它迫使解码器学会从不完整的频率信息中连贯地重建音乐,从而使潜在空间对频率域操作(如掩码、混合)变得鲁棒。没有这一步,直接对预训练模型的潜在表示进行频率滤波会导致生成质量严重下降(如消融实验所示)。 相关分组与对数频率缩放:生成连续的掩码区域,更符合用户实际操作习惯,并平衡了1/f频谱中高低频能量不均的问题。 💡 核心创新点 潜在傅里叶变换(Latent Fourier Transform)的概念: ...

2026-04-21