音频生成 | 语音/音频论文速递

EuleroDec: A Complex-Valued RVQ-VAE for Efficient and Robust Audio Coding

📄 EuleroDec: A Complex-Valued RVQ-VAE for Efficient and Robust Audio Coding #音频生成 #自编码器 #复数值 #音频编码 🔥 8.0/10 | 前25% | #音频生成 | #自编码器 | #复数值 #音频编码学术质量 8.0/7 | 选题价值 1.5/2 | 复现加成 0 | 置信度高 👥 作者与机构第一作者：Luca Cerovaz (Sapienza University of Rome) 通讯作者：Emanuele Rodolà (Sapienza University of Rome, Paradigma) 作者列表：Luca Cerovaz (Sapienza University of Rome), Michele Mancusi (Moises Systems Inc.), Emanuele Rodolà (Sapienza University of Rome, Paradigma) 💡 毒舌点评亮点在于其优雅的理论动机——完全在复数域操作以自然地保留音频的相位-幅度耦合，这直接消除了对复杂且不稳定的GAN训练的依赖，实现了令人印象深刻的训练效率提升（仅需5万步，减少了约95%的计算）。短板是其评估完全局限于LibriTTS一个数据集，尽管分了域内/域外，但应用场景相对狭窄，且论文未提供代码或模型，极大地影响了社区验证和实际应用。 ...

Feedback-Driven Retrieval-Augmented Audio Generation with Large Audio Language Models

📄 Feedback-Driven Retrieval-Augmented Audio Generation with Large Audio Language Models #音频生成 #检索增强 #大型音频模型 #扩散模型 ✅ 6.5/10 | 前25% | #音频生成 | #检索增强 | #大型音频模型 #扩散模型学术质量 6.0/7 | 选题价值 2.0/2 | 复现加成 0.0 | 置信度中 👥 作者与机构第一作者：Junqi Zhao（University of Surrey， CVSSP；Tencent AI Lab， Beijing）通讯作者：Wenwu Wang（University of Surrey， CVSSP）作者列表： Junqi Zhao（University of Surrey， CVSSP；Tencent AI Lab， Beijing） Chenxing Li（Tencent AI Lab， Beijing） Jinzheng Zhao（University of Surrey， CVSSP；Tencent AI Lab， Beijing） Rilin Chen（Tencent AI Lab， Beijing） Dong Yu（Tencent AI Lab， Seattle） Mark D. Plumbley（University of Surrey， CVSSP） Wenwu Wang（University of Surrey， CVSSP）（通讯作者） 💡 毒舌点评亮点在于其“反馈驱动”的框架设计很巧妙，让一个大型音频模型（LALM）去检查另一个生成模型（TTA）的作业，找出了“漏写的声音”，然后去资料库（检索数据库）里找参考答案补上，实现了一种通用且低成本的性能增强。短板是这套流程的“下限”严重依赖那个外部资料库（音频数据库）的全面性和质量，论文中并未充分探讨当数据库里没有合适参考或LALM“找错题”时的容错机制，且评估指标虽然全面，但未能揭示在极端复杂音频场景下的具体失效模式。 ...

FlashFoley: Fast Interactive Sketch2audio Generation

📄 FlashFoley: Fast Interactive Sketch2audio Generation #音频生成 #流匹配 #对抗训练 #实时处理 ✅ 7.5/10 | 前25% | #音频生成 | #流匹配 | #对抗训练 #实时处理学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度高 👥 作者与机构第一作者：Zachary Novack (UC San Diego; Sony Group Corporation, Japan) 通讯作者：Christian Simon† (Sony AI, USA) （论文中标注†为“Project lead”，通常可视为通讯作者）作者列表：Zachary Novack¹,²，Koichi Saito³，Zhi Zhong²，Takashi Shibuya³，Shuyang Cui²，Julian McAuley¹，Taylor Berg-Kirkpatrick¹，Christian Simon²†，Shusuke Takahashi²，Yuki Mitsufuji²,³ ¹ UC – San Diego ² Sony Group Corporation, Japan ³ Sony AI, USA 💡 毒舌点评亮点：这篇论文精准地切中了当前交互式音频生成工具的一个核心痛点——“精细控制”与“实时速度”不可兼得，并给出了一个工程上巧妙且相对完整的解决方案，首次将开源加速的草图到音频模型带入实时交互场景。短板：虽然方法组合很实用，但核心的“创新”更多是已有技术（草图控制、ARC后训练、流式生成）的整合与适配，缺乏根本性的理论突破；另外，文中“开源”的承诺尚未在论文发布时兑现，这削弱了其作为“首个开源”模型的即时影响力。 ...

FODGE : High-Fidelity Dance Generation via Full-Body Optimization

📄 FODGE : High-Fidelity Dance Generation via Full-Body Optimization #音频生成 #扩散模型 #全身优化 ✅ 6.5/10 | 前50% | #音频生成 | #扩散模型 | #全身优化学术质量 5.5/7 | 选题价值 1.0/2 | 复现加成 0.0 | 置信度高 👥 作者与机构第一作者：Xiaoying Huang（中国传媒大学信息与通信工程学院）通讯作者：Long Ye（中国传媒大学数据科学与媒体智能学院，媒体融合与传播国家重点实验室）作者列表：Xiaoying Huang（中国传媒大学信息与通信工程学院）、Sanyi Zhang（中国传媒大学数据科学与媒体智能学院，媒体音视频教育部重点实验室）、Qin Zhang（媒体音视频教育部重点实验室）、Xiaoxuan Guo（中国传媒大学信息与通信工程学院）、Long Ye（中国传媒大学数据科学与媒体智能学院，媒体融合与传播国家重点实验室） 💡 毒舌点评论文的亮点在于清晰地指出了现有方法将“滑步”一律视为错误的问题，并通过设计优雅的FRB模块来区分和保留艺术性滑步，同时将约束从脚部拓展至全身，实验效果显著。短板在于其核心生成架构（两阶段Transformer扩散网络）几乎是LODGE的复用，创新更多体现在“约束”和“后处理”上，属于针对特定问题的工程优化而非范式突破，且完全未开源。 🔗 开源详情代码：论文中未提及代码链接。项目主页（https://yccccm.github.io/FODGE-page/）在论文撰写时尚未确认是否包含代码仓库。模型权重：未提及公开权重。数据集：使用的是公开的FineDance数据集，但论文未说明获取方式（通常可从原数据集作者处获取）。 Demo：未提及在线演示。复现材料：论文提供了一些训练细节（如优化器、学习率、GPU型号、训练时长），但未提供完整的配置文件、检查点或附录说明。论文中引用的开源项目：引用了Librosa用于音频特征提取，SMPL用于人体模型表示。 📌 核心摘要要解决什么问题：现有音乐驱动的舞蹈生成方法在追求物理真实性时（如消除滑步），会错误地抑制舞蹈中固有的艺术性滑步（如太空步），同时忽视了手臂穿透等局部不自然问题，损害了生成舞蹈的艺术表现力。方法核心是什么：提出FODGE框架，包含两部分：(1) Full-body Refinement Block (FRB)：在扩散模型训练时引入，通过学习脚部滑动与手臂运动的相关性作为优化线索，联合约束四肢动作，以消除手臂穿透等伪影并保留艺术滑步。(2) Full-body Optimization Post-processing module (FOP)：一个免训练的后处理模块，在推理后对整个序列进行校正，包括修正段落衔接不连续、基于物理先验调整全局根轨迹以缓解滑步，以及约束头部旋转至生理合理范围。 ...

FoleyBench: A Benchmark for Video-to-Audio Models

📄 FoleyBench: A Benchmark for Video-to-Audio Models #音频生成 #基准测试 #音视频 #多模态模型 ✅ 7.5/10 | 前25% | #音频生成 | #基准测试 | #音视频 #多模态模型学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Satvik Dixit（Carnegie Mellon University）通讯作者：未说明作者列表：Satvik Dixit (Carnegie Mellon University), Koichi Saito (Sony AI), Zhi Zhong (Sony AI), Yuki Mitsufuji (Sony AI, Sony Group Corporation), Chris Donahue (Carnegie Mellon University) 💡 毒舌点评论文精准地指出了现有V2A评估基准（如VGGSound）在Foley场景下的核心缺陷（74%样本音画对应差），并针对性地提出了首个专用基准，分析深入且实用。然而，其数据集构建管道严重依赖商业模型（Gemini 2.5 Pro）进行质量过滤，这不仅增加了复现成本，也使得“可扩展自动化”的宣称打了一定折扣。 🔗 开源详情代码：论文中未提及公开的代码仓库链接（如用于数据集构建的管道代码）。模型权重：未提及。本文是基准论文，不提出自有模型。数据集：论文提供了数据集样本网站（https://gclef-cmu.org/foleybench），并描述了数据来源和构建方法，但未明确说明完整数据集是否公开下载及具体获取方式。 Demo：未提及。复现材料：论文详细描述了数据集构建的多阶段管道、使用的工具（YAMNet， Gemini 2.5 Pro）和过滤参数，为复现其数据集创建过程提供了清晰指南。评测指标使用了公开的AV-benchmark工具包。论文中引用的开源项目：YAMNet， AV-benchmark toolkit， PANNs， LAION-CLAP， ImageBind等。 📌 核心摘要要解决什么问题：现有的视频到音频（V2A）生成模型评估基准（如VGGSound）与Foley（音效）等实际下游应用严重脱节。分析发现，VGGSound中74%的视频音画对应关系差，且内容被语音和音乐主导，无法有效评估专为视觉事件生成同步音效的模型。方法核心是什么：提出FoleyBench，首个大规模、专门针对Foley场景的V2A评估基准。它包含5000个经过自动筛选的高质量（视频、真实音频、文本描述）三元组。其核心是一个自动化的多阶段数据集构建管道：收集网络视频 -> 场景检测与裁剪 -> 通过YAMNet过滤语音/音乐 -> 使用Gemini 2.5 Pro筛选确保音画因果关系。与已有方法相比新在哪里：（1）定义并专注于Foley场景（非语音、非音乐、音源可见且同步），填补了专用基准的空白；（2）设计了包含AudioSet和UCS标签、声源复杂度、声音包络类型等丰富元数据的标注体系，支持细粒度分析；（3）提供了包含650个30秒长视频的子集FoleyBench-Long，以评估长音频生成能力。主要实验结果如何：基准对比：与VGGSound相比，FoleyBench的Foley类别覆盖更广（Shannon熵5.35 vs 4.73），且评估结果相关性在音频保真度指标上较弱，说明其能提供不同的评估视角。模型评估：在对11个SotA V2A模型的评估中，MMAudio在多数指标上表现最佳，Seeing & Hearing在语义对齐(IB)上最优，V-AURA在时序同步(DS)上次优。主要发现包括：模型在生成离散事件音时，同步变好但质量变差；在处理背景音和多源声音时性能显著下降；文本条件能提供关键的语义先验。长视频评估：在FoleyBench-Long上，所有模型性能普遍下降，MMAudio仍保持同步优势，但音频质量大幅下滑；而专为长视频设计的LOVA在音频质量上表现相对较好。关键数据表格：方法 VGGSound IB↑ FoleyBench IB↑ FoleyBench DS↓ FoleyBench FAD↓ FoleyBench IS↑ V-AURA 0.276 0.237 0.716 27.2 6.44 Seeing&Hearing 0.339 0.371 1.08 25.0 4.80 MMAudio^T 0.332 0.306 0.447 8.76 11.2 实际意义是什么：为V2A研究社区，特别是Foley合成方向，提供了一个更可靠、更贴近应用的评估标准，有助于更准确地衡量模型进展，并指明未来改进方向（如提升离散事件音保真度、处理多源/背景音、长时生成）。主要局限性是什么：（1）数据集构建核心环节依赖商业黑箱模型（Gemini），可复现性和透明度受限；（2）虽然分析了失败模式，但并未提出解决这些核心挑战（如多源声音混合、长时一致性）的新模型或算法。 🏗️ 模型架构本文并未提出一个新的V2A生成模型，而是提出了一个用于评估现有模型的基准测试框架。因此，其核心“架构”是数据集构建管道与评估体系。 ...

FxSearcher: Gradient-Free Text-Driven Audio Transformation

📄 FxSearcher: Gradient-Free Text-Driven Audio Transformation #音频生成 #贝叶斯优化 #CLAP #音频效果处理 #无梯度优化 ✅ 7.0/10 | 前50% | #音频生成 | #贝叶斯优化 | #CLAP #音频效果处理学术质量 5.5/7 | 选题价值 1.0/2 | 复现加成 0.0 | 置信度高 👥 作者与机构第一作者：Hojoon Ki (Korea Advanced Institute of Science and Technology, KAIST) 通讯作者：未说明作者列表：Hojoon Ki (Korea Advanced Institute of Science and Technology, KAIST), Jongsuk Kim (Korea Advanced Institute of Science and Technology, KAIST), Minchan Kwon (Korea Advanced Institute of Science and Technology, KAIST), Junmo Kim (Korea Advanced Institute of Science and Technology, KAIST) 💡 毒舌点评这篇论文巧妙地将贝叶斯优化与CLAP结合，绕过了音频效果链必须可微的“紧箍咒”，为文本驱动音频变换打开了一扇新门，其工程思路可圈可点。然而，其核心理论贡献（如“引导提示”策略）更像是一种经验性的启发式技巧，缺乏更深入的理论分析或广泛的适用性证明，使其更像是一个精心调优的“系统工程”而非一个具有深远影响力的理论突破。 ...

Generating Localized Audible Zones Using a Single-Channel Parametric Loudspeaker

📄 Generating Localized Audible Zones Using a Single-Channel Parametric Loudspeaker #空间音频 #麦克风阵列 #信号处理 #音频生成 ✅ 6.5/10 | 前50% | #空间音频 | #麦克风阵列 | #信号处理 #音频生成学术质量 5.0/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度中 👥 作者与机构第一作者：Tao Zhuang（南京大学现代声学实验室；南京大学-地平线智能音频联合实验室）通讯作者：未说明作者列表：Tao Zhuang（南京大学现代声学实验室；南京大学-地平线智能音频联合实验室），Shaozhe Li（南京大学现代声学实验室；南京大学-地平线智能音频联合实验室），Feng Niu（国家计量院力学与声学部），Jia-Xin Zhong（宾夕法尼亚州立大学声学研究生项目），Jing Lu（南京大学现代声学实验室；南京大学-地平线智能音频联合实验室） 💡 毒舌点评亮点在于概念上的巧妙“偷天换日”，将多通道阵列处理所需的物理通道数，通过超声波非线性效应“虚拟”出来，从而用单一物理扬声器硬件实现了复杂声场控制，思路新颖且具启发性。短板则是这篇顶会论文的实验部分显得过于“理论”，仅停留在自由场条件的数值仿真，缺乏任何硬件原型搭建与实测数据验证，使得从“概念可行”到“实际可用”的距离依然模糊，论文的说服力因此大打折扣。 🔗 开源详情论文中未提及任何开源计划，包括代码、模型权重、数据集、Demo或复现材料。也未列出所依赖的开源项目。 📌 核心摘要本文针对传统声音区域控制（SZC）系统依赖多通道扬声器阵列、硬件复杂的瓶颈，提出了一种单通道多载波参量扬声器（MCPL）方案。其核心是将不同音频信号调制到多个不同频率的超声波载波上，合成单路信号后由单一换能器发射，利用空气的非线性自解调效应，在空气中虚拟出多个独立的音频通道，从而将为传统阵列设计的SZC算法直接应用于此虚拟通道。与已有双载波方法相比，该方案推广至N个载波，提供了更强的声场控制自由度。仿真实验表明，该方案能有效缩短声音的传播距离（例如，1kHz音频下，4载波系统的有效传播距离从传统PL的约7米缩短至1.8米），并生成局部化的听音区，验证了该方法在简化硬件系统的同时维持SZC性能的潜力。该工作的主要局限是所有结论均基于数值模拟，未进行实际硬件实验，且未讨论复杂声学环境下的鲁棒性。 🏗️ 模型架构该系统并非传统意义上的深度学习模型，而是一个基于声学物理原理的信号处理与控制系统。其架构流程如下：输入：一个音频信号 audio_signal（频率为fa）。多载波调制（数字域）：将该音频信号调制到N个频率不同（fc,1, fc,2, …, fc,N）的超声波载波上。每个载波通道 n 生成两个边带信号 wu,n 和 wu,n，分别控制下边带和上边带的幅度和相位，得到调制信号 sn(t)。信号合成（数字域）：将所有调制后的信号 sn(t) 相加，生成一个单一的复合电信号 s(t)。这是整个系统唯一的物理输出信号。数模转换与发射：单一通道信号 s(t) 经过单个DAC转换为模拟信号，驱动单个超声波换能器阵列（文中称为“单通道参量扬声器”）。空气非线性解调（物理域）：发射出的超声波复合信号在空气中传播时，由于空气的非线性特性，不同载波频率的信号之间发生相互作用，自解调产生音频信号。论文的核心论点在于，当各载波频率间距足够大（>20kHz）时，最终产生的总音频声压 pa(r, ωa) 是各虚拟通道贡献的线性叠加，如公式(6)所示：pa = Σ wn * Ha,n。这等效于创建了N个虚拟的、由权重 wn 控制的独立音频源通道。声场控制：基于这个虚拟的多通道模型，应用经典的声学对比度控制（ACC）算法。通过优化权重向量 w = [w1, ..., wN]T，最大化目标“亮区”与“暗区”之间的声压平方比（公式9-10），从而生成所需的局部化听音区。图1：(a) 展示了圆形MCPL在平面内生成亮区和暗区的示意图。(b) 是信号流程图，清晰地展示了音频信号如何调制到N个载波，合成单一信号 s(t)，并通过空气解调形成N个虚拟通道，最终辐射出所需的音频声场。 ...

Generating Moving 3d Soundscapes with Latent Diffusion Models

📄 Generating Moving 3d Soundscapes with Latent Diffusion Models #空间音频 #扩散模型 #音频生成 #数据增强 #多通道 ✅ 7.5/10 | 前25% | #空间音频 | #扩散模型 | #音频生成 #数据增强学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Christian Templin (Stevens Institute of Technology, Hoboken, NJ, USA) 通讯作者：未说明作者列表：Christian Templin（Stevens Institute of Technology）、Yanda Zhu（Hunan Normal University, Changsha, China）、Hao Wang（Stevens Institute of Technology） 💡 毒舌点评亮点：首次将潜在扩散模型用于生成带动态声源轨迹控制的一阶Ambisonics音频，并构建了首个大规模带标注的动态空间音频数据集，填补了明确的空白。短板：虽然引入了参数化模型以提高空间精度，但对“动态”这一核心特性的评估主要停留在起止点的角度误差上，对声源在运动过程中轨迹的平滑度、连续性以及听感上的真实性缺乏更细致的量化分析和主观评估。 🔗 开源详情代码：论文中未提及代码仓库链接。模型权重：未提及公开预训练模型权重。数据集：论文明确表示将发布新构建的包含超过100万样本的数据集（训练/验证/测试划分），可通过项目网站获取（https://intellisys.haow.us/spatial-audio-project/）。 Demo：提供了在线演示网站（同上链接）。复现材料：论文给出了较详细的训练数据构建方法、模型架构描述、损失函数公式和主要超参数（学习率、批大小、优化器、训练步数等），但未提供具体的训练代码、环境配置或最终检查点。论文中��用的开源项目：Descript Audio Codec (DAC) [11]、T5编码器 [12]、CLAP模型 [13]、AuraLoss [14]、VGGish [15]。 📌 核心摘要问题：现有文本到音频生成模型大多局限于单声道或立体声，无法生成完整的三维空间音频。少数能生成一阶Ambisonics（FOA）音频的模型仅支持静态声源，无法处理用户指定的动态声源轨迹，且缺乏相关训练数据集。方法核心：提出SonicMotion框架，这是一个端到端的潜在扩散模型，专为生成FOA音频设计。其核心创新在于引入了两种条件化方式：1）描述式模型，仅使用文本提示；2）参数式模型，额外使用一个“状态矩阵”作为条件，该矩阵显式编码了声源在时间上的方位角和仰角轨迹。新意：这是首个能够生成带有用户可控运动轨迹的FOA音频的潜在扩散模型。同时，为解决数据匮乏问题，作者构建了一个超过100万对模拟的FOA-文本数据对的新数据集，包含静态和动态声源及详细运动元数据。主要结果：实验表明，SonicMotion在语义对齐（CLAP分数）和感知质量（FD， FAD）上与领先的文本到音频模型（如AudioLDM 2）相当。在空间精度上，参数式模型（SM-P）显著优于描述式模型（SM-D），其方位角误差降至13.17°，仰角误差降至4.01°，空间总角度误差降至14.32°，相比SM-D有约51%的整体性能提升。自编码器的重建保真度极高，空间角度误差仅为3.72°。实际意义：为VR/AR、电影和音乐制作提供了自动化创建沉浸式动态声景的新工具，有望降低专业空间音频内容的制作门槛和成本。主要局限性：模型基于模拟数据训练和评估，其在真实录音或复杂声学场景下的泛化能力有待验证。评估指标主要关注声源起止点的定位精度，对整个运动轨迹的保真度评估不足。此外，仅支持一阶Ambisonics，更高阶的空间分辨率有待探索。 🏗️ 模型架构 SonicMotion是一个端到端的框架，整体流程分为数据准备、自编码器训练和扩散模型生成三个主要阶段。 ...

Generative Audio Extension and Morphing

📄 Generative Audio Extension and Morphing #音频生成 #扩散模型 #数据集 #音频编辑 ✅ 7.5/10 | 前25% | #音频生成 | #扩散模型 | #数据集 #音频编辑学术质量 6.5/7 | 选题价值 1.0/2 | 复现加成 0.0 | 置信度高 👥 作者与机构第一作者：未说明（论文注明Prem Seetharaman⋆, Oriol Nieto⋆为同等贡献）通讯作者：未说明作者列表：Prem Seetharaman（Adobe Research, San Francisco, CA, USA）、Oriol Nieto（Adobe Research, San Francisco, CA, USA）、Justin Salamon��Adobe Research, San Francisco, CA, USA） 💡 毒舌点评论文的亮点在于将技术问题（音频生成）与特定用户群体（音效设计师）的需求紧密结合，并针对性地设计了“噪声底数据集”来解决生成静态声音时的幻觉问题，展现了工程上的巧思。短板则在于，它本质上是将音频修复/填充任务包装成了一个“生成”任务，且缺乏与当前最先进文本到音频模型（如AudioLDM 2, VampNet等）在通用生成能力上的直接对比，其技术壁垒和普适性有待商榷。 🔗 开源详情代码：论文中未提及任何代码仓库链接。模型权重：未提及公开模型权重。数据集：主训练数据集（110万样本）为专有和许可数据混合，未公开。噪声底数据集是论文中合成的新数据集，也未提及公开。 Demo：论文提供了一个伴站网站（https://sites.google.com/view/genextendblend/home），可能包含音频示例，但未明确说明是在线可交互的Demo。复现材料：给出了部分训练细节（优化器、学习率、batch size、训练步数、硬件型号），但缺乏完整的配置文件、预训练模型或详细的代码实现，不足以进行完全复现。论文中引用的开源项目：引用了以下开源项目作为技术组件：语音分离模型[26]（MDX-GAN，代码已共享）、音频编解码器DAC[29]、文本嵌入模型Mixtral[32]、音频嵌入模型CLAP[36]。总结：论文中未提及任何开源计划。其复现性高度依赖作者未共享的专有数据、合成数据集和内部代码实现。 📌 核心摘要要解决什么问题：音效设计师在创作中常需要将现有音频片段进行扩展（向前或向后）或在两个不同音频间进行无缝变形（morphing），传统方法耗时且易产生伪影。方法核心是什么：使用基于扩散Transformer（DiT）的模型，在音频的潜在空间进行操作。核心是提出了一种音频提示指导（Audio Prompt Guidance, APG）技术，通过在扩散过程中对已知（被掩码的）音频潜在表示和未知（噪声）部分应用一种变体的分类器自由引导（CFG），使生成结果更好地贴合原始音频提示。此外，为了克服在生成持续/静态声音（如环境音）时模型易产生无关噪声的“幻觉”问题，提出了使用合成的噪声底数据集（Noise Floor Dataset）对模型进行微调。与已有方法相比新在哪里：1) 提出APG，首次将CFG变体直接应用于音频模态本身以增强生成音频与输入提示的保真度。2) 设计了专门针对音效设计师需求（处理48kHz立体声、特效/环境声）的端到端扩展/变形框架。3) 创新性地构建大规模合成数据集（1.3M小时）并用于微调，以缓解特定数据分布导致的生成幻觉问题。主要实验结果如何：客观质量（FAD↓）：生成变形（GenMorph）的FAD为0.432，与原始音频（0.426）几乎持平，显著优于白噪声（1.358）和卷积噪声匹配（0.599）等基线。方法 FAD ↓ GenExtend 0.520 GenMorph 0.432 Convolutional Noise Matching 0.599 White Noise 1.358 Noise Floor 0.586 Original Audio (上界) 0.426 - 主观测试（MOS 1-5分）：15名参与者（含专业人士）对音频扩展结果的平滑度、一致性和质量平均评分为3.5，3.8，3.5。中位数评分均为4分（对应“相当无缝”、“相当相关”、“良好”）。 - APG消融：指导强度γ从0增加到5时，FAD持续改善；在γ=5时，变形任务的FAD略有上升，故选定γ=5。实际意义是什么：为音效设计师提供了一个高效、高质量的音频片段扩展与变形工具，有望减少重复性手动操作，提升创作效率。其提出的APG和数据集微调策略也可能对其他条件音频生成任务有参考价值。主要局限性是什么：1) 应用范围限定在音效和环境声，明确排除了语音和音乐。2) 未与当前最强的通用音频生成模型（如基于大规模网络文本-音频对训练的模型）进行对比，其生成质量的天花板尚不明确。3) 训练数据（110万样本）和噪声底数据集（合成）的具体内容和质量未详细公开，可复现性依赖于作者未共享的资源。 🏗️ 模型架构模型整体架构是一个在音频潜在空间进行操作的扩散流程，主要包含编码器、扩散Transformer（DiT）、解码器以及核心的APG和掩码机制。 ...

GMS-CAVP: Improving Audio-Video Correspondence with Multi-Scale Constrative and Generative Pretraining

📄 GMS-CAVP: Improving Audio-Video Correspondence with Multi-Scale Constrative and Generative Pretraining #音视频 #对比学习 #扩散模型 #音频生成 #多尺度模型 ✅ 7.5/10 | 前25% | #音频生成 | #扩散模型 | #音视频 #对比学习学术质量 7.0/7 | 选题价值 1.5/2 | 复现加成 -0.5 | 置信度中 👥 作者与机构第一作者：未说明（论文作者列表为“Shentong Mo1,2,3, Zehua Chen3, Jun Zhu3”，未明确标注第一作者）通讯作者：未说明作者列表：Shentong Mo（卡内基梅隆大学，MBZUAI，清华大学），Zehua Chen（清华大学），Jun Zhu（清华大学） 💡 毒舌点评亮点在于将多尺度对比学习和多尺度扩散生成统一在一个框架内，为音视频预训练提供了新范式，实验结果在多个指标上刷新了SOTA；短板是论文对于模型具体架构细节（如扩散模型中噪声预测网络的具体设计）、训练硬件和完整超参数列表描述不足，且未提及开源计划，这使得严格的复现存在挑战。 🔗 开源详情代码：论文中未提及代码链接。模型权重：未提及公开权重。数据集：使用了公开数据集VGGSound、AudioSet和Panda70M，但未说明是否提供了特定的预处理脚本。 Demo：未提及在线演示。复现材料：给出了部分训练细节（优化器、学习率、批次大小、训练轮数），并参考了Diff-Foley的扩散设置。但模型架构的具体实现细节、完整的超参数列表和训练日志/检查点未提供。论文中引用的开源项目：引用并基于Diff-Foley [6]的生成器设置；使用Adam优化器。开源计划：论文中未提及开源计划。 📌 核心摘要本文旨在解决现有对比音视频预训练方法在捕捉细粒度、多层次跨模态对应关系以及直接支持生成任务方面的不足。方法核心是提出GMS-CAVP框架，它统一了多尺度视频-音频对齐（MSA）的对比学习目标与多尺度空间-时间扩散（MSD）的生成预训练目标。与之前仅使用单尺度全局对比学习的方法相比，GMS-CAVP能捕获从细到粗的时空依赖关系，并直接建模模态间的转换映射。主要实验结果表明，在VGGSound等数据集上，GMS-CAVP在视频到音频生成任务（KLD: 1.63, FAD: 0.75, Align Acc: 95.87）和检索任务（如视频到音频R@1: 28.90）上均大幅超越了现有方法。其实际意义是为音视频理解与生成提供了更强大、统一的预训练基础。主要局限性可能包括模型复杂度增加带来的计算开销，以及对扩散模型采样速度的潜在影响（论文未深入讨论）。 ...