音频编辑 | 语音/音频论文速递

Polyphonia: Zero-Shot Timbre Transfer in Polyphonic Music with Acoustic-Informed Attention Calibration

📄 Polyphonia: Zero-Shot Timbre Transfer in Polyphonic Music with Acoustic-Informed Attention Calibration #音乐生成 #扩散模型 #注意力机制 #零样本 #音乐源分离 #音频编辑 ✅ 7.5/10 | 前30% | #音乐生成 | #扩散模型 | #注意力机制 #零样本 | arxiv 学术质量 7.5/8 | 影响力 0.4/2 | 可复现性 0.1/1 | 置信度高 👥 作者与机构第一作者：Haowen Li（未明确说明单位）通讯作者：Qi Liu†（未明确说明单位）作者列表：Haowen Li、Tianxiang Li、Yi Yang、Boyu Cao、Qi Liu†（所属机构均未在论文中明确说明） 💡 毒舌点评亮点：论文将“茎级音色迁移”中泛化的语义-声学错配问题提炼得非常精准，并创新性地利用外部BSS模型生成的IRM作为概率性声学先验，通过“源插值”和“声学调制”两种机制校准扩散模型的注意力，思路巧妙且实用。短板：方法对上游BSS模型（如HT-Demucs）的依赖性极强，其性能天花板和泛化性（如处理未见过的非标准乐器组合或极密集混合）很大程度上受限于BSS模型的分离质量。虽然论文进行了鲁棒性实验，但对此耦合风险的理论分析和潜在失败模式的讨论仍显不足。此外，所有评测数据集均基于标准分离任务构建，可能无法完全代表真实世界复杂多变的音乐制作场景。 📌 核心摘要问题：在多声部（Polyphonic）音乐中进行“茎级音色迁移”（即只改变一个乐器音色，严格保持其他所有伴奏不变）是一个极具挑战性的任务。现有的基于扩散模型的零谱编辑方法在处理密集混合音轨时会遇到根本性困难：要么因边界泄漏导致非目标音轨失真，要么因约束过强导致目标语义无法生成。论文将此问题诊断为“语义-声学错配”（Semantic-Acoustic Misalignment）。方法核心：提出Polyphonia，一个零样本编辑框架。其核心是声学信息注意力校准（Acoustic-Informed Attention Calibration）。该方法首先利用盲源分离（BSS）模型将输入混合音频分解，进而计算出一个“理想比例掩模”（IRM）作为概率性的声学先验（Acoustic Prior）。该先验描绘了目标音轨在频谱上的能量主导区域。在扩散编辑过程中，通过源插值（在自注意力与LoA交叉注意力中，保留非目标区域特征）和声学调制（在文本交叉注意力中加入声学先验作为偏置），实现对生成过程的精确、局域化引导。创新点：与已有方法相比，Polyphonia的核心贡献在于明确诊断了依赖内部语义注意力在密集混合音频中因频谱干扰而失效的问题，并引入外部、概率性的声学先验作为结构化偏置，引导扩散模型的注意力，从而在保持背景的同时精确合成目标。此外，论文贡献了标准化的评测基准PolyEvalPrompts。主要实验结果：在MUSDB18-HQ和MusicDelta两个多轨数据集上，Polyphonia在目标对齐度（CLAP分数）上显著优于所有基线。例如，在MusicDelta上，Polyphonia的CLAP为0.437，比次优基线（Melodia）的0.380高出15.0%。同时，它在目标-结构平衡（ASB）和目标-音乐性平衡（AMB）等综合指标上也达到最优。消融实验验证了IRM先验、声学调制等每个模块的有效性。方法 (MusicDelta) CLAP ↑ CQT1-PCC ↑ LPAPS ↓ FAD ↓ KAD ↓ ASB ↑ AMB ↑ SDEdit 0.119 0.090 6.907 1.914 0.942 0.000 0.000 DDIM 0.353 0.253 5.586 1.155 0.782 0.512 0.500 DDPM 0.351 0.274 5.490 1.069 0.765 0.534 0.533 Melodia 0.380 0.513 3.540 0.715 0.627 0.903 0.864 SteerMusic 0.317 0.556 3.614 0.738 0.607 0.761 0.767 MusicMagus 0.238 0.361 4.690 1.192 0.769 0.479 0.462 MusicGen 0.377 0.069 6.142 1.331 0.788 0.355 0.000 Polyphonia 0.437 0.547 4.096 0.949 0.695 0.910 0.991 实际意义：该方法为专业音乐制作中“精细化、零样本”的混音编辑提供了新的可能性，避免了耗时的音轨分离-单独编辑-重新混合流程，并能产生更和谐的最终混音效果。主要局限性：方法的有效性高度依赖于预训练BSS模型的性能。对于BSS模型无法准确分离的复杂乐器，或非标准乐器类别（映射到“其他”类时），编辑效果会受限。此外，方法仍继承了迭代式扩散模型的推理延迟。 🔗 开源详情代码：论文中提供了GitHub仓库链接（https://polyphonia2026.github.io/polyphonia-demo/），但明确指出代码尚未公开，链接指向项目主页和Demo。模型权重：论文中未提及是否提供预训练Polyphonia模型（该模型为推理框架）或相关模型权重的具体下载链接。数据集：论文中提及并使用了以下数据集： MUSDB18-HQ：高保真音频源分离标准数据集。论文中给出了引用文献 (Rafii et al., 2019)，但未提供直接下载链接。 MusicDelta (MedleyDB子集)：包含28个多轨混音，用于评估。论文中给出了引用文献 (Bittner et al., 2014)，但未提供直接下载链接。 Demo：论文中提供了在线演示网站链接：https://polyphonia2026.github.io/polyphonia-demo/ 复现材料：算法伪代码：提供了Polyphonia算法的详细伪代码（Algorithm 1）。实现细节：在附录C中提供了详细的实现细节，包括声学先验提取、BSS配置、混合定位策略、张量对齐逻辑和超参数配置。效率分析：附录D提供了详细的推理时间和显存使用分析（表7）。超参数敏感性分析：附录E提供了对关键超参数（调制强度λ和引导尺度CFG）的网格搜索结果。检查点/训练配置：论文中未提及提供训练配置文件或模型检查点下载。论文中引用的开源项目： AudioLDM 2：作为框架主干。论文中引用文献 (Liu et al., 2024a)，但未提供代码链接。 HT-Demucs：用作默认的高质量盲源分离模型。论文中引用文献 (Rouard et al., 2023)，但未提供代码链接。 Open-Unmix (UMX)：用作中等质量盲源分离模型。论文中引用文献 (Stöter et al., 2019)，但未提供代码链接。 CLAP：用于评估文本-音频对齐。论文中使用官方LAION-CLAP模型，并提供了具体检查点信息 (music_audioset_epoch_15_esc_90.14.pt)，但未提供官方代码库链接。 Qwen-Audio：用于生成PolyEvalPrompts的数据集构建。论文中引用文献 (Chu et al., 2023)，并提供了其HuggingFace模型页面链接：https://huggingface.co/Qwen/Qwen-Audio。 Qwen-Plus (Qwen3)：用于生成PolyEvalPrompts的数据集构建。论文中引用文献 (Yang et al., 2025)，并提供了其HuggingFace模型页面链接：https://huggingface.co/Qwen/Qwen3。 MusicGen：作为基线模型之一。论文中明确指出使用其官方开源仓库：https://github.com/facebookresearch/audiocraft，并指定了具体检查点 (facebook/musicgen-melody)。 Melodia, SteerMusic, MusicMagus：作为基线模型。论文中引用了这些工作，但未提供其代码仓库链接。 🏗️ 方法概述和架构整体流程概述：Polyphonia是一个两阶段（反转与编辑）的零样本编辑框架，旨在解决多轨音乐混合音频中的特定音轨音色迁移问题。其输入为一段混合音频和目标文本提示，输出为一段仅修改了目标音轨音色的新混合音频。系统核心是声学信息注意力校准机制，它利用从源分离结果中提取的概率性声学先验，来指导扩散模型的去噪过程，确保生成过程在频谱上精确对准目标，并严格保留非目标区域。 ...

ICLR 2026 - 音频编辑论文列表

ICLR 2026 - 音频编辑共 1 篇论文 ← 返回 ICLR 2026 总览排名论文评分分档 🥇 SmartDJ: Declarative Audio Editing with Audio Language Model 8.5分前25% 📋 论文详情 🥇 SmartDJ: Declarative Audio Editing with Audio Language Model 🔥 8.5/10 | 前25% | #音频编辑 | #音频大模型 | #扩散模型 #空间音频 👥 作者与机构第一作者：Zitong Lan（宾夕法尼亚大学WAVES实验室）通讯作者：未明确说明（论文未指定通讯作者）作者列表：Zitong Lan（宾夕法尼亚大学WAVES实验室）、Yiduo Hao（宾夕法尼亚大学WAVES实验室）、Mingmin Zhao（宾夕法尼亚大学WAVES实验室） 💡 毒舌点评亮点：本文最大的亮点在于提出了“声明式”音频编辑的范式，并通过一个设计精巧的“ALM规划器+LDM编辑器”框架实现了它，同时配套构建了首个可扩展的声明式音频编辑数据集合成管道，形成了一个完整的技术闭环。短板：实验完全依赖于合成数据集，虽然合成过程逼真，但真实世界中的复杂声场、噪声和语义歧义可能对ALM的推理和LDM的执行构成远超合成环境的挑战，其泛化能力在论文中未得到真实场景验证。 🔗 开源详情代码：论文中未提及代码仓库链接。但承诺在论文接受后发布代码。模型权重：未提及是否公开预训练的ALM和LDM权重。但论文承诺发布预训练模型。数据集：论文中未提及公开合成数据集的具体获取方式。但承诺发布合成数据集。 Demo：未提及提供在线演示。复现材料：提供了极其详细的实现细节，包括模型架构（层数、维度、参数量）、训练配置（学习率、批大小、优化器、训练步数/轮数）、数据合成流程（提示词模板、声学模拟参数），以及消融实验设置。附录非常完整。论文中引用的开源项目：CLAP（用于音频编码）、FLAN-T5（用于文本编码）、Stable-Audio-Open（作为部分基线）、PyRoomAcoustics（用于声学模拟）、AudioSep（作为对比模型）、GPT-4o（用于数据合成）。 📌 核心摘要 ...

SmartDJ: Declarative Audio Editing with Audio Language Model

📄 SmartDJ: Declarative Audio Editing with Audio Language Model #音频编辑 #音频大模型 #扩散模型 #空间音频 🔥 8.5/10 | 前25% | #音频编辑 | #音频大模型 | #扩散模型 #空间音频学术质量 6.5/7 | 选题价值 2.0/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Zitong Lan（宾夕法尼亚大学WAVES实验室）通讯作者：未明确说明（论文未指定通讯作者）作者列表：Zitong Lan（宾夕法尼亚大学WAVES实验室）、Yiduo Hao（宾夕法尼亚大学WAVES实验室）、Mingmin Zhao（宾夕法尼亚大学WAVES实验室） 💡 毒舌点评亮点：本文最大的亮点在于提出了“声明式”音频编辑的范式，并通过一个设计精巧的“ALM规划器+LDM编辑器”框架实现了它，同时配套构建了首个可扩展的声明式音频编辑数据集合成管道，形成了一个完整的技术闭环。短板：实验完全依赖于合成数据集，虽然合成过程逼真，但真实世界中的复杂声场、噪声和语义歧义可能对ALM的推理和LDM的执行构成远超合成环境的挑战，其泛化能力在论文中未得到真实场景验证。 🔗 开源详情代码：论文中未提及代码仓库链接。但承诺在论文接受后发布代码。模型权重：未提及是否公开预训练的ALM和LDM权重。但论文承诺发布预训练模型。数据集：论文中未提及公开合成数据集的具体获取方式。但承诺发布合成数据集。 Demo：未提及提供在线演示。复现材料：提供了极其详细的实现细节，包括模型架构（层数、维度、参数量）、训练配置（学习率、批大小、优化器、训练步数/轮数）、数据合成流程（提示词模板、声学模拟参数），以及消融实验设置。附录非常完整。论文中引用的开源项目：CLAP（用于音频编码）、FLAN-T5（用于文本编码）、Stable-Audio-Open（作为部分基线）、PyRoomAcoustics（用于声学模拟）、AudioSep（作为对比模型）、GPT-4o（用于数据合成）。 📌 核心摘要要解决什么问题：现有音频编辑模型依赖于模板化指令（如“添加鸟鸣”），需要用户指定具体操作，无法理解用户高级的、声明式的意图（如“让这个声音听起来像在阳光明媚的森林里”）。同时，现有系统普遍局限于单声道音频，无法编辑空间信息。方法核心是什么：提出SmartDJ框架。它包含两个核心组件：(1) 音频语言模型（ALM）作为规划器，接收原始音频和用户的高级声明式指令，输出一个原子编辑步骤序列（如“移除雨声”、“在左边添加鸟鸣”）；(2) 潜在扩散模型（LDM）作为编辑器，按照ALM规划的步骤顺序，逐步执行编辑操作，最终生成目标立体声音频。与已有方法相比新在哪里：首次实现了“声明式”音频编辑范式，将用户意图理解与音频信号操作分离。首次将音频语言模型的推理能力系统性地引入音频编辑流程。首次构建了支持立体声、包含声明式指令-原子操作-音频轨迹的配对数据集生成管道。首次系统评估了编辑操作对空间音频特性的影响。主要实验结果如何：在声明式编辑任务和多种单步原子操作上，SmartDJ在各项客观指标（FD, FAD, LSD等）和主观用户偏好率上均显著优于端到端训练的Audit模型以及多种零样本基线（SDEdit, ZETA等）。例如，在声明式编辑任务中，SmartDJ的FAD得分为1.52，远优于最佳基线Audit的5.67；用户研究显示，在音频质量和与指令的对齐度上，SmartDJ的胜率在80%-95.5%之间（详见表1）。框架方法训练速度 FD↓ FAD↓ KL↓ LSD↓ CLAP↑ 无ALM Audit 是 2.07s 28.56 10.00 3.07 1.93 0.11 有ALM SDEdit 否 301s (74.6s) 19.66 3.71 3.25 2.22 0.17 Audit 是 11.6s (2.07s) 21.50 5.67 2.80 1.49 0.18 SmartDJ (ours) 是 13.1s (2.40s) 10.60 1.52 2.84 1.40 0.21 实际意义是什么：该工作为下一代智能、直观的音频编辑工具铺平了道路，有望革新VR/AR、游戏、影视制作等领域的音频后处理工作流，提升创作效率和沉浸感。主要局限性是什么：整个框架的训练和评估完全依赖于合成数据集，其在真实、复杂、非结构化声场中的性能未被验证。ALM生成步骤的推理时间（约4.8秒）和多步编辑的累积时间（13.1秒）相比端到端方法仍有优化空间。框架对新增编辑操作类型的扩展需要重新训练。 🏗️ 模型架构 SmartDJ的框架由两个独立训练的核心模块组成：音频语言模型（ALM）规划器和潜在扩散模型（LDM）编辑器。其整体数据流与交互如图1和图2所示。 ...

SmartDJ: Declarative Audio Editing with Audio Language Model

📄 SmartDJ: Declarative Audio Editing with Audio Language Model #音频生成 #扩散模型 #大语言模型 #空间音频 #音频编辑 ✅ 7.5/10 | 前25% | #音频生成 | #扩散模型 | #大语言模型 #空间音频学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度中 👥 作者与机构第一作者：Zitong Lan（宾夕法尼亚大学WAVES实验室）通讯作者：未说明作者列表：Zitong Lan（宾夕法尼亚大学WAVES实验室）、Yiduo Hao（宾夕法尼亚大学）、Mingmin Zhao（宾夕法尼亚大学） 💡 毒舌点评论文最大的亮点是巧妙地将“声明式”这一更高阶的交互范式引入音频编辑，通过ALM作为“导演”将抽象指令拆解为具体“剧本”（原子操作），再由LDM作为“演员”执行，思路清晰且解决了实际痛点。然而，其评估完全依赖于一个精心设计但规模有限的合成数据集（240k训练对），这种“温室里的花朵”能否在真实世界杂乱、多变、充满语义歧义的音频场景中保持同样表现，要打一个大大的问号。 🔗 开源详情代码：论文中提供了项目主页链接（https://waves.seas.upenn.edu/projects/smartdj），并声明代码将在论文被接收后公开。论文中未提及具体的代码仓库链接（如GitHub）。模型权重：论文中未明确提及是否公开预训练模型权重。数据集：论文中详细描述了数据合成管道，并声明将公开合成的数据集。 Demo：论文中未提及在线演示。复现材料：论文附录中包含了极其详细的训练细节、超参数配置、数据合成提示词、基线实现细节等，复现材料充分。论文中引用的开源项目：PyRoomAcoustics（声学模拟）、Audio Flamingo 2（ALM基础）、Stable-Audio-Open（部分基线生成器）、Diffusion Transformer架构等。 📌 核心摘要问题：现有的音频编辑方法依赖于模板化的低级指令（如“添加鸟鸣”），无法处理用户更高级、更抽象的“声明式”指令（如“让这个声音像晴朗的森林”），且绝大多数仅支持单声道音频，缺乏空间沉浸感。核心方法：提出SmartDJ框架，由两个核心组件构成：a) 音频语言模型（ALM）作为规划器，理解原始音频和声明式指令，将其分解为一系列原子编辑操作序列（如添加、移除、调整音量、改变方向等）；b) 潜在扩散模型（LDM）作为编辑器，按顺序执行这些原子操作，对立体声音频进行精确编辑。创新点：a) 首次实现支持声明式指令的立体声音频编辑；b) 设计了一个可扩展的数据合成管道，利用LLM生成指令和操作，并基于规则化音频合成生成成对的训练数据。主要实验结果：在自建的合成测试集上，SmartDJ在多项客观指标（FD、FAD、KL、LSD、CLAP）和主观用户研究中均显著优于多种基线方法（包括端到端Audit、SDEdit、AudioEditor等）。例如，在声明式编辑任务上，SmartDJ的CLAP分数（0.21）和LSD（1.40）均优于最强基线（CLAP 0.20, LSD 1.49）。用户研究显示，在音频质量和指令对齐度上，SmartDJ的胜率均超过87%。实际意义：该框架有望降低音频创作和编辑的门槛，使非专业用户能通过自然语言快速实现复杂的音频场景转换，对VR/AR、游戏、影视后期制作等领域具有应用价值。主要局限性：a) 训练和评估完全依赖于合成数据，其与真实世界录音在复杂性、噪声和语义丰富度上可能存在差距；b) 多步顺序编辑累积误差的可能性未深入探讨（论文通过“往返编辑”实验部分缓解）；c) 系统需要ALM和LDM分别训练和推理，整体延迟（约13秒）高于端到端方法。 🏗️ 模型架构图1展示了SmartDJ的整体工作流程：用户输入声明式指令（如“让这段音频听起来像晴朗的森林”）和原始立体声音频。ALM（规划器）首先感知原始音频中的事件（如猫叫、下雨），并推理出一系列原子编辑步骤（如步骤1：移除下雨；步骤2：添加树叶沙沙声…）。这些步骤被送入LDM（编辑器），逐步对音频进行修改，最终输出编辑后的立体声音频。 ...

Generative Audio Extension and Morphing

📄 Generative Audio Extension and Morphing #音频生成 #扩散模型 #数据集 #音频编辑 ✅ 7.5/10 | 前25% | #音频生成 | #扩散模型 | #数据集 #音频编辑学术质量 6.5/7 | 选题价值 1.0/2 | 复现加成 0.0 | 置信度高 👥 作者与机构第一作者：未说明（论文注明Prem Seetharaman⋆, Oriol Nieto⋆为同等贡献）通讯作者：未说明作者列表：Prem Seetharaman（Adobe Research, San Francisco, CA, USA）、Oriol Nieto（Adobe Research, San Francisco, CA, USA）、Justin Salamon��Adobe Research, San Francisco, CA, USA） 💡 毒舌点评论文的亮点在于将技术问题（音频生成）与特定用户群体（音效设计师）的需求紧密结合，并针对性地设计了“噪声底数据集”来解决生成静态声音时的幻觉问题，展现了工程上的巧思。短板则在于，它本质上是将音频修复/填充任务包装成了一个“生成”任务，且缺乏与当前最先进文本到音频模型（如AudioLDM 2, VampNet等）在通用生成能力上的直接对比，其技术壁垒和普适性有待商榷。 🔗 开源详情代码：论文中未提及任何代码仓库链接。模型权重：未提及公开模型权重。数据集：主训练数据集（110万样本）为专有和许可数据混合，未公开。噪声底数据集是论文中合成的新数据集，也未提及公开。 Demo：论文提供了一个伴站网站（https://sites.google.com/view/genextendblend/home），可能包含音频示例，但未明确说明是在线可交互的Demo。复现材料：给出了部分训练细节（优化器、学习率、batch size、训练步数、硬件型号），但缺乏完整的配置文件、预训练模型或详细的代码实现，不足以进行完全复现。论文中引用的开源项目：引用了以下开源项目作为技术组件：语音分离模型[26]（MDX-GAN，代码已共享）、音频编解码器DAC[29]、文本嵌入模型Mixtral[32]、音频嵌入模型CLAP[36]。总结：论文中未提及任何开源计划。其复现性高度依赖作者未共享的专有数据、合成数据集和内部代码实现。 📌 核心摘要要解决什么问题：音效设计师在创作中常需要将现有音频片段进行扩展（向前或向后）或在两个不同音频间进行无缝变形（morphing），传统方法耗时且易产生伪影。方法核心是什么：使用基于扩散Transformer（DiT）的模型，在音频的潜在空间进行操作。核心是提出了一种音频提示指导（Audio Prompt Guidance, APG）技术，通过在扩散过程中对已知（被掩码的）音频潜在表示和未知（噪声）部分应用一种变体的分类器自由引导（CFG），使生成结果更好地贴合原始音频提示。此外，为了克服在生成持续/静态声音（如环境音）时模型易产生无关噪声的“幻觉”问题，提出了使用合成的噪声底数据集（Noise Floor Dataset）对模型进行微调。与已有方法相比新在哪里：1) 提出APG，首次将CFG变体直接应用于音频模态本身以增强生成音频与输入提示的保真度。2) 设计了专门针对音效设计师需求（处理48kHz立体声、特效/环境声）的端到端扩展/变形框架。3) 创新性地构建大规模合成数据集（1.3M小时）并用于微调，以缓解特定数据分布导致的生成幻觉问题。主要实验结果如何：客观质量（FAD↓）：生成变形（GenMorph）的FAD为0.432，与原始音频（0.426）几乎持平，显著优于白噪声（1.358）和卷积噪声匹配（0.599）等基线。方法 FAD ↓ GenExtend 0.520 GenMorph 0.432 Convolutional Noise Matching 0.599 White Noise 1.358 Noise Floor 0.586 Original Audio (上界) 0.426 - 主观测试（MOS 1-5分）：15名参与者（含专业人士）对音频扩展结果的平滑度、一致性和质量平均评分为3.5，3.8，3.5。中位数评分均为4分（对应“相当无缝”、“相当相关”、“良好”）。 - APG消融：指导强度γ从0增加到5时，FAD持续改善；在γ=5时，变形任务的FAD略有上升，故选定γ=5。实际意义是什么：为音效设计师提供了一个高效、高质量的音频片段扩展与变形工具，有望减少重复性手动操作，提升创作效率。其提出的APG和数据集微调策略也可能对其他条件音频生成任务有参考价值。主要局限性是什么：1) 应用范围限定在音效和环境声，明确排除了语音和音乐。2) 未与当前最强的通用音频生成模型（如基于大规模网络文本-音频对训练的模型）进行对比，其生成质量的天花板尚不明确。3) 训练数据（110万样本）和噪声底数据集（合成）的具体内容和质量未详细公开，可复现性依赖于作者未共享的资源。 🏗️ 模型架构模型整体架构是一个在音频潜在空间进行操作的扩散流程，主要包含编码器、扩散Transformer（DiT）、解码器以及核心的APG和掩码机制。 ...

ICASSP 2026 - 音频编辑论文列表

ICASSP 2026 - 音频编辑共 1 篇论文 ← 返回 ICASSP 2026 总览排名论文评分分档 🥇 RFM-Editing: Rectified Flow Matching for Text-Guided Audio E 7.5分前25% 📋 论文详情 🥇 RFM-Editing: Rectified Flow Matching for Text-Guided Audio Editing ✅ 7.5/10 | 前25% | #音频编辑 | #流匹配 | #扩散模型 #数据集 👥 作者与机构第一作者：Liting Gao（英国萨里大学视觉、语音与信号处理中心）通讯作者：未说明作者列表：Liting Gao（英国萨里大学视觉、语音与信号处理中心），Yi Yuan（英国萨里大学视觉、语音与信号处理中心），Yaru Chen（英国萨里大学视觉、语音与信号处理中心），Yuelan Cheng（英国萨里大学视觉、语音与信号处理中心），Zhenbo Li（中国农业大学信息与电气工程学院），Juan Wen（中国农业大学信息与电气工程学院），Shubin Zhang（中国海洋大学水产学院），Wenwu Wang（英国萨里大学视觉、语音与信号处理中心） 💡 毒舌点评亮点：论文巧妙地利用Rectified Flow Matching的确定性ODE过程，将音频编辑重新定义为学习从噪声到目标音频的“速度场”，并通过对原始音频潜变量的拼接作为条件，实现了一个优雅的、端到端且无需掩码的训练范式。短板：虽然整体表现均衡，但在衡量编辑忠实度的关键指标CLAP分数上，训练完整数据集的RFM-Editingfull（0.4398）仍略低于需要复杂优化的AudioEditor（0.4579），显示出其“效率换精度”的妥协，且编辑时间并非最快。 🔗 开源详情 ...

RFM-Editing: Rectified Flow Matching for Text-Guided Audio Editing

📄 RFM-Editing: Rectified Flow Matching for Text-Guided Audio Editing #音频编辑 #流匹配 #扩散模型 #数据集 #零样本 ✅ 7.5/10 | 前25% | #音频编辑 | #流匹配 | #扩散模型 #数据集学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Liting Gao（英国萨里大学视觉、语音与信号处理中心）通讯作者：未说明作者列表：Liting Gao（英国萨里大学视觉、语音与信号处理中心），Yi Yuan（英国萨里大学视觉、语音与信号处理中心），Yaru Chen（英国萨里大学视觉、语音与信号处理中心），Yuelan Cheng（英国萨里大学视觉、语音与信号处理中心），Zhenbo Li（中国农业大学信息与电气工程学院），Juan Wen（中国农业大学信息与电气工程学院），Shubin Zhang（中国海洋大学水产学院），Wenwu Wang（英国萨里大学视觉、语音与信号处理中心） 💡 毒舌点评亮点：论文巧妙地利用Rectified Flow Matching的确定性ODE过程，将音频编辑重新定义为学习从噪声到目标音频的“速度场”，并通过对原始音频潜变量的拼接作为条件，实现了一个优雅的、端到端且无需掩码的训练范式。短板：虽然整体表现均衡，但在衡量编辑忠实度的关键指标CLAP分数上，训练完整数据集的RFM-Editingfull（0.4398）仍略低于需要复杂优化的AudioEditor（0.4579），显示出其“效率换精度”的妥协，且编辑时间并非最快。 🔗 开源详情代码：论文中提及了项目主页（https://katelin-glt.github.io/RFM-Editing-Demo/），但未明确说明是否提供代码仓库链接。推测可能为Demo页面，代码未提及是否开源。模型权重：论文中未提及是否公开模型权重。数据集：论文明确构造了新的音频编辑数据集，并提供了规模和构成细节，但未说明数据集是否已公开或如何获取。 Demo：项目主页可能包含在线演示（从链接名称推断），但论文正文未明确描述。复现材料：论文详细说明了训练数据构建、训练超参数（学习率、epoch数）、模型架构组件（Flan-T5+LoRA， U-Net， VAE， BigVGAN）和评估指标，提供了较好的复现基础。论文中引用的开源项目：Flan-T5， LoRA， BigVGAN声码器， AudioLDM， CLAP， PANNs， VGGish。 📌 核心摘要要解决什么问题：现有的文本引导音频编辑方法要么依赖昂贵的训练时优化（如null-text optimization），要么需要完整的目标描述文本或人工掩码，在复杂重叠声音场景下编辑效果不佳且实用性受限。方法核心是什么：提出RFM-Editing，一个基于Rectified Flow Matching（RFM）的端到端音频编辑框架。其核心是训练一个U-Net来学习从含噪潜变量指向目标音频潜变量的“速度场”，并以原始音频的潜变量和文本指令为条件，从而直接学习编辑区域，无需显式掩码。与已有方法相比新在哪里：首次将RFM范式应用于指令引导的音频编辑；实现了纯指令驱动的端到端训练，摒弃了对完整描述或掩码的依赖；同时构建了一个包含复杂重叠声音事件的新音频编辑数据集用于训练和评测。主要实验结果如何：在自建数据集上，RFM-Editingfull在FD（13.27）和KL（2.77）指标上优于所有基线，表明其分布一致性更好；在CLAP分数（0.4398）上优于AUDIT（0.1113）和Zero-Shot（0.4333），但略低于AudioEditor（0.4579）。编辑速度（约11秒/音频）远快于AudioEditor（约102秒）。实际意义是什么：提供了一种更高效、更实用的音频编辑方案，用户只需给出简单的编辑指令（如“移除警报声”），无需专业知识或复杂标注，即可完成高质量的音频内容修改，在内容创作和后期制作中有直接应用价值。主要局限性是什么：在最高精度的CLAP分数上尚未超越最优的免训练方法；新构建的数据集规模虽大但基于AudioCaps2合成，可能与真实世界复杂音频分布存在差距；论文未明确提供代码和模型权重的开源链接。 🏗️ 模型架构 RFM-Editing的完整架构如图1所示，是一个基于潜在扩散模型（LDM）的端到端框架，主要包含以下组件： ...

VoxEffects: A Speech-Oriented Audio Effects Dataset and Benchmark

📄 VoxEffects: A Speech-Oriented Audio Effects Dataset and Benchmark #音频理解 #音频编辑 #基准测试 #数据集 ✅ 评分：7.5/10 | arxiv 👥 作者与机构第一作者：Zhe Zhang（日本国立信息学研究所，语音与音频研究组）通讯作者：Junichi Yamagishi（日本国立信息学研究所，语音与音频研究组）其他作者：Yigitcan Özer（日本国立信息学研究所，语音与音频研究组）机构：National Institute of Informatics (NII), Tokyo, Japan 💡 毒舌点评亮点：在语音领域“硬核”填补了一个关键空白——为“音频效果识别”这个被忽视但无处不在的任务，提供了首个标准化的合成数据集和评估基准，还煞有介事地考虑了真实世界的信号损伤（加噪、压缩），这很务实。槽点：数据完全靠“配方”合成，像在无菌实验室里研究野外生存，缺乏真实后期处理的复杂性和“脏数据”；评估子集只有120条音频（60 ID + 60 OOD），规模过小，结论的说服力打了个折扣。 🔗 开源详情代码：已开源。GitHub地址：https://github.com/nii-yamagishilab/VoxEffects （论文中提及）。使用框架未明确说明，但渲染依赖于Pedalboard库。模型权重：论文中未明确提及是否公开预训练的AudioMAE-Fx权重。数据集：VoxEffects数据集已发布。包含基于DAPS, EARS, TSP合成的音频及其多粒度标注。规模为2520种预设组合应用于多个源语料库的音频。获取方式需参考GitHub仓库。预训练权重：基线模型AudioMAE-Fx基于在AudioSet上预训练的AudioMAE，该AudioMAE权重应为公开资源。在线Demo：论文中未提及。引用的开源项目：Pedalboard（音频效果库），AudioMAE（预训练模型）。 📌 核心摘要本文旨在解决语音处理中一个基础但被忽视的问题：如何系统化地识别语音音频所经过的后期处理效果及其参数。现实中，语音几乎都经过了降噪、压缩等效果处理，但现有数据集缺乏此类精确标注，阻碍了相关研究。为此，作者提出了VoxEffects，一个从干净语音出发、基于固定效果链和预设库合成的多粒度标注数据集与基准。它支持效果存在性检测、预设分类、效果数量统计和强度回归等多任务评估，并创新性地设计了包含采集端和平台端失真的鲁棒性评估协议。作者提供了一个基于AudioMAE的多任务基线模型（AudioMAE-Fx），实验表明，虽然该任务具有挑战性（尤其是细粒度预设分类），但通过包含失真数据进行鲁棒性训练能显著提升模型在跨语料库和失真条件下的性能。该工作为音频取证、语音理解等应用提供了新的研究方向和评估工具。 🏗️ 模型架构模型名称：AudioMAE-Fx 整体流程：输入：原始音频波形（16kHz采样）。特征提取：将波形转换为对数梅尔滤波器组（log-mel filterbank）特征。骨干网络：将特征输入预训练的AudioMAE模型。AudioMAE是一个基于Transformer的掩码自编码器，已在大规模音频数据集AudioSet上预训练，用于学习通用的音频表示。多任务预测头：从AudioMAE输出的共享表示中，并行引出五个轻量级预测头，每个头对应一个子任务：存在性检测头：一个线性分类器，输出6个效果的二元存在概率（多标签分类）。预设分类头：一个线性分类器，输出2520个预设组合的分类概率（单标签分类）。效果数量头：一个线性分类器，预测激活效果的数量（0到6的分类）。标量强度头：一个线性回归器，预测一个0到1之间的标量强度值。向量强度头：一个线性回归器，预测一个6维向量，每个维度对应一个效果的强度（0到1）。输出：五个任务的预测结果。关键设计理由：采用预训练AudioMAE：利用在大规模无标注数据上学到的丰富音频特征，缓解了专用数据集（VoxEffects）规模有限的问题，提供了强大的特征提取基础。多任务学习：所有任务共享同一个AudioMAE骨干，仅使用不同的轻量级头部。这鼓励模型学习对多种效果属性都通用的表示，提高参数效率，并可能通过任务间的正则化效应提升泛化能力。固定效果链顺序：模型输入是经过固定顺序（DN→DRC→EQ→DS→RVB→LIM）处理后的音频，这简化了问题，符合常见语音后期处理流程。 💡 核心创新点首个面向语音的音频效果数据集与渲染管线： ...