音频分离 | 语音/音乐/音频论文速递

Mixture-Constrained Max Pooling Improves Separation-Based Bird Species Classification

📄 Mixture-Constrained Max Pooling Improves Separation-Based Bird Species Classification #音频分类 #音频分离 #无监督学习 5.3/10 | 创新 1/2 | 严谨 1/1.5 | 实验 0.9/1.5 | 清晰 0.7/1 | 影响 0.5/1.5 | 开源 0.5/1.5 | 复现 0.2/0.5 | 工程 0.5/1.5 📝 5.3/10 | 后50% | #音频分类 | #无监督学习 | #音频分离 | arxiv 👥 作者与机构第一作者：Yuzhu Wang（单位未说明）通讯作者：未说明作者列表：Yuzhu Wang, Kalle Lahtinen, Patrik Lauha, Shiqi Zhang, Panu Somervuo, Otso Ovaskainen, Tuomas Virtanen（单位均未明确标注） 💡 毒舌点评混合约束最大池化（MCM）的出发点实用——用混合信号的概率去“砍”分离带来的假阳性虚高，真/假阳性增益分析也清晰地呈现了问题所在。但方法本质就是一个后处理trick，创新阈值偏低；分离器训练和分类器训练完全独立，域不匹配问题被轻易承认但毫无解决措施；最关键的超参数τ全靠验证集人工摸索，缺乏任何自动化或理论支撑；实验对比仅针对max pooling，完全忽略了更基本的平均池化、注意力加权等聚合策略，削弱了MCM优势的说服力。代码只给了分类器部分，分离器核心复现无望，整体完成度更像一个初步实验报告而非完整研究。 ...

A Semantically Consistent Dataset for Data-Efficient Query-Based Universal Sound Separation

📄 A Semantically Consistent Dataset for Data-Efficient Query-Based Universal Sound Separation #音频分离 #数据集 #低资源 #数据清洗 9.2/10 | 创新 1.5/2 | 严谨 1.2/1.5 | 实验 1.3/1.5 | 清晰 1/1 | 影响 1.2/1.5 | 开源 1.2/1.5 | 复现 0.5/0.5 | 工程 1.3/1.5 🔥 9.2/10 | 前10% | #音频分离 | #数据集 | #低资源 #数据清洗 | arxiv 👥 作者与机构第一作者：Kai Li（清华大学计算机系 / IDG/McGovern Institute for Brain Research, 清华大学）、Jintao Cheng（清华大学计算机系）（*共同第一）通讯作者：Xiaolin Hu（清华大学计算机系 / IDG/McGovern Institute for Brain Research / 中国脑与认知科学研究所 (CIBR)）作者列表：Kai Li, Jintao Cheng, Chang Zeng (Shanda AI Research Tokyo), Zijun Yan (清华大学), Helin Wang (Johns Hopkins University), Zixiong Su (Shanda AI Research Tokyo), Bo Zheng (Shanda AI Research Tokyo), Xiaolin Hu (清华大学) 💡 毒舌点评这篇论文用一个精心设计的数据清洗管道，优雅地证明了“数据纯度远比数据规模重要”这一反直觉结论——Hive 仅凭 0.2% 的训练数据量，就让模型在多项指标上媲美甚至超越百万小时级的 SAM-Audio，说服力极强。但管道核心的语义对齐和兼容性判断完全依赖 Qwen3-Omni 零样本能力，这种对单一黑盒模型的深度绑定，可能让数据集系统性地继承了该模型的偏见，而作者对这种“近亲繁殖”风险的审计仍显不足。 ...

SAM Audio: Segment Anything in Audio

📄 SAM Audio: Segment Anything in Audio #音频分离 #流匹配 #多模态模型 #基准测试 #音视频 9.2/10 | 创新 1.5/2 | 严谨 1.2/1.5 | 实验 1.4/1.5 | 清晰 0.8/1 | 影响 1.4/1.5 | 开源 1/1.5 | 复现 0.5/0.5 | 工程 1.4/1.5 🔥 9.2/10 | 前10% | #音频分离 | #流匹配 | #多模态模型 #基准测试 | arxiv 👥 作者与机构第一作者：Bowen Shi（Meta SuperIntelligence Labs）通讯作者：Bowen Shi（Meta SuperIntelligence Labs）、Andros Tjandra（Meta SuperIntelligence Labs）作者列表：Bowen Shi、Andros Tjandra、John Hoffman、Helin Wang、Yi-Chiao Wu、Luya Gao、Julius Richter、Matthew Le、Apoorv Vyas、Sanyuan Chen、Christoph Feichtenhofer、Piotr Dollár、Wei-Ning Hsu、Ann Lee（均来自 Meta SuperIntelligence Labs） 💡 毒舌点评 SAM AUDIO以统一架构首次整合文本、视觉和时间跨度提示，在通用音频分离任务上取得了令人瞩目的SOTA，其精心设计的伪标签数据流水线和大规模评测体系颇具工程借鉴价值。然而，视觉提示的实际表现远逊于文本提示，且整个系统严重依赖大规模预训练和高性能硬件，在实时性或低资源场景下的适用性仍存疑。 ...

When Attention Collapses: Residual Evidence Modeling for Compositional Inference

📄 When Attention Collapses: Residual Evidence Modeling for Compositional Inference #音频分离 #注意力机制 #槽位注意力 #流形匹配 ✅ 7.5/10 | 前25% | #音频分离 | #注意力机制 | #槽位注意力 #流形匹配 | arxiv 学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 -0.5 | 置信度高 👥 作者与机构第一作者：Niklas Houba（ETH Zurich，粒子物理与天体物理研究所）通讯作者：未说明（从投稿信息看，仅一位作者Niklas Houba）作者列表：Niklas Houba（ETH Zurich，粒子物理与天体物理研究所） 💡 毒舌点评这篇论文的亮点在于其对问题诊断的精准——抓住了标准注意力在“加性叠加”场景下“无状态”这一阿喀琉斯之踵，并用一个极其简洁（乘性衰减+偏置）且有效的机制解决了它。然而，该机制对均匀混合信号或动态范围不大场景的效力可能有限，且其在更复杂的真实世界分解任务（如语音分离主流任务）上的潜力有待验证，方法的应用门槛相对较高。 🔗 开源详情代码：论文中未提及代码链接。模型权重：论文中未提及。数据集： FUSS（Free Universal Sound Separation）：论文中提及了该基准测试集（Wisdom et al., 2021），但未提供其获取链接。 LISA 模拟数据：论文明确说明所有LISA数据均为模拟数据，由作者使用特定工具生成，未作为公开数据集发布。 Demo：论文中未提及。复现材料：论文在附录A中提供了LISA实验的详细架构、训练超参数、损失函数及组成（例如模型参数量21.7M，使用了10^6个模拟样本训练150个epoch等），这些信息为复现提供了关键配置。但未提供可直接下载的检查点或训练脚本。论文中引用的开源项目： JaxGB：用于生成LISA模拟引力波波形。论文在附录A中提到“Waveforms are generated with JaxGB [Bayle et al., 2025]”，但未提供其仓库链接。 lisaorbits：用于获取LISA轨道配置。论文在附录A中提到“LISA orbital configurations from lisaorbits”，但未提供其仓库链接。 Slot Attention：论文中提出的方法对比和建立在Slot Attention (Locatello et al., 2020)基础上。 Conditional Normalizing Flows：论文中模型（SlotFlow）的组成部分，引用了Rezende and Mohamed (2015)和Papamakarios et al. (2021)。 DETR (DEtection TRansformer)：论文中借鉴了其匈牙利匹配方法，用于集合预测（Carion et al., 2020）。 Focal Loss：用于训练存在性头部（Lin et al., 2020）。 Rational-Quadratic Spline Coupling Layers：用于构建归一化流（Durkan et al., 2019）。（注：上述第3-7项为论文方法中采用的标准技术，论文仅通过引用列出作者和年份，未提供这些具体项目的开源仓库链接。）补充信息 [细节详述] 补充：论文在附录A.3中明确给出了LISA任务训练的具体参数：优化器为Adam（默认），初始学习率为10^{-4}，使用ReduceLROnPlateau调度（patience 10， factor 0.5），梯度裁剪阈值为5.0。这些是复现论文核心实验的关键超参数，在分析的“细节详述”部分未完整列出。 ...

AlignSep: Temporally-Aligned Video-Queried Sound Separation with Flow Matching

📄 AlignSep: Temporally-Aligned Video-Queried Sound Separation with Flow Matching #音频分离 #流匹配 #音视频 #基准测试 #多模态模型 ✅ 7.5/10 | 前25% | #音频分离 | #流匹配 | #音视频 #基准测试学术质量 5.8/7 | 选题价值 1.5/2 | 复现加成 0.3 | 置信度高 👥 作者与机构第一作者：未说明（论文声明Xize Cheng, Chenyuhao Wen, Tianhao Wang为共同第一作者“Equal Contribution”）通讯作者：未说明作者列表：Xize Cheng (浙江大学1), Chenyuhao Wen (浙江大学1), Tianhao Wang (独立作者2), Yongqi Wang (浙江大学1), Zehan Wang (浙江大学1), Rongjie Huang (浙江大学1), Tao Jin (浙江大学1), Zhou Zhao (浙江大学1)。（注：1指浙江大学，2指独立作者，具体实验室或部门未在文中提供） 💡 毒舌点评亮点：这是首个将流匹配范式成功引入视频引导声音分离的工作，并敏锐地指出了其与传统文本生成任务在“多条件生成”上的本质差异，为后续研究者提供了清晰的思路和新的挑战性基准。短板：模型架构（拼接+FFN Transformer）略显“直给”，缺乏更精巧的跨模态交互设计；虽然实验充分，但“流匹配”相对于“扩散模型”在本任务中的具体优势论证（如表7所示）并不构成压倒性差距，说服力有提升空间。 ...

ICLR 2026 - 音频分离论文列表

ICLR 2026 - 音频分离共 1 篇论文 ← 返回 ICLR 2026 总览排名论文评分分档 🥇 AlignSep: Temporally-Aligned Video-Queried Sound Separation 7.5分前25% 📋 论文详情 🥇 AlignSep: Temporally-Aligned Video-Queried Sound Separation with Flow Matching ✅ 7.5/10 | 前25% | #音频分离 | #流匹配 | #音视频 #基准测试 👥 作者与机构第一作者：未说明（论文声明Xize Cheng, Chenyuhao Wen, Tianhao Wang为共同第一作者“Equal Contribution”）通讯作者：未说明作者列表：Xize Cheng (浙江大学1), Chenyuhao Wen (浙江大学1), Tianhao Wang (独立作者2), Yongqi Wang (浙江大学1), Zehan Wang (浙江大学1), Rongjie Huang (浙江大学1), Tao Jin (浙江大学1), Zhou Zhao (浙江大学1)。（注：1指浙江大学，2指独立作者，具体实验室或部门未在文中提供） 💡 毒舌点评 ...

Domain Partitioning Meets Parameter-Efficient Fine-Tuning: A Novel Method for Improved Language-Queried Audio Source Separation

📄 Domain Partitioning Meets Parameter-Efficient Fine-Tuning: A Novel Method for Improved Language-Queried Audio Source Separation #音频分离 #参数高效微调 #领域适应 #预训练 ✅ 7.5/10 | 前50% | #音频分离 | #参数高效微调 | #领域适应 #预训练学术质量 7.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Yinkai Zhang（新疆大学计算机科学与技术学院 / 丝绸之路多语言认知计算联合国际实验室 / 新疆多语言信息技术重点实验室）通讯作者：Kai Wang, Hao Huang（新疆大学计算机科学与技术学院 / 丝绸之路多语言认知计算联合国际实验室 / 新疆多语言信息技术重点实验室）作者列表：Yinkai Zhang（新疆大学计算机科学与技术学院等），Dingbang Zhang（新疆大学计算机科学与技术学院等），Tao Wang（新疆大学计算机科学与技术学院等），Diana Rakhimova（哈萨克斯坦阿勒法拉比国立大学信息系统系），Kai Wang（新疆大学计算机科学与技术学院等），Hao Huang（新疆大学计算机科学与技术学院等）。 💡 毒舌点评亮点：论文巧妙地将LLM领域的“领域划分+PEFT微调”范式迁移到音频分离任务，思路清晰且实验效果扎实，在多个数据集上稳定超越强基线AudioSep。短板：创新更多是框架层面的组合，作为核心组件的ReConv-Adapter是在Conv-Adapter基础上“加宽”而非原创性设计，其参数效率与性能增益的权衡有待更深入探讨。 🔗 开源详情代码：提供开源代码仓库链接：https://github.com/butterflykite/DP-LASS。模型权重：论文中未明确提及是否公开预训练模型或微调后的模型权重。数据集：基于公开数据集AudioSet进行训练，未提供独立的自建数据集。评估使用公开的AudioCaps, Clotho等基准测试集。 Demo：论文中未提及在线演示（Demo）。复现材料：论文提供了较为充分的复现信息，包括：训练数据构建方式（单类音频，混合采样）、关键超参数（学习率、batch size、训练步数）、硬件配置（RTX 3090 GPU）以及消融实验设置。引用的开源项目：论文依赖并引用了AudioSep的官方实现和预训练模型（https://github.com/Audio-AGI/AudioSep），以及HuggingFace PEFT库（用于DoRA/LoRA的实现）。 📌 核心摘要问题：语言查询音频源分离（LASS）任务面临一个关键挑战：不同声音类别之间特征分布差异巨大，使得单一模型难以有效建模所有类别。方法核心：提出一种结合领域划分（Domain Partitioning）与参数高效微调（PEFT）的新方法。首先，使用K-Means对各类音频的CLAP嵌入进行聚类，将训练数据划分为多个子领域；然后，为每个子领域在预训练AudioSep模型上微调一个独立的PEFT模块（ReConv-Adapter）；推理时，由子领域分类器将输入路由到对应的模块。创新点：这是首次将“预训练+领域划分微调”的LLM范式应用于LASS任务，并设计了新的PEFT模块ReConv-Adapter（在卷积层添加并行分支并采用零初始化）。实验结果：在六个基准数据集上，本文方法平均SDRi达到9.76 dB，SI-SDR达到9.06 dB，分别比基线AudioSep提升1.01 dB和1.29 dB。关键实验结果如下：方法 AudioCaps (SDRi/SI-SDR) VGGSound (SDRi/SI-SDR) AudioSet (SDRi/SI-SDR) Music (SDRi/SI-SDR) ESC-50 (SDRi/SI-SDR) Clotho v2 (SDRi/SI-SDR) 平均 (SDRi/SI-SDR) LASS-Net 3.36 / -0.78 1.26 / -4.43 1.32 / -3.66 0.38 / -12.24 3.41 / -2.35 2.21 / -3.38 1.99 / -4.47 AudioSep 8.22 / 7.19 9.14 / 9.04 7.74 / 6.90 10.51 / 9.43 10.04 / 8.81 6.85 / 5.24 8.75 / 7.77 CLAPSep 9.66 / 8.76 5.04 / 4.27 6.17 / 4.64 7.65 / 5.62 11.49 / 10.23 5.26 / 2.84 7.55 / 6.06 Ours (classifier) 8.92 / 8.02 10.04 / 10.06 9.06 / 8.46 11.46 / 10.56 11.13 / 10.50 7.92 / 6.75 9.76 / 9.06 Ours (oracle) 9.20 / 8.47 10.31 / 10.36 9.31 / 8.70 11.71 / 11.18 11.74 / 11.21 8.05 / 7.10 10.05 / 9.50 消融研究表明，ReConv-Adapter在参数量（19M）与性能上取得了最佳平衡。子领域划分的有效性通过t-SNE可视化得到验证。 ...

ICASSP 2026 - 音频分离论文列表

ICASSP 2026 - 音频分离共 1 篇论文 ← 返回 ICASSP 2026 总览排名论文评分分档 🥇 Domain Partitioning Meets Parameter-Efficient Fine-Tuning: A 7.5分前50% 📋 论文详情 🥇 Domain Partitioning Meets Parameter-Efficient Fine-Tuning: A Novel Method for Improved Language-Queried Audio Source Separation ✅ 7.5/10 | 前50% | #音频分离 | #参数高效微调 | #领域适应 #预训练 👥 作者与机构第一作者：Yinkai Zhang（新疆大学计算机科学与技术学院 / 丝绸之路多语言认知计算联合国际实验室 / 新疆多语言信息技术重点实验室）通讯作者：Kai Wang, Hao Huang（新疆大学计算机科学与技术学院 / 丝绸之路多语言认知计算联合国际实验室 / 新疆多语言信息技术重点实验室）作者列表：Yinkai Zhang（新疆大学计算机科学与技术学院等），Dingbang Zhang（新疆大学计算机科学与技术学院等），Tao Wang（新疆大学计算机科学与技术学院等），Diana Rakhimova（哈萨克斯坦阿勒法拉比国立大学信息系统系），Kai Wang（新疆大学计算机科学与技术学院等），Hao Huang（新疆大学计算机科学与技术学院等）。 💡 毒舌点评 ...

Audio Source Separation in Reverberant Environments using $β$-divergence based Nonnegative Factorization

📄 Audio Source Separation in Reverberant Environments using $β$-divergence based Nonnegative Factorization #音频分离 #信号处理 #多通道 #麦克风阵列 ✅ 评分：7.5/10 | arxiv 👥 作者与机构第一作者：Mahmoud Fakhry（推断为FBK - Fondazione Bruno Kessler，意大利）通讯作者：Maurizio Omologo（推断为FBK - Fondazione Bruno Kessler，意大利）其他作者：Piergiorgio Svaizer（推断为FBK - Fondazione Bruno Kessler，意大利）（注：论文摘要未明确列出作者所属机构，以上信息根据常见研究合作模式及作者姓名推断得出。） 💡 毒舌点评亮点：论文巧妙地将非负矩阵/张量分解（NMF/NTF）与经典的多通道Wiener滤波框架结合，用数据驱动的“先验基矩阵库”替代了传统EM算法中对源方差的迭代估计，思路清晰且有一定新意。槽点：创新更像是对现有工具（β-散度NTF）的“组合应用”，而非底层算法的突破；摘要中声称“优于其他算法”但未提供任何具体数字支撑，说服力大打折扣，读起来像一份“工作汇报”而非扎实的学术论文。 🔗 开源详情论文摘要中未提及任何关于代码、模型权重、数据集或在线Demo的开源计划。 📌 核心摘要本文针对混响环境下的多通道音频源分离问题，提出了一种基于β-散度非负因子分解的参数估计新方法。传统方法依赖期望最大化（EM）算法估计源频谱方差和空间协方差矩阵，本文则利用包含源频谱先验信息的基矩阵（可直接提取或从预训练冗余库中获取），通过非负张量分解（NTF）来估计这些参数。该方法通过最小化β-散度并采用乘性更新规则实现因子分解，并可通过调节β值控制分解的稀疏性。实验表明，因子分解的稀疏性（而非β的具体取值）对提升分离性能至关重要。在多种混合条件下的评估显示，该方法能提供优于其他可比算法的分离质量。 🏗️ 模型架构论文提出的整体流程是一个两阶段方法：先验信息准备阶段：输入：目标源的音频数据（用于直接提取）或一个大型的预训练音频频谱基矩阵库。处理：从目标源数据中提取频谱基矩阵，或从冗余库中通过某种匹配算法（如非负张量分解）检测出最能代表观测混合信号中各源功率谱的基矩阵。输出：一组频谱基矩阵，作为后续分离的“先验信息”。源分离阶段：输入：多通道混响音频混合信号。核心处理：将问题建模为多通道高斯模型，其中似然函数由源频谱方差和空间协方差矩阵参数化。关键创新在于，这些参数不再通过EM算法迭代估计，而是通过应用非负张量分解（NTF）来估计。 NTF的目标是将观测到的多通道时频功率谱张量分解为几个因子矩阵的乘积，其中就包含了利用第一阶段得到的频谱基矩阵作为约束或初始化的部分。分解过程通过最小化β-散度（一种广义的散度度量，包含KL散度、欧氏距离等作为特例）来实现，并使用稳定的乘性更新规则进行优化。通过调整β的值，可以控制分解结果的稀疏性。参数估计：NTF的分解结果直接给出了各源的频谱方差估计和对应的空间协方差矩阵估计。信号分离：利用估计出的参数，应用经典的多通道Wiener滤波，从混合信号中分离出各个源信号。输出：分离后的各源信号。通俗理解：想象一下，你有几杯混合了不同果汁（声源）的水（混合录音），并且你有一些纯净果汁的“配方”（频谱基矩阵）。传统方法（EM）是不断试尝混合水，猜测每种果汁的浓度和杯子的形状（空间信息）。本文的方法是，直接用这些“配方”作为模板，去匹配混合水中出现的“味道模式”（功率谱），一旦找到最佳匹配，就能反推出每种果汁的浓度和杯子的形状，最后再把它们分离开。β-散度就像是匹配时使用的“尺子”，不同的尺子（β值）会影响匹配的精细程度（稀疏性）。 💡 核心创新点用NTF替代EM进行参数估计：将多通道音频分离中关键参数（源方差、空间协方差）的估计问题，从传统的迭代优化（EM）转化为一个基于先验约束的因子分解问题（NTF）。这提供了一种不同的、可能更直接利用源先验知识的参数化途径。引入频谱基矩阵作为结构化先验：明确地将源的频谱特性以“基矩阵”的形式作为先验信息融入分离过程。这些基矩阵可以是直接从已知源类型中学习得到的，也可以从一个大型通用库中检索得到，增强了模型对已知声源的针对性和可解释性。利用β-散度的稀疏性控制能力：指出并验证了在所提NTF框架下，通过调节β值来控制因子分解的稀疏性，是提升分离性能的关键因素，而不仅仅是β值本身对散度度量的选择。这为优化分离效果提供了一个实用的调参方向。 🔬 细节详述训练数据：摘要中未提及用于训练冗余基矩阵库的具体数据集名称、规模或预处理方式。损失函数：核心是最小化β-散度。其数学形式未在摘要中给出，但通常定义为两个非负矩阵/张量P和Q之间的散度：D_β(P||Q) = (1/(β(β-1))) * (P^β Q^(1-β) - βP + (β-1)Q)。当β→1时退化为KL散度，β=2时为欧氏距离。训练策略：未提及具体的学习率、batch size等。NTF的优化使用乘性更新规则，这是一种保证非负性的经典迭代算法。关键超参数：β值是核心超参数，用于控制散度形式和稀疏性。论文强调稀疏性本身是关键。训练硬件：未提及。推理细节：推理阶段即为应用训练好的基矩阵库和NTF算法对新的混合信号进行分离，具体流程如模型架构所述。数据增强/正则化：未明确提及，但通过β值控制的稀疏性可被视为一种正则化手段。 📊 实验结果主要指标对比：摘要中仅定性声称“提供了优于其他可比算法的分离质量”，未提供任何具体的量化指标数值（如SDR, SIR, SAR等）和对比模型名称。消融实验：摘要中指出“稀疏性，而不是分配给β的值，对于提高分离性能至关重要”，这暗示了可能进行了关于β值和稀疏性控制的实验，但未给出具体数据。与SOTA方法的对比：未提供具体对比方法和结果数据。在不同数据集/条件下的细分结果：提到“在多种混合条件下进行了评估”，但未列出具体条件（如不同混响时间、信噪比、声源数量）和对应的结果数据。用户研究/主观评价结果：未提及。 ⚖️ 评分理由创新性：6.5/10 - 创新点在于将NMF/NTF框架与传统多通道分离流程进行特定方式的结合，并强调了稀疏性的作用。这属于应用层面的方法改进和组合创新，而非提出全新的理论或模型。实验充分性：5.0/10 - 严重不足。摘要部分缺乏任何量化实验数据，使得所有结论（如“优于其他算法”、“稀疏性至关重要”）都成为无本之木，无法评估其真实效果和说服力。这是最大的短板。实用价值：7.0/10 - 如果方法有效，其利用先验库的思路对于已知声源场景（如会议中的人声、特定机械噪声）的分离具有实际应用潜力。但缺乏实验数据支撑，其实际效能存疑。灌水程度：6.0/10 - 摘要表述存在“提供更好分离质量”这类缺乏数据支撑的断言，有夸大或空泛之嫌。但方法描述本身逻辑清晰，不算完全无意义。 🖼️ 图片与表格论文摘要中未包含任何图片或表格。因此，无需进行图片保留建议或表格数据输出。 ...