优化算法 | 语音/音乐/音频论文速递

ICLR 2026 语音/音频论文详细分析

ICLR 2026 语音/音频论文详细分析共分析 133 篇 ICLR 2026 论文 🎯 任务分类点击任务标签查看该方向所有论文：语音合成（10篇）音频生成（9篇）语音识别（9篇）基准测试（9篇）音乐生成（9篇）语音对话系统（8篇）音频分类（6篇）音频问答（6篇）语音情感识别（5篇）多模态模型（5篇）音视频（4篇）音频检索（4篇）语音分离（3篇）模型评估（2篇）语音翻译（2篇）音乐信息检索（2篇）生成模型（2篇）音乐理解（2篇）视频生成（2篇）跨模态生成（1篇）脑编码（1篇）模型可解释性（1篇）音视频深度伪造检测（1篇）图像生成（1篇）数据集（1篇）语音增强 #对抗样本（1篇）语音大模型（1篇）音频编辑（1篇）音视频事件检测（1篇）生态计算（1篇）视频描述生成（1篇）视频摘要（1篇）语音问答（1篇）基准测试 #数据集（1篇）音频安全（1篇）神经网络架构（1篇）语音转换 #语音匿名化（1篇）声源定位（1篇）序列解耦（1篇）空间音频（1篇）音频分离（1篇）机器人操作（1篇）动作生成（1篇）音频场景理解（1篇）跨模态检索（1篇）语音增强（1篇）多模态推理（1篇）语音合成评估（1篇）语音生成（1篇）生物声学（1篇）模型比较（1篇）音视频联合推理（1篇）语音识别 #语音合成（1篇） ⚡ 今日概览 📥 133 篇 → 🔬 深度分析完成 ...

SCRAPL: Scattering Transform with Random Paths for Machine Learning

📄 SCRAPL: Scattering Transform with Random Paths for Machine Learning #音频生成 #时频分析 #损失函数 #优化算法 🔥 8.5/10 | 前25% | #音频生成 | #时频分析 | #损失函数 #优化算法学术质量 6.0/7 | 选题价值 1.8/2 | 复现加成 +0.8 | 置信度高 👥 作者与机构第一作者：Christopher Mitcheltree (伦敦玛丽女王大学数字音乐中心) 通讯作者：未明确指定。根据作者列表和惯例，通常为最后作者或通讯作者列表，论文中为Vincent Lostanlen (Nantes Université, LS2N) 和 Mathieu Lagrange (Nantes Université, LS2N)。作者列表：Christopher Mitcheltree（伦敦玛丽女王大学数字音乐中心）、Vincent Lostanlen（Nantes Université, LS2N）、Emmanouil Benetos（伦敦玛丽女王大学数字音乐中心）、Mathieu Lagrange（Nantes Université, LS2N） 💡 毒舌点评亮点：论文精准地解决了“感知损失函数计算太贵”这一工程痛点，通过巧妙的随机采样与优化技巧，在速度和精度之间找到了一个令人满意的平衡点，使得JTFS这类优质但昂贵的损失函数能够真正用于模型训练。短板：方法对散射路径的采样策略（尤其是低频路径）较为粗放，在TR-808实验中表现出对音频衰减部分建模能力的显著下降，暗示其对长尾、稀疏信息路径的处理策略有待进一步优化。 🔗 开源详情代码：论文明确指出代码、音频样本和配置文件已发布，并提供了Python包SCRAPL。链接为：https://christhetree.github.io/scrapl/。模型权重：论文中未提及公开预训练模型权重。数据集：TR-808任务使用了公开数据集（Samples from Mars TR-808），但论文未提供其独立下载链接。颗粒和啁啾合成器的数据由合成器程序动态生成。 Demo：提供了配套网站展示音频样本：https://christhetree.github.io/scrapl/。复现材料：提供了完整的训练细节、超参数（附录E）、配置文件和复现说明。引用的开源项目：论文未明确列出依赖的开源工具/模型库，但代码实现可能依赖PyTorch、nnAudio（CQT工具）等。 📌 核心摘要这篇论文针对小波散射变换（尤其是联合时频散射变换，JTFS）作为神经网络损失函数时计算成本过高的问题，提出了SCRAPL（Scattering with Random Paths for Learning）。其核心思想是通过在每个训练步骤中随机采样少量（通常为一个）散射路径来近似全路径损失的梯度，从而将计算复杂度从与路径数P成正比降低到常数级。为稳定这一随机近似过程，作者提出了三项技术创新：1）路径自适应矩估计（P-Adam）；2）路径随机平均梯度加速法（P-SAGA）；3）基于合成器参数敏感性的θ-重要性采样（θ-IS）初始化策略。实验在三个无监督声音匹配任务（颗粒合成器、啁啾合成器、Roland TR-808鼓机）上进行。在颗粒合成任务中，SCRAPL在参数估计误差上仅比全路径JTFS高约1.5倍（65.7‰ vs. 42.4‰），但计算成本降低了约25倍（89.8ms vs. 1730ms），达到了帕累托最优（见图1）。在更复杂的TR-808鼓机匹配中，SCRAPL能稳定地保持声音的瞬态特征，即使在输入音频未对齐（meso设置）时也优于多尺度谱损失（MSS）。本文的主要贡献在于提供了一个实用且开源的框架，使得具有感知保证的散射变换损失能高效地应用于音频生成模型的训练，其局限性在于对部分音频特征（如衰减）的采样代表性不足。 ...

Audio Effect Estimation with DNN-Based Prediction and Search Algorithm

📄 Audio Effect Estimation with DNN-Based Prediction and Search Algorithm #音频效果估计 #音乐信息检索 #深度神经网络 #优化算法 #音频效果移除 ✅ 7.0/10 | 前25% | #音频效果估计 | #深度神经网络 #优化算法 | #音乐信息检索 #深度神经网络学术质量 7.0/7 | 选题价值 1.0/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Youichi Okita（关西学院大学理工学研究科）通讯作者：Haruhiro Katayose（关西学院大学工学部）作者列表：Youichi Okita（关西学院大学理工学研究科）、Haruhiro Katayose（关西学院大学工学部） 💡 毒舌点评这篇论文的亮点在于它优雅地模拟了人类音频工程师“先猜后调”的工作流程，将数据驱动的预测与基于信号相似度的搜索有机结合，实验证明这种“两阶段法”确实优于纯预测方法。短板在于其研究的问题场景（吉他效果链）相对垂直窄众，虽然方法论扎实，但能否推广到更复杂、更多样的现实音频处理场景（如流行音乐、混音工程）还有待验证，且未与该领域所有可能的最新方法进行对比。 🔗 开源详情代码：论文中未提及代码仓库链接。模型权重：未提及公开的模型权重。数据集：论文中提及使用了公开的吉他数据集（IDMT-SMT-Guitar， GuitarSet， EGDB， Guitar-TECHS），但用于生成湿信号的效果参数和生成脚本未提及是否公开。 Demo：提供了一个在线演示网站：https://okitayouichi.github.io/afx-pred-sch-demo/ 复现材料：论文提供了较为详细的训练超参数、网络架构描述和损失函数公式，但缺乏硬件配置、训练时长、以及完整的配置文件或检查点信息。论文中引用的开源项目：使用了pedalboard库（由Spotify开源）来生成数据，使用了Optuna框架来进行搜索算法实现。 📌 核心摘要解决的问题：解决“音频效果估计”任务，即从经过效果处理的湿信号中，推断出所应用的效果器类型、顺序及其参数设置。方法核心：提出一种两阶段方法。第一阶段，使用DNN预测干信号和/或效果配置的部分信息（如类型组合）；第二阶段，以预测的干信号为基础，通过优化算法（如CMA-ES）搜索最佳参数，使得应用预测效果链后重建的信号与原始湿信号的相似度最大化。与已有方法相比新在何处：突破了现有方法要么纯预测（依赖大量标注数据，可能不准）、要么纯搜索（需要已知干信号）的局限。通过先预测干信号，为搜索阶段提供了关键输入，从而能够利用重建相似度这一客观目标来优化预测结果，实现了两类方法的互补。主要实验结果：在吉他效果链数据集上，该两阶段方法在湿信号重建任务上显著优于纯预测基线（例如，SI-SDR从18.18提升至23.07）。同时，研究发现将“预测效果类型组合”与“搜索估计顺序和参数”结合的任务划分策略，在多项指标（类型分类F1、重建SI-SDR等）上表现最佳。关键结果表格如下：任务方法核心指标数值单效果类型分类 Bypass-Type-Iter Macro F1 0.919 Bypass-Config-Iter Macro F1 0.917 效果链类型分类 Dry-Type-Direct + Search Macro F1 0.958 Bypass-Type-Iter Macro F1 0.949 Bypass-Config-Iter Macro F1 0.942 单效果移除 Bypass-Type-Iter SI-SDR 26.32 效果链移除 Dry-Type-Direct SI-SDR 13.96 Bypass-Type-Iter SI-SDR 14.95 湿信号重建 Bypass-Config-Iter (基线) SI-SDR 18.18 Dry-Type-Direct + Search SI-SDR 23.07 Bypass-Type-Iter + Search SI-SDR 22.68 实际意义：为自动化音频效果复制与分析提供了新思路，有望帮助音乐初学者学习音色设计，或辅助音频工程师快速复现复杂效果。主要局限性：实验仅覆盖三种吉他效果（合唱、失真、混响）和较短的效果链，未涉及更多样化的效果类型和更长的链，其实用性和泛化能力有待进一步验证。 🏗️ 模型架构论文的核心模型架构（预测阶段）如图2所示，其整体是一个包含“效果移除器”和“效果配置估计器”的深度神经网络。 ...

Off-The-Grid Multi-Pitch Estimation Using Optimal Transport

📄 Off-The-Grid Multi-Pitch Estimation Using Optimal Transport #音乐信息检索 #信号处理 #鲁棒性 #优化算法 #模型比较 ✅ 7.5/10 | 前25% | #音乐信息检索 | #信号处理 | #鲁棒性 #优化算法学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度中 👥 作者与机构第一作者：Anton Björkman（阿尔托大学信息与通信工程系）通讯作者：未说明作者列表：Anton Björkman（阿尔托大学信息与通信工程系）、Filip Elvander（阿尔托大学信息与通信工程系） 💡 毒舌点评本文的核心亮点在于用最优传输（OT）的优雅数学框架，系统性地解决了传统多音高估计方法长期受限于“网格”和“完美谐波假设”两大痛点，在理论上更具通用性。然而，其短板也十分明显：方法依赖外部先验估计器的初始化，且实验部分仅限于有限场景下的蒙特卡洛模拟，缺乏真实复杂音频数据的验证，说服力有待加强。 🔗 开源详情代码：提供了代码仓库链接 https://github.com/anton-bman/OTG-PEOT，论文中注明包含算法实现、命题证明、区间（7）及更新式（8）的推导。模型权重：未提及。数据集：未提及公开数据集，实验基于论文内描述的合成数据生成方式。 Demo：未提及。复现材料：提供了详细的算法描述、关键公式和超参数设置，为复现提供了必要信息。论文中引用的开源项目：论文未明确提及依赖的其他开源工具或模型。 📌 核心摘要要解决什么问题：本文旨在解决多音高估计中的两大挑战：一是传统方法依赖于预定义的离散音高网格，限制了估计精度；二是大多数方法假设信号为完美谐波结构，对实际信号中存在的非谐波性（inharmonicity）敏感。方法核心是什么：提出一种基于最优传输（OT）的框架，将音高估计问题建模为将信号频谱质量（measure）重新分配到基频质量的过程。通过块坐标下降法交替优化两个变量：传输计划（描述频谱能量如何流向基频）和基频估计值本身。与已有方法相比新在哪里：去网格化：首次在OT框架下实现了对基频的连续值估计，摆脱了固定网格的限制，理论上可获得更高精度。适应非谐波：通过设计特定的地面代价函数（ground-cost function），使算法能够适应轻微的非谐波偏差。优化策略：引入局部二次近似和迭代更新，将高度非凸的OT问题转化为可高效求解的凸问题序列。主要实验结果如何：论文通过蒙特卡洛模拟（3音高信号，800采样点）进行评估。图2显示，在完美谐波信号下，所提方法（结合PESCOT-2先验）的粗大误差率（GER）在所有信噪比（SNR）下均为最低，但低噪时的均方根误差（RMSE）略逊于PEBSI-lite。图3显示，在非谐波信号（SNR=5dB）下，随着非谐波参数σ∆增大，所提方法的RMSE保持稳定且GER持续很低，而PEBSI-lite的性能则急剧恶化。论文未提供具体的数值表格，关键对比结论均来自对图2、图3的描述。实际意义是什么：该方法为语音处理、音乐信息检索等领域中，对频率成分复杂、非谐波特性明显的信号（如弦乐器、人声）进行高精度音高分析提供了新的理论框架。主要局限性是什么：依赖先验：算法的初始化依赖于另一个先验音高估计器（如PESCOT-2），若先验不准可能影响最终性能。实验局限：实验仅限于合成信号的仿真，未在真实世界复杂音频（如混合乐器录音、带噪声的语音）上验证。任务垂直：解决的是一个特定信号处理子问题，潜在应用范围相对狭窄。 🏗️ 模型架构本文提出的是一个基于优化理论的算法框架，而非神经网络架构。其核心流程如下： ...

Sequential and Simultaneous Optimization of Microphone Array Geometry and Region-of-Interest Beamforming

📄 Sequential and Simultaneous Optimization of Microphone Array Geometry and Region-of-Interest Beamforming #波束成形 #麦克风阵列 #声源定位 #空间音频 #优化算法 ✅ 7.5/10 | 前25% | #声源定位 | #波束成形 | #麦克风阵列 #空间音频学术质量 6.5/7 | 选题价值 1.0/2 | 复现加成 0.0 | 置信度高 👥 作者与机构第一作者：Gal Itzhak（Technion–Israel Institute of Technology， Faculty of Electrical & Computer Engineering）通讯作者：未明确说明，根据学术惯例及贡献，第二作者Simon Doclo或第三作者Israel Cohen可能是通讯作者，但论文中未明确标注。作者列表：Gal Itzhak（Technion–Israel Institute of Technology， Faculty of Electrical & Computer Engineering）、Simon Doclo（Carl von Ossietzky Universit¨at Oldenburg， Department of Medical Physics and Acoustics）、Israel Cohen（Technion–Israel Institute of Technology， Faculty of Electrical & Computer Engineering） 💡 毒舌点评这篇论文的亮点在于提出了一个巧妙的“分而治之”顺序优化框架，将原本难以处理的大规模混合整数规划问题，转化为一系列可求解的小问题，这在工程上很有价值。但短板也很明显，其核心假设（ROI内信号完全相干）在实际复杂声学环境中可能不成立，且实验完全基于仿真，缺乏真实场景的验证，这让其实用性打了折扣。 ...