音频超分辨率

ICASSP 2026 - 音频超分辨率共 1 篇论文 ← 返回 ICASSP 2026 总览排名论文评分分档 🥇 Universr: Unified and Versatile Audio Super-Resolution Via V 8.0分前25% 📋 论文详情 🥇 Universr: Unified and Versatile Audio Super-Resolution Via Vocoder-Free Flow Matching 🔥 8.0/10 | 前25% | #音频超分辨率 | #流匹配 | #语音增强 #音频生成 👥 作者与机构第一作者：Woongjib Choi（延世大学电气与电子工程系）通讯作者：未说明作者列表：Woongjib Choi（延世大学电气与电子工程系）、Sangmin Lee（延世大学电气与电子工程系）、Hyungseob Lim（延世大学电气与电子工程系）、Hong-Goo Kang（延世大学电气与电子工程系） 💡 毒舌点评这篇论文最大的亮点是提供了一个优雅且高效的“去vocoder”解决方案，用一个统一的流匹配模型直击频谱，避免了传统两阶段管线的性能天花板，在主观听感上甚至优于vocoded的GT。然而，其核心架构本质是成熟的ConvNeXt V2 U-Net在频域数据上的应用，创新更多体现在任务定义和流程整合上，而非模型架构本身，这使得它更像一个工程上的巧妙优化而非理论上的重大突破。 🔗 开源详情代码：提供代码仓库链接：https://github.com/woongzip1/UniverSR 模型权重：论文中未提及是否公开预训练模型权重。数据集：论文中提及了训练所用的数据集名称和规模，但未说明是否提供这些数据集的下载或处理脚本。 Demo：提供在线演示链接：https://woongzip1.github.io/universr-demo 复现材料：论文中详细说明了模型架构、训练超参数、损失函数、推理设置等，为复现提供了关键信息。论文中引用的开源项目：未明确提及依赖的具体开源代码库。 📌 核心摘要 ...

📄 Universr: Unified and Versatile Audio Super-Resolution Via Vocoder-Free Flow Matching #音频超分辨率 #流匹配 #语音增强 #音频生成 #模型评估 🔥 8.0/10 | 前25% | #音频超分辨率 | #流匹配 | #语音增强 #音频生成学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.8 | 置信度高 👥 作者与机构第一作者：Woongjib Choi（延世大学电气与电子工程系）通讯作者：未说明作者列表：Woongjib Choi（延世大学电气与电子工程系）、Sangmin Lee（延世大学电气与电子工程系）、Hyungseob Lim（延世大学电气与电子工程系）、Hong-Goo Kang（延世大学电气与电子工程系） 💡 毒舌点评这篇论文最大的亮点是提供了一个优雅且高效的“去vocoder”解决方案，用一个统一的流匹配模型直击频谱，避免了传统两阶段管线的性能天花板，在主观听感上甚至优于vocoded的GT。然而，其核心架构本质是成熟的ConvNeXt V2 U-Net在频域数据上的应用，创新更多体现在任务定义和流程整合上，而非模型架构本身，这使得它更像一个工程上的巧妙优化而非理论上的重大突破。 🔗 开源详情代码：提供代码仓库链接：https://github.com/woongzip1/UniverSR 模型权重：论文中未提及是否公开预训练模型权重。数据集：论文中提及了训练所用的数据集名称和规模，但未说明是否提供这些数据集的下载或处理脚本。 Demo：提供在线演示链接：https://woongzip1.github.io/universr-demo 复现材料：论文中详细说明了模型架构、训练超参数、损失函数、推理设置等，为复现提供了关键信息。论文中引用的开源项目：未明确提及依赖的具体开源代码库。 📌 核心摘要要解决什么问题：传统的两阶段音频超分辨率方法需要先预测梅尔频谱，再依赖预训练的神经声码器合成波形，导致最终质量受限于声码器性能，且流程复杂。方法核心是什么：论文提出 UniverSR，一个无 vocoder 的端到端框架。它将音频超分辨率视为频谱修复问题，使用流匹配生成模型直接估计低频谱条件下的复数谱系数（包含幅度和相位）的条件分布，然后通过逆短时傅里叶变换（iSTFT）直接恢复波形。与已有方法相比新在哪里：a) 去 vocoder：直接建模复数谱，无需单独的波形合成阶段，简化了流程并突破了性能瓶颈；b) 使用流匹配：相比传统扩散模型，流匹配在较少采样步数（如4步）下即可生成高质量结果，效率更高；c) 统一架构：单一模型可处理语音、音乐、音效等多种音频类型及多种上采样倍率（×2 到 ×6）。主要实验结果如何：在统一模型评估中（Table 1），UniverSR 在音乐和音效领域全面超越 AudioSR 和 FlashSR，在语音领域也达到竞争水平，且参数量（57M）远小于基线（>600M）。在纯语音数据集VCTK上的评估（Table 2）显示，在最具挑战性的8kHz→48kHz任务中，UniverSR 取得了最优的 LSD-HF（1.14）和2f-model（31.41）分数。主观听感测试（图3）表明，在8kHz上采样任务中，UniverSR 的MOS分数最高，甚至高于“经vocoder处理的真实音频（GT (Vocoded)）”。定性分析（图4）显示，UniverSR 生成的频谱谐波结构更清晰，高频细节更丰富。消融研究（Table 3）表明，引导尺度 ω 的选择在感知丰富度和客观保真度之间存在权衡。实际意义是什么：该方法为高质量、高效的音频带宽扩展提供了一个更简洁、更统一的解决方案，可广泛应用于提升语音清晰度、修复历史录音、增强流媒体音频质量等场景。其“去 vocoder”范式可能启发其他音频生成任务。主要局限性是什么：论文未明确讨论模型在极度低比特率或极端噪声条件下的鲁棒性；频谱修复方法依赖于STFT/iSTFT，可能引入相位相关的伪影（虽然实验显示听感良好）；模型在最困难的语音任务（8kHz→48kHz）上，部分客观指标（如2f-model）略低于某些基线。 🏗️ 模型架构整体流程：模型采用端到端设计。输入为低分辨率（LR）波形 s_lr，首先通过 sinc 插值上采样至目标高分辨率（HR）长度，然后进行STFT得到复数谱。从复数谱中提取包含所有可能高频区域的固定大小高频目标 X_h，以及对应于原始LR带宽的低频谱 X_l。训练时，向量场估计器（VFE）在流匹配目标下学习，以低频谱 X_l 为条件，从高斯噪声中逐步生成 X_h。推理时，从噪声开始，通过ODE求解器迭代生成 X_h，最后与 X_l 拼接成完整频谱，并通过iSTFT得到HR波形。 ...