High-Fidelity Speech Enhancement Via Discrete Audio Tokens
📄 High-Fidelity Speech Enhancement Via Discrete Audio Tokens #语音增强 #自回归模型 #语音大模型 #数据集 #预训练 ✅ 7.5/10 | 前25% | #语音增强 | #自回归模型 | #语音大模型 #数据集 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Luca A. Lanzendörfer(未明确标注,但根据作者列表顺序推测) 通讯作者:未说明 作者列表:Luca A. Lanzendörfer (ETH Zurich), Frédéric Berdoz (ETH Zurich), Antonis Asonitis (ETH Zurich), Roger Wattenhofer (ETH Zurich) 💡 毒舌点评 亮点在于其架构的“暴力美学”——用一个足够大的语言模型(1B LLaMA)和足够高分辨率的离散表示(44.1kHz DAC),将复杂的语音增强多阶段流水线简化为直接的token-to-token转换,并取得了SOTA结果,为“大力出奇迹”在语音领域提供了又一例证。短板在于这种简化高度依赖预训练的高质量编解码器(DAC)和计算资源,论文对模型计算成本、推理延迟等实际部署考量几乎只字未提,且在处理特定失真(如DNS挑战中的背景噪声抑制)时并未展现出压倒性优势。 🔗 开源详情 代码:论文明确表示“We release our codebase and model checkpoints”,并提供了Demo网站链接 https://lucala.github.io/dac-se1/。但未直接给出代码仓库URL。 模型权重:承诺发布模型检查点。 数据集:使用了公开数据集(HiFiTTS-2, MUSAN, DEMAND等),但论文中生成的训练数据集本身是否公开未说明。 Demo:提供了在线演示网站。 复现材料:论文给出了模型架构、训练数据来源、两阶段训练策略、主要超参数(模型大小、码本等)。但未提供完整的训练配置文件、损失函数具体实现、推理脚本等细节。 论文中引用的开源项目:依赖的开源工具/模型包括DAC编码器/解码器、LLaMA架构、Whisper-Large(用于计算WER)。 📌 核心摘要 这篇论文旨在解决现有基于语言模型的语音增强方法局限于低采样率(16kHz)和依赖复杂多阶段架构的问题,以实现高保真(44.1kHz)的语音增强与带宽扩展。 方法核心是提出一个名为DAC-SE1的单阶段框架,该框架直接使用44.1kHz的DAC离散音频令牌作为输入和输出,由一个基于LLaMA的1B参数自回归模型进行处理,无需额外的语义编码器或多阶段流水线。 与已往工作相比,新方法的新颖之处在于:1)直接操作高分辨率DAC令牌,保留了精细的声学细节;2)架构高度简化,统一了增强与带宽扩展任务;3)通过扩大模型参数和训练数据规模来提升性能。 主要实验结果表明,DAC-SE1在HiFiTTS-2测试集的客观指标(如DNSMOS OVRL: 2.95)和MUSHRA主观评分(58.3分)上均优于LLaSE-G1和VoiceFixer等基线。在ICASSP 2022 PLC挑战中,其PLCMOS分数达到4.34,超越了所有对比方法。在ICASSP 2023 DNS挑战中,性能与最强基线持平。 该工作的实际意义在于证明了通过简单、可扩展的自回归语言模型范式,结合高质量的音频离散表示,能够实现统一且高质量的语音增强任务,为未来构建通用音频生成模型提供了新思路。 主要局限性是论文未详细讨论模型的计算效率、训练成本以及在不同噪声类型或极低信噪比条件下的泛化能力,且其性能提升部分依赖于庞大的模型参数,可能限制了实际部署场景。 ...