Noise-to-Notes: Diffusion-Based Generation and Refinement for Automatic Drum Transcription

📄 Noise-to-Notes: Diffusion-Based Generation and Refinement for Automatic Drum Transcription #音乐信息检索 #扩散模型 #生成模型 #鲁棒性 🔥 8.0/10 | 前10% | #音乐信息检索 | #扩散模型 | #生成模型 #鲁棒性 学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度 高 👥 作者与机构 第一作者:未说明(论文未明确标注) 通讯作者:未说明(论文未明确标注) 作者列表:Michael Yeung(Sony Group Corporation, Tokyo, Japan)、Keisuke Toyama(Sony Group Corporation, Tokyo, Japan)、Toya Teramoto(Sony Group Corporation, Tokyo, Japan)、Shusuke Takahashi(Sony Group Corporation, Tokyo, Japan)、Tamaki Kojima(Sony Group Corporation, Tokyo, Japan) 💡 毒舌点评 亮点:首次将扩散模型作为生成范式应用于自动鼓转录(ADT),不仅在多个基准测试上超越了所有判别模型,还展示了在音频部分缺失情况下的“修复”能力,这在ADT乃至更广的音乐转录领域都是新颖的。 短板:论文的核心卖点是“生成模型超越判别模型”,但作为生成模型的代价是推理速度显著慢于同等性能的判别模型(例如,单步推理0.163s vs. 0.086s),这使得其在实时或低延迟应用场景中的实用性大打折扣。 ...

2026-04-29

ParaGSE: Parallel Generative Speech Enhancement with Group-Vector-Quantization-Based Neural Speech Codec

📄 ParaGSE: Parallel Generative Speech Enhancement with Group-Vector-Quantization-Based Neural Speech Codec #语音增强 #生成模型 #模型/架构 #神经网络编解码器 #实时处理 ✅ 7.5/10 | 前25% | #语音增强 | #生成模型 | #模型/架构 #神经网络编解码器 学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Fei Liu(中国科学技术大学语音及语言信息处理国家工程研究中心) 通讯作者:Yang Ai(中国科学技术大学语音及语言信息处理国家工程研究中心) 作者列表:Fei Liu(中国科学技术大学语音及语言信息处理国家工程研究中心),Yang Ai*(中国科学技术大学语音及语言信息处理国家工程研究中心) 💡 毒舌点评 本文巧妙地将组向量量化(GVQ)这一常用于编解码器的并行思想,移植到生成式语音增强框架中,实现了“用独立的VQ产出独立的token,从而支持并行预测”这一核心洞察,逻辑自洽且效果显著。其短板在于,作为生成模型,其在精细频谱结构重建上(由LSD指标反映)仍略逊于顶尖的判别式模型,这或许是生成范式与回归范式在优化目标上的根本差异所导致的。 📌 核心摘要 要解决的问题:现有生成式语音增强方法(如GenSE, Genhancer)面临模型复杂度高、生成效率低(多为串行自回归预测)以及性能受限的挑战。 方法核心:提出ParaGSE框架,核心是使用一个基于组向量量化(GVQ)的神经语音编解码器(G-MDCTCodec)。GVQ将编码特征分组并独立量化,产出一组相互独立的离散token。在此基础上,ParaGSE采用并行的轻量级分支,直接根据带噪token和频谱特征,同时预测所有对应的干净token,最后由解码器重建语音。 与已有方法相比新在哪里:与依赖大语言模型(GenSE)或残差向量量化(RVQ)进行串行自回归预测(Genhancer)的方法相比,本文首次在生成式增强中引入GVQ和并行预测机制,彻底摆脱了对前序token的依赖,从而实现了计算效率的飞跃。与判别式模型相比,它将优化目标从波形/频谱回归转变为token分类。 主要实验结果:在去噪、去混响和混合失真抑制三项任务上,ParaGSE在多数客观指标(如NISQA, DNSMOS, UTMOS)和主观ABX测试中均优于或持平于基线模型(包括CMGAN, MP-SENet, Genhancer)。特别是在混合失真抑制任务上优势显著。效率方面,与串行基线(SerialGSE)相比,ParaGSE在CPU上的实时率(RTF)降低了约50%,速度提升约1.5倍(从0.0696降至0.0466)。 实际意义:该框架为实时、高效的语音增强提供了一种新范式,尤其适合在CPU等计算资源受限的边缘设备上部署,适用于通信、会议等实时应用场景。 主要局限性:在侵入式指标(LSD)上,其性能略弱于最强的判别式模型,表明生成模型在精确还原频谱细节上可能仍有差距。论文未报告在真实复杂声场下的性能。 🏗️ 模型架构 本文提出的方法包含两个紧密耦合的组件:G-MDCTCodec(组向量量化语音编解码器)和ParaGSE(并行生成式语音增强框架)。 G-MDCTCodec 架构 (图1a) 输入/输出:输入为语音波形,输出为重建后的语音波形。其编码器和解码器均基于1D ConvNeXt v2块处理MDCT频谱。 编码器 (Encoder):将语音MDCT频谱编码为高维向量 e ∈ RK。 组向量量化器 (GVQ):这是核心创新点。它沿特征维度将 e 分成 N 个组(例如N=4),得到 N 个特征向量 en ∈ RK/N。每个组使用独立的码本 Wn(大小为 M)进行向量量化,通过最近邻查找得到量化向量 ê_n 和离散令牌 d_n。最后将所有组的量化向量拼接回原始维度,得到最终量化向量 ê。关键设计:与传统的串行残差向量量化(RVQ)不同,GVQ的各组量化是相互独立、并行的,这为后续的并行预测奠定了基础。 解码器 (Decoder):将量化向量 ê 解码回语音波形。 训练:G-MDCTCodec的训练是独立的,使用对抗损失、MDCT频谱损失、梅尔频谱损失以及新增的GVQ损失(量化误差MSE),旨在获得高质量的语音编解码能力。 ParaGSE 架构 (图1b) 输入/输出:输入为带噪/失真语音 y,输出为增强后的干净语音 x̂。 整体流程:1) y 通过G-MDCTCodec的编码器和GVQ,得到一组“退化令牌” {d(y)_n}。2) 同时,一个频谱特征提取模块从 y 提取全局频谱特征 ŝ。3) N 个并行预测分支以退化令牌和频谱特征为输入,独立预测对应的干净令牌 d̂(x)_n。4) 所有预测的干净令牌通过G-MDCTCodec的解码器,重建出增强语音。 频谱特征提取模块:使用STFT获取幅度和相位谱,经卷积下采样后,通过BiLSTM和Conformer块建模,得到特征向量 ŝ。它为每个预测分支提供全局上下文。 并行预测分支 (PPB):每个分支 PPB_n 对应一个GVQ组。它将退化令牌 d(y)_n 通过一个可训练的嵌入表(码本 Un)映射为向量 v_n,与频谱特征 ŝ 拼接后,经过BiLSTM和Conformer处理,最终通过Softmax输出在干净码本 Wn 上的概率分布,通过采样(训练时为交叉熵,推理时为argmax)得到预测的干净令牌 d̂(x)_n。 训练:训练ParaGSE时,冻结G-MDCTCodec的所有参数。仅训练频谱特征提取模块和N个并行预测分支。损失函数为预测干净令牌概率分布与目标(由G-MDCTCodec编码干净语音得到)的交叉熵损失之和。 💡 核心创新点 引入组向量量化(GVQ)神经语音编解码器:提出G-MDCTCodec,通过将编码特征分组并独立量化,生成一组相互独立的离散令牌。与主流RVQ的串行依赖结构相比,GVQ的并行独立结构是实现后续并行增强的前提,且实验表明其编解码质量未受明显影响。 提出并行令牌预测的生成式增强框架:基于GVQ的独立令牌特性,设计了ParaGSE框架。其核心创新在于用N个轻量级并行分支直接从退化令牌映射到干净令牌,彻底摒弃了自回归预测(预测下一个令牌需依赖前一个)的模式。这直接解决了生成式SE方法效率低下的核心瓶颈。 无需语义令牌依赖:与GenSE等依赖外部预训练模型提供语义令牌的方法不同,ParaGSE的输入仅为原始退化语音通过自身编解码器得到的声学令牌,简化了系统复杂度和对外部模型的依赖。 🔬 细节详述 训练数据: 干净语音:VoiceBank语料库,训练集23,075条(56位说话人),测试集824条(2位未见说话人),采样率16kHz。 失真构建: 去噪:训练使用DEMAND数据集10种噪声,SNR 0-15dB;测试使用5种未见噪声,SNR 2.5-17.5dB。 去混响:使用DNS Challenge提供的RIR数据集(248个真实+~60,000个模拟RIR),训练与测试使用未见的RIR。 混合失真:在干净语音上依次添加混响、噪声,最后下采样至8kHz。 损失函数: G-MDCTCodec训练损失:对抗损失 + MDCT频谱损失 + 梅尔频谱损失 + GVQ损失(公式3:各VQ的量化误差MSE之和)。 ParaGSE训练损失:冻结编解码器,仅优化增强网络。损失为N个并行分支的交叉熵损失之和(公式8): L = Σ CrossEntropy( p̂(x)_n , p(x)_n ),目标 p(x)_n 是干净语音经编码量化后生成的one-hot分布。 训练策略: 优化器:AdamW (β1=0.9, β2=0.95, weight_decay=0.01)。 学习率:初始0.0005,使用余弦退火策略,并在前10k步使用warm-up。 训练轮数:100 epochs。 硬件:单卡Nvidia A800 GPU。 关键超参数: G-MDCTCodec:N=4个VQ,每个码本大小M=256,码本向量维度K/N=8(总维度K=32)。 频谱特征提取模块:STFT帧长320,帧移ws=40,FFT大小1024。下采样模块:3层卷积(核大小3,步长2),总下采样因子R=8。 并行预测分支与特征提取模块:使用Conformer块,通道数C=512,注意力头数8。 推理细节: 并行预测分支在推理时对每个分支的Softmax输出取argmax(公式7)得到预测令牌,而非采样,这是为了确定性输出。 实时率(RTF)测试环境:GPU为Nvidia A800,CPU为Intel(R) Xeon(R) Silver 4314。 📊 实验结果 表1:G-MDCTCodec与MDCTCodec编解码质量对比 ...

2026-04-29

PG-SE: Predictive Acceleration and Correction for Generative Speech Enhancement

📄 PG-SE: Predictive Acceleration and Correction for Generative Speech Enhancement #语音增强 #扩散模型 #生成模型 #预测模型 #语音增强的加速推理 ✅ 7.5/10 | 前25% | #语音增强 | #扩散模型 | #生成模型 #预测模型 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度 高 👥 作者与机构 第一作者:Yikai Huang(清华大学深圳国际研究生院) 通讯作者:Zhiyong Wu(清华大学深圳国际研究生院),Shiyin Kang(商汤科技) 作者列表:Yikai Huang(清华大学深圳国际研究生院)、Jinjiang Liu(清华大学深圳国际研究生院)、Zijian Lin(清华大学深圳国际研究生院)、Xiang Li(清华大学深圳国际研究生院)、Renjie Yu(清华大学深圳国际研究生院)、Zhiyong Wu(清华大学深圳国际研究生院)、Shiyin Kang(商汤科技) 💡 毒舌点评 亮点在于“前后夹击”的架构设计非常巧妙:用前级预测模型为扩散过程提供高质量起点以大幅压缩采样步数,再用后级预测校正器修复加速带来的瑕疵,形成一个闭环。短板是其实验仅在一个广泛使用的合成数据集(VB-DMD)上完成,缺乏在真实复杂声学环境或不同语言上的验证,其通用性和实际部署效果仍需进一步证明。 📌 核心摘要 问题:基于扩散模型的语音增强方法虽然能生成细节丰富的语音,但面临两大挑战:一是噪声抑制能力通常弱于预测(判别式)模型;二是逆采样过程需要大量的神经函数评估(NFEs),导致计算成本高,难以满足低延迟部署需求。 方法核心:提出PG-SE框架,在扩散推理的前后阶段分别引入预测模型。前级预测模型(先验估计器)生成粗略估计,并将其扩散到一个浅时间步作为逆过程的起点,从而大幅减少所需采样步数。后级预测模型(校正器)则以原始含噪语音和扩散生成结果为条件,对输出进行细化,以抑制残余噪声和生成伪影。 创新点:相比于将预测目标与扩散目标紧密耦合(如CRP),本方法将预测组件解耦为独立的预处理和后处理模块,分别专注于加速和细化,提供了更灵活的优化空间。创新还包括基于KL散度分析来启发式地选择最优的浅层起始时间步。 主要实验结果:在VB-DMD数据集上,PG-SE仅需5个NFEs(对比全步骤方法需30+ NFEs),在PESQ、ESTOI、SI-SDR等多项指标上超越了全步骤的SGMSE+、同等NFEs的FlowSE和CRP等SOTA基线。例如,PESQ分数达到3.40,高于FlowSE(3.09)和CRP(3.06)。消融实验显示,去掉校正器后性能仍有竞争力,证明了前级加速的有效性。 实际意义:该框架为平衡生成式语音增强的性能和效率提供了一个有效范式,通过将推理NFEs减少80%以上,使其更适用于实时或低延迟的应用场景。 主要局限性:实验仅在单一基准数据集上进行,未在真实世界噪声或复杂场景中验证其鲁棒性;论文未提供代码和模型,复现性依赖读者自行实现;此外,性能提升幅度在某些指标上相对有限(如SI-SDR提升0.2dB),且校正器引入了额外的推理计算(尽管NFEs总计仍很低)。 🏗️ 模型架构 PG-SE的整体架构是一个三阶段的流水线,如图1所示。以下是结合图示的详细描述: 完整输入输出流程: 输入:含噪语音信号 y。 输出:增强后的干净语音信号 x(频谱或时域)。 主要组件及数据流: ...

2026-04-29

Prosody-Guided Harmonic Attention for Phase-Coherent Neural Vocoding in the Complex Spectrum

📄 Prosody-Guided Harmonic Attention for Phase-Coherent Neural Vocoding in the Complex Spectrum #语音合成 #生成模型 #信号处理 #实时处理 🔥 8.0/10 | 前25% | #语音合成 | #生成模型 | #信号处理 #实时处理 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Mohammed Salah Al-Radhi(布达佩斯理工大学电信与人工智能系) 通讯作者:未说明 作者列表:Mohammed Salah Al-Radhi(布达佩斯理工大学电信与人工智能系),Riad Larbi(布达佩斯理工大学),Mátyás Bartalis(布达佩斯理工大学电信与人工智能系),Géza Németh(布达佩斯理工大学电信与人工智能系) 💡 毒舌点评 这篇论文的亮点在于它没有“头痛医头”,而是构建了一个从F0引导到相位预测的统一框架,直接针对传统声码器的两大顽疾(音高不准、相位丢失),实验也做得扎实,对比了多个强基线。不过,它对F0的依赖完全建立在外部提取器(Harvest)上,论文并未讨论F0预测不准时的鲁棒性,这在与真实TTS管线对接时可能是个隐患;另外,虽然声称有潜力用于实时应用,但并未提供任何关于模型复杂度、推理速度的量化分析。 📌 核心摘要 这篇论文旨在解决神经声码器中存在的音高(F0)建模能力有限和相位重建不准确的问题,这两个问题直接影响合成语音的音高保真度和自然度。其核心方法是提出一个统一的神经声码器框架,包含三个关键组件:1)一个由F0引导的谐波注意力机制,用于在编码阶段增强对有声段和谐波结构的建模;2)一个直接预测复数频谱(实部和虚部)的解码器,以实现相位相干的波形重建;3)一个多目标感知训练策略,结合了对抗损失、频谱损失和相位感知损失。与依赖梅尔谱、相位信息丢失或需要后处理的现有方法(如HiFi-GAN, AutoVocoder)相比,该工作的创新点在于首次将F0引导的注意力机制与直接复数谱预测结合在一个端到端的框架中,从而同时、显式地提升音高精度和相位连贯性。在LJSpeech和VCTK数据集上的实验表明,该方法在所有评估指标上均优于HiFi-GAN和AutoVocoder等基线:F0均方根误差(F0-RMSE)相比HiFi-GAN降低了22%,浊音/清音错误率降低了18%,平均意见得分(MOS)提升了0.15分。其实际意义在于为更自然、更具表现力的语音合成(如情感语音、语音克隆)提供了更强大的声码器基础。主要局限性在于F0信息依赖外部算法提取,且论文未评估模型在F0预测不准时的��棒性,也未充分验证其声称的实时处理能力。 论文关键数据表 系统 F0 RMSE ↓ V/UV Error (%) ↓ MCD ↓ MOS ↑ Original - - - 4.6 Anchor 34.8 11.5 1.21 2.1 HiFi-GAN 21.6 7.9 0.84 4.2 AutoVocoder 19.7 7.1 0.79 4.3 Vocos 20.5 7.3 0.81 4.1 Proposed 16.8 6.5 0.72 4.45 🏗️ 模型架构 ...

2026-04-29

PSTalker: Realistic 3D Talking Head Synthesis via a Semantic-Aware Audio-Driven Point-Based Shape

📄 PSTalker: Realistic 3D Talking Head Synthesis via a Semantic-Aware Audio-Driven Point-Based Shape #语音合成 #音视频 #3D音频 #生成模型 #实时处理 ✅ 7.5/10 | 前25% | #说话人合成 | #3D音频 | #语音合成 #音视频 学术质量 7.5/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度 中 👥 作者与机构 第一作者:Zhongyuan Zhao(北京大学电子与计算机工程学院,鹏城实验室) 通讯作者:Kanglin Liu(鹏城实验室) 作者列表:Zhongyuan Zhao(北京大学电子与计算机工程学院,鹏城实验室)、Qing Li(鹏城实验室)、Kanglin Liu(鹏城实验室) 💡 毒舌点评 论文巧妙地将语义先验融入点基形状表示,有效解决了头颈接合处的“断裂”伪影,这是当前3DGS方法的一个显著痛点,体现了其工程洞察力。然而,其对非刚性形变(如头发细节)的建模能力、以及在多人种、复杂表情下的泛化能力验证略显不足,且“高保真”渲染的细节处理(如动态光照、微表情)仍有提升空间。 📌 核心摘要 问题:现有的音频驱动3D说话头生成方法(基于NeRF或3DGS)存在唇同步不准确、在头部转动时头颈接合处产生伪影、以及合成结果缺乏参数化可控性三大挑战。 核心方法:提出PSTalker框架,包含两大核心:语义感知点基形状模型——在FLAME网格上基于语义标签采样点,并沿法线方向偏移,以统一建模面部与非面部(如头发、躯干)结构;刚柔耦合合成模型——将音频驱动的灵活面部变形与基于线性混合蒙皮的头部刚体运动显式耦合,增强运动稳定性。 创新性:1)提出SAPS模型,首次用统一的点基表示解决了头颈几何连贯性问题;2)设计RFC模型,将高自由度的音频到运动映射锚定在稳定的几何先验上,提升了唇同步精度和运动自然性;3)继承了FLAME的参数化控制能力,实现了对合成结果的姿态编辑。 主要实验结果:在四个说话人数据集上进行自驱动和跨驱动测试。在跨驱动设置下,本文方法(Sync-C: 6.9982, Sync-D: 7.9911)显著优于最强基线TalkingGaussian(Sync-C: 6.4075, Sync-D: 8.4689)。消融实验表明,移除SAPS或RFC均导致唇同步指标(Sync-C)和运动自然度指标(AUE)明显下降。 实际意义:为生成可控、逼真、无伪影的3D说话头像提供了高效方案,可应用于虚拟社交、数字人直播、影视配音等场景。 主要局限性:方法依赖于针对特定说话人的短视频进行训练,限制了其对高度发散音频模式(如歌唱)的泛化能力;论文未提供代码和模型,开源信息不足。 🏗️ 模型架构 PSTalker是一个两阶段的框架,旨在从音频和参考视频生成逼真的、可控制的3D说话头像。 整体流程(如图2所示): 图2: pdf-image-page2-idx1] ...

2026-04-29

ReCoM: Realistic Co-Speech Motion Generation with Recurrent Embedded Transformer

📄 ReCoM: Realistic Co-Speech Motion Generation with Recurrent Embedded Transformer #语音生成 #动作生成 #音频生成 #Transformer #生成模型 ✅ 7.0/10 | 前25% | #音频生成 | #Transformer | #语音生成 #动作生成 学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 -0.5 | 置信度 中 👥 作者与机构 第一作者:Yong Xie(南京理工大学) (注:论文标注为* equal contribution) 通讯作者:Yunlian Sun(南京理工大学) (注:论文标注为† corresponding author) 作者列表:Yong Xie(南京理工大学)、Yunlian Sun(南京理工大学)、Hongwen Zhang(北京师范大学)、Yebin Liu(清华大学)、Jinhui Tang(南京林业大学) 💡 毒舌点评 本文的亮点在于将ViT架构巧妙适配于动作序列生成,并通过引入“动态嵌入正则化(DER)”和“迭代重建推理(IRI)”等策略,显著提升了生成动作的流畅度和真实感(FGD降低86.7%),实验设计也较为周全。但其短板也明显:核心创新更多是有效的工程优化组合而非底层理论突破,且严重的开源缺失(无代码、无模型、细节模糊)极大限制了工作的可复现性和后续影响力,让“SOTA”声明的说服力打了折扣。 📌 核心摘要 问题:现有语音驱动手势生成方法存在生成动作保真度不足(如抖动、动作僵硬、穿模)以及跨领域泛化能力弱的问题,影响用户体验。 方法核心:提出ReCoM框架,其核心是Recurrent Embedded Transformer (RET) 模块。RET在Vision Transformer (ViT)基础上,通过通道式(Channel-wise)处理 将身体和手部动作视为特征图的两个通道,从而实现对语音-动作时空依赖性的联合建模。 创新点:(1) RET模块设计,适配ViT处理动作序列;(2) 训练时引入动态嵌入正则化(DER),即在嵌入层后应用Dropout以增强鲁棒性和泛化性;(3) 提出迭代重建推理(IRI) 策略,通过循环预测并筛选置信度高的动作索引,以缓解自回归推理的误差累积问题。 实验结果:在SHOW数据集上,ReCoM的Fr´echet Gesture Distance (FGD) 从基线ProbTalk的18.70降至2.48(如表3),提升了86.7%,表明动作真实性大幅提高。在域外BEAT2数据集测试(无微调)中,其FGD(96.78)也优于ProbTalk(100.07)和TalkSHOW(98.32),显示了更好的泛化性(如表4)。消融实验(表2)证实了CFG、IRI、DER、EMA和Masking等各策略的有效性。 实际意义:为虚拟数字人、智能交互机器人等提供更自然、更真实的手势动画生成方案。 主要局限性:(1) 模型架构本身并非全新提出,是对现有ViT的改进应用;(2) 仅在SHOW和BEAT2两个数据集上进行评估,广泛性待验证;(3) 缺乏开源代码和模型,阻碍复现与公平比较。 🏗️ 模型架构 ReCoM采用两阶段流程(如图1、图2): ...

2026-04-29

SAGA-SR: Semantically and Acoustically Guided Audio Super-Resolution

📄 SAGA-SR: Semantically and Acoustically Guided Audio Super-Resolution #音频增强 #扩散模型 #流匹配 #生成模型 ✅ 7.5/10 | 前25% | #音频增强 | #扩散模型 | #流匹配 #生成模型 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 中 👥 作者与机构 第一作者:Jaekwon Im(KAIST 文化技术研究生院) 通讯作者:未说明 作者列表:Jaekwon Im(KAIST 文化技术研究生院)、Juhan Nam(KAIST 文化技术研究生院) 💡 毒舌点评 这篇论文的亮点在于巧妙地将文本语义信息和频谱滚降这一物理特征结合,作为扩散模型的双重引导,有效解决了通用音频超分辨率中“对齐差”和“高频能量不稳定”这两大痛点。不过,论文在训练硬件、具体模型参数量等复现关键信息上完全缺失,对于想复现其成果的同行来说,这无异于只给了地图却没标比例尺,实用性打了折扣。 📌 核心摘要 问题:现有的通用音频超分辨率方法(如AudioSR、FlashSR)在重建高频时,常出现语义不匹配(如生成不自然的齿音)和高频能量分布不一致的问题。 方法核心:提出SAGA-SR模型,基于DiT(Diffusion Transformer)架构和流匹配(Flow Matching)目标进行训练。其核心创新在于引入了双重条件引导:(1)由音频生成的文本描述提供的语义嵌入;(2)由输入和目标音频的频谱滚降频率提供的声学嵌入。 新颖之处:首次在音频超分辨率任务中系统性地引入了基于文本的语义引导,解决了现有方法生成音频语义失真的问题;同时,引入了频谱滚降这一可量化的声学特征,为模型提供了明确的高频能量分布指导,并允许用户在推理时通过单一标量控制输出音频的高频能量。 主要结果:在语音、音乐、音效三个领域的测试中,SAGA-SR在所有客观指标(LSD、FD)和主观评估分数上均优于AudioSR和FlashSR。例如,在主观评估中,SAGA-SR在音效任务上得分3.88,显著高于FlashSR的3.34。消融实验证实了文本嵌入和频谱滚降嵌入的有效性。 实际意义:SAGA-SR提供了一个能够处理任意输入采样率(4-32 kHz)并统一上采样到44.1 kHz的通用音频增强工具,其可控的高频能量生成特性使其在音频修复、后期制作等场景中具有应用潜力。 主要局限性:模型对于包含多个重叠声源的复杂音频的处理能力有限;后处理中的低频替换操作可能引入频段间的不自然连接。 🏗️ 模型架构 SAGA-SR的整体架构(图1)是一个以条件DiT为核心的生成模型,包含以下流程: 输入处理:输入低分辨率音频($x_l$)和目标高分辨率音频($x_h$)。它们首先通过预训练的VAE编码器被压缩成潜在表示 $z_l$ 和 $z_h$。 条件提取: 文本条件:利用Qwen2-Audio模型从音频(训练时用$x_h$,推理时用$x_l$)生成文本描述$c$,再通过预训练的T5-base编码器提取文本嵌入。 声学条件:计算$x_h$和$x_l$的频谱滚降频率($f_h$, $f_l$),归一化到[0,1)后,通过可学习的傅里叶嵌入转换为嵌入向量。 核心生成模型(DiT): 模型采用DiT架构,以流匹配为目标进行训练。训练时,向量场$u_θ$学习将噪声$z_0$和数据$z_1$之间的线性插值路径$z_t$的速度场$v_t$回归到正确的值。 条件注入: $z_l$直接与$z_t$在通道维度拼接,作为DiT的输入。 文本嵌入$c$和频谱滚降嵌入在序列维度拼接后,通过交叉注意力机制注入DiT。 目标频谱滚降嵌入$f_h$与输入频谱滚降嵌入$f_l$在通道维度拼接、投影后,与时间步$t$的正弦嵌入相加,然后前置(prepend) 到DiT输入序列的最前面,为模型提供全局的高/低频能量参考。 为了灵活控制条件强度,使用了Classifier-Free Guidance (CFG)。在公式(4)中,$s_a$和$s_t$分别是声学条件和文本条件的引导尺度。 输出生成:推理时,从噪声$z_0$出发,通过ODE求解器(如Euler方法)在DiT的引导下迭代去噪,得到估计的高分辨率潜在表示$\hat{z}_h$。 后处理:$\hat{z}_h$通过预训练的VAE解码器恢复成音频信号,最后进行低频替换,将输入音频$x_l$的低频部分(截止频率以下)直接复制到输出中,以确保低频信息的绝对一致。 图1展示了SAGA-SR的完整流程:音频对通过VAE编码,文本和频谱滚降特征被提取并注入到DiT中,最终由DiT估计高分辨率潜在表示,再经VAE解码和低频替换后得到输出。 ...

2026-04-29

Timbre-Based Pretraining with Pseudo-Labels for Multi-Instrument Automatic Music Transcription

📄 Timbre-Based Pretraining with Pseudo-Labels for Multi-Instrument Automatic Music Transcription #音乐信息检索 #自监督学习 #生成模型 #预训练 #音频分类 ✅ 7.0/10 | 前25% | #音乐信息检索 | #预训练 | #自监督学习 #生成模型 学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0.8 | 置信度 高 👥 作者与机构 第一作者:Rin Sato(Waseda University, Tokyo, Japan) 通讯作者:未说明 作者列表:Rin Sato(Waseda University, Tokyo, Japan)、Keitaro Tanaka(Waseda Research Institute for Science and Engineering, Tokyo, Japan)、Shigeo Morishima(Waseda Research Institute for Science and Engineering, Tokyo, Japan) 💡 毒舌点评 这篇论文巧妙地将“音色”从具体的“乐器标签”中解放出来,通过伪标签预训练来教模型听懂声音的本质区别,是缓解多乐器转录数据不平衡问题的一剂良方;然而,方法严重依赖DDSP合成音频,而合成音频的音色多样性与真实世界录音之间的鸿沟(domain gap)可能成为其性能天花板,特别是在对音色敏感的吉他等单乐器任务上出现了性能反降,说明“学音色”在特定场景下可能“学了个寂寞”。 ...

2026-04-29

Tldiffgan: A Latent Diffusion-Gan Framework with Temporal Information Fusion for Anomalous Sound Detection

📄 Tldiffgan: A Latent Diffusion-Gan Framework with Temporal Information Fusion for Anomalous Sound Detection #音频事件检测 #生成模型 #扩散模型 #预训练 #数据增强 ✅ 7.5/10 | 前25% | #音频事件检测 | #扩散模型 | #生成模型 #预训练 学术质量 6.2/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度 高 👥 作者与机构 第一作者:Chengyuan Ma (清华大学深圳国际研究生院) 通讯作者:Wenming Yang (清华大学深圳国际研究生院) 作者列表:Chengyuan Ma (清华大学深圳国际研究生院), Peng Jia (大连海事大学交通运输协同创新中心), Hongyue Guo (大连海事大学交通运输协同创新中心), Wenming Yang (清华大学深圳国际研究生院) 💡 毒舌点评 论文在框架设计上确实展现了巧妙的组合能力,通过双分支结构(LDGAN重建+预训练编码器嵌入)有效融合了频谱图和波形两种互补信息源,并通过精心的消融实验证实了各模块的有效性。然而,其创新更多是将已有的强大组件(潜在扩散模型、GAN、预训练音频模型)进行整合与适配,而非提出全新的核心算法;此外,所有实验仅在单一基准数据集(DCASE 2020 Task 2)上进行,虽然性能优越,但缺乏在更多样化场景或最新数据集上的验证,限制了结论的泛化说服力。 📌 核心摘要 本文针对无监督异常声音检测(ASD)中生成模型难以完全捕捉正常声音复杂分布的问题,提出了一个名为TLDiffGAN的新框架。该框架包含两个互补分支:一个分支将潜在扩散模型(LDM)整合到GAN的生成器中(称为LDGAN),通过对抗训练提高生成质量和训练稳定性;另一个分支利用预训练的音频模型编码器直接从原始波形提取特征,以弥补Mel频谱图可能丢失的信息。此外,论文引入了一种自适应时间混合(TMixup)增强技术,通过注意力机制增强模型对局部时间模式的敏感性。在DCASE 2020 Challenge Task 2数据集上的大量实验表明,TLDiffGAN在平均AUC(88.60%)和pAUC(74.35%)上均优于其他主流生成模型(如AEGAN-AD、ASD-Diffusion),并具备优秀的异常时频定位能力。该工作的实际意义在于提升了工业设备声音监控中异常检测的性能和可解释性。其主要局限性在于评估完全基于单个数据集,且依赖多个经典的异常检测算法进行最终决策。 ...

2026-04-29

Two-Stage Language Model Framework for Acoustic Echo Cancellation

📄 Two-Stage Language Model Framework for Acoustic Echo Cancellation #语音增强 #语音大模型 #生成模型 #鲁棒性 ✅ 7.5/10 | 前25% | #语音增强 | #语音大模型 | #生成模型 #鲁棒性 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度 中 👥 作者与机构 第一作者:Kai Xie(西北工业大学,中国)(根据论文署名顺序推断) 通讯作者:未说明(论文中未明确指出) 作者列表:Kai Xie¹(西北工业大学,中国), Haoyang Li²(南洋理工大学,新加坡), Nana Hou³(独立研究者), Hexin Liu²(南洋理工大学,新加坡), Jie Chen¹(西北工业大学,中国)。上标数字对应论文脚注中的机构编号。 💡 毒舌点评 本文最大的亮点是将“语义”作为解决回声消除中“语音可懂度”问题的关键桥梁,设计了一个从语义到声学的两阶段生成框架,思路新颖且实验效果显著。但稍显遗憾的是,两个语言模型阶段独立训练,可能浪费了联合优化语义与声学表示的机会;此外,作为一个2026年的生成式工作,未开源模型与代码,对于追求快速复现的读者不太友好。 📌 核心摘要 这篇论文针对传统声学回声消除(AEC)方法主要操作于特征域、忽略语义信息从而限制语音可懂度与感知质量的问题,首次提出了一种基于语言模型的两阶段生成式AEC框架。其核心方法是:第一阶段(语义建模),通过语义融合模块(融合麦克风与远端参考信号的连续语义特征)和通道级门控机制,利用自回归语义语言模型预测近端语音的离散语义token;第二阶段(声学建模),以预测的语义token链和原始声学token链为条件,利用声学语言模型生成近端语音的离散声学token,最终通过神经语音编解码器重建波形。与已有AEC方法相比,其新在首次将语义理解与生成式语言模型相结合,并采用分治策略(先语义后声学)。主要实验结果显示,在AEC-Challenge数据集上,所提方法在回声抑制(EMOS)、失真控制(DMOS)和回波损耗增强(ERLE)等指标上,尤其在低信回比(SER)和噪声环境下,显著优于DTLN AEC和MTFAA-NET等强基线(例如,在SER=-10dB的双讲场景中,EMOS达到4.48,比MTFAA-NET高0.30)。该工作的实际意义在于为高实时性、高可懂度的未来语音通信系统提供了新的技术路径。主要局限性在于两阶段独立训练可能无法实现全局最优,且论文未报告模型大小与推理延迟,其实用性需进一步验证。 🏗️ 模型架构 该模型整体架构为两阶段框架,如图1所示。 第一阶段:语义建模 (Semantic Modeling) 输入:麦克风信号 y(n) 和远端参考信号 r(n) 的波形。 语义特征提取与离散化: 使用预训练的WavLM Large模型作为语义提取器,分别提取 y(n) 和 r(n) 的高维语义表示(第6层Transformer隐藏状态)。 使用K-Means聚类(K=1024)将连续的语义表示离散化为帧级语义token序列 Ysem 和 Rsem。 语义融合:引入一个轻量级的CNN语义融合模块,将 y(n) 和 r(n) 对应的连续WavLM特征进行融合,生成融合语义特征 Hfus。该模块由点卷积、两个膨胀深度可分离卷积、点卷积和LayerNorm组成,旨在利用两个信号间的相关性。 特征整合:为解决离散token Ysem 和连续特征 Hfus 的不兼容性,采用通道级门控机制 (G)。首先将 Ysem 通过token嵌入层 WTE(·) 得到嵌入向量,然后与经过可学习通道权重 G 门控的 Hfus 相加,得到最终的融合表示 Fsem,作为语言模型的输入提示。 语义token预测:使用一个decoder-only的语义语言模型 (LMsem),以 Fsem 为条件,以自回归方式预测近端语音 s(n) 的语义token序列 Ssem。训练时使用教师强制(teacher forcing),损失函数为负对数似然(公式4)。 第二阶段:声学建模 (Acoustic Modeling) ...

2026-04-29