Differentiable Pulsetable Synthesis for Wind Instrument Modeling

📄 Differentiable Pulsetable Synthesis for Wind Instrument Modeling #音乐生成 #信号处理 #可微分DSP #轻量模型 #风琴乐器 ✅ 7.5/10 | 前25% | #音乐生成 | #可微分DSP | #信号处理 #轻量模型 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.3 | 置信度 高 👥 作者与机构 第一作者:Simon Schwär(International Audio Laboratories Erlangen, Germany) 通讯作者:未说明 作者列表:Simon Schwär(International Audio Laboratories Erlangen, Germany)、Christian Dittmar(Fraunhofer Institute for Integrated Circuits IIS, Erlangen, Germany)、Stefan Balke(International Audio Laboratories Erlangen, Germany)、Meinard Müller(International Audio Laboratories Erlangen, Germany) 💡 毒舌点评 亮点:论文巧妙地将与风琴乐器物理发声机制高度吻合的脉冲表(Pulsetable)合成方法引入可微分框架,不仅免去了繁琐的手工脉冲提取,还通过仅60k参数的轻量模型和几分钟录音实现了高效训练,物理可解释性强。 短板:实验主要依赖客观的谐波幅度差异指标,缺少正式的主观听感评估(如MOS测试),说服力略显不足;模型的泛化能力(如对复杂演奏技巧的建模)和更广泛乐器类型的适用性尚未得到充分验证。 ...

2026-04-29

Dynamically Slimmable Speech Enhancement Network with Metric-Guided Training

📄 Dynamically Slimmable Speech Enhancement Network with Metric-Guided Training #语音增强 #动态网络 #指标引导训练 #轻量模型 ✅ 7.5/10 | 前25% | #语音增强 | #动态网络 | #指标引导训练 #轻量模型 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度 高 👥 作者与机构 第一作者:未说明(论文中三位作者顺序未明确标注为第一作者) 通讯作者:未说明 作者列表:Haixin Zhao(IDLab, Ghent University - imec),Kaixuan Yang(IDLab, Ghent University - imec),Nilesh Madhu(IDLab, Ghent University - imec) 💡 毒舌点评 亮点:这篇论文将“动态网络”从单一组件(如仅卷积层)推广到了语音增强中常见的各类组件(GRU、MHA、Conv、FC),且设计的指标引导训练(MGT)逻辑清晰,让模型学会“看人下菜碟”,实验上也确实验证了其资源分配的智能性。短板:创新性虽然扎实,但核心是工程化整合与训练技巧的改进,理论深度有限;且其声称的“架构无关性”目前仅在一个具体基线(FTF-Net)上验证,说服力稍显不足。 📌 核心摘要 解决的问题:为解决静态轻量级语音增强模型对不同质量输入“一视同仁”导致的计算资源分配不优问题,需要一种能根据输入质量动态调整计算量的架构。 方法核心:提出动态可瘦身网络(DSN),将基线模型(FTF-Net)中常见的组件(卷积、GRU、MHA)改造为静态/动态并行路径。引入策略模块生成逐帧门控向量,控制动态路径的激活。进一步提出指标引导训练(MGT),利用输入语音的DNS-MOS OVRL分数作为目标,显式引导策略模块学习评估输入质量。 新意:与现有仅针对单一组件或依赖隐式学习的方法相比,DSN扩展了动态机制的适用范围;MGT则首次利用外部语音质量评估指标(如DNS-MOS)作为训练信号,显式、直接地指导模型进行资源分配。 主要实验结果: 在DNS3数据集上,MGT-DSN(平均50%激活率)在ESTOI, SI-SDR, PESQ等指标上达到与静态SOTA基线(FTF-Net)相当的性能,但平均计算量仅为后者的73%(221M MACs/s vs. 301M MACs/s)。 在Voicebank+Demand测试集上,MGT-DSN与FTF-Net和CCFNet+等基线性能持平,但计算量仅为它们的73%和15%。 关键对比图表:图5对比了三种模型在不同SNR下的六项指标得分。图6展示了标准动态模型与MGT动态模型的激活比例随SNR和OVRL分数的变化趋势,MGT模型的激活比例与输入质量呈现明确的负相关。 实际意义:使语音增强模型能够根据实际语音的损坏程度自适应地分配计算资源,在保证增强质量的同时降低平均功耗,更适合资源受限的实时边缘设备部署。 主要局限性: 动态框架的普适性仅在FTF-Net上验证,是否在其他架构上同样有效需进一步证明。 MGT训练依赖外部的DNS-MOS分数,其准确性与泛化能力会影响引导效果。 尽管平均计算量降低,但峰值计算量并未减少(激活比例为1时),对于硬件峰值功耗有严格要求的场景可能仍需考虑。 🏗️ 模型架构 DSN整体架构 图1:动态可瘦身网络(DSN)整体架构图。 模型基于三层U-Net结构。前两层卷积是静态的。从第三层卷积开始,引入动态组件。策略模块位于早期卷积层之后,接收特征,输出逐帧门控向量g,该向量全局控制所有动态模块(图中虚线路径与盒状“G”)的开启(1)或关闭(0)。 动态GRU模块 图2:频率Transformer中的动态GRU模块。 四个双向GRU组被分为两组静态、两组动态。后接的线性层也被设计为动态结构。静态组的输出始终传递,动态组的输出通过门控与静态输出结合,形成动态路径。 动态GRU单元 图3:时间Transformer动态GRU组中的GRU单元。 与频率Transformer不同,这里仅将当前帧的“输入到隐藏”路径设置为可动态剪枝,而隐藏状态更新始终保留,以维持时间连续性。 动态MHA模块 图4:动态多头注意力(MHA)模块。 一半注意力头为静态,一半为动态。在Q、K、V的线性投影以及输出投影中,均采用了与GRU块类似的动态线性块结构。 ...

2026-04-29

IBPCodec : A Low-Bitrate Lightweight Speech Codec With Inter-Band Prediction

📄 IBPCodec : A Low-Bitrate Lightweight Speech Codec With Inter-Band Prediction #语音编码 #语音合成 #信号处理 #轻量模型 #流式处理 ✅ 7.0/10 | 前25% | #语音编码 | #信号处理 | #语音合成 #轻量模型 学术质量 5.5/7 | 选题价值 1.0/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Peng Zhou(北京理工大学) 通讯作者:Shenghui Zhao*(北京理工大学) 作者列表:Peng Zhou(北京理工大学),Xiaojiao Chen(北京理工大学),Pincheng Lu(北京理工大学),Jing Wang(北京理工大学),Shenghui Zhao*(北京理工大学) 💡 毒舌点评 亮点:论文精准抓住了“低比特率下低频更重要”这一经典信号处理直觉,并将其与神经网络结合,通过一个轻量的带间预测模块(IBPM)在解码端“猜”出高频,以极小的计算代价(0.35 GMACs)实现了有竞争力的性能,这种“巧劲”值得在资源受限场景下借鉴。 短板:IBPM目前的结构(三层逐点卷积)过于简单,其预测能力存在明显天花板(当P=0.5时质量下降),本质上仍是低频信息的线性外推,论文未探讨更强大的生成式预测模型(如扩散模型)的可能性;此外,模型在1 kbps下的绝对质量(PESQ 2.2)距离“可用”仍有距离,创新性更多是工程上的巧妙设计而非原理性突破。 📌 核心摘要 这篇论文针对当前神经语音编解码器计算复杂度过高、难以在边缘设备部署的问题,提出了一种名为IBPCodec的低比特率轻量级语音编解码器。其核心方法是优先对输入语音的低频部分(占比P=75%)进行编码和量化传输,在解码端利用一个轻量的带间预测模块(IBPM)从解码出的低频信息中预测高频成分,从而恢复完整语音。与先前直接丢弃高频或整体编码的方法相比,该创新点在于将频带优先传输与神经预测相结合。实验结果显示,在16 kHz采样率、1-3 kbps比特率下,IBPCodec的计算复杂度仅为0.35 GMACs(远低于DAC的55.66G和SpeechTokenizer的17.09G),其PESQ、SI-SDR等客观指标及MUSHRA主观评分均优于或持平FreqCodec、SpeechTokenizer等基线。该工作的实际意义在于为低功耗设备上的实时语音通信提供了一种高效的编解码方案。其主要局限性在于IBPM的预测能力有限,在更低频带占比(P=0.5)时性能下降,且模型在极低比特率下的绝对语音质量仍有提升空间。 🏗️ 模型架构 IBPCodec采用“编码-量化-解码-预测”的端到端架构,工作在时频域。整体流程如图1所示: 输入预处理:输入语音波形x经STFT变换为频谱f。论文取其幅度、单位范数相位的实部和虚部,并截取低频部分(比例P)作为输入flow,维度为3×F‘×N。 编码器:由ConvEncoder(下采样卷积堆栈)和TAM(时间聚合模块)组成。ConvEncoder在每帧内进行特征提取,但缺乏帧间建模。因此,在量化器前后各加入一个TAM(基于因果FocalBlock),用于聚合不同时间尺度的依赖关系,增强时序建模能力。所有卷积均为因果卷积,以支持流式推理。 量化器:采用分组残差向量量化(GRVQ),组数G=2,通过调整层数控制比特率。将连续潜变量z量化为离散表示zq。 解码器:结构与编码器镜像对称,将上采样卷积替换下采样卷积。解码器从量化特征中重建低频频谱f‘_low。 带间预测模块:这是核心创新模块。它接收解码出的低频f‘_low,通过三层逐点1D卷积(带PReLU激活)将信息从低频维度投影至高频维度,预测出高频频谱f‘_high。预测公式为:f‘_high = IBPM(f‘_low)。 输出合成:将低频f‘_low和预测的高频f‘_high拼接成完整频谱f‘,再经iSTFT变换成最终语音波形x‘。 设计动机:该架构的核心动机是,在低比特率下,优先保证低频信息的准确传输,因为低频对语音的可懂度和感知质量至关重要。高频信息则通过轻量预测模块从低频中恢复,从而避免了对高频进行昂贵的编码,大幅降低了整体计算复杂度。 ...

2026-04-29

Lightweight Implicit Neural Network for Binaural Audio Synthesis

📄 Lightweight Implicit Neural Network for Binaural Audio Synthesis #空间音频 #隐式神经网络 #轻量模型 #端到端 #信号处理 ✅ 7.0/10 | 前25% | #空间音频 | #隐式神经网络 | #轻量模型 #端到端 学术质量 5.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Xikun Lu(华东师范大学 上海市人工智能教育重点实验室,华东师范大学 计算机科学与技术学院) 通讯作者:Jinqiu Sang(华东师范大学 计算机科学与技术学院,邮箱:jqsang@mail.ecnu.edu.cn) 作者列表:Xikun Lu(华东师范大学 上海市人工智能教育重点实验室,华东师范大学 计算机科学与技术学院)、Fang Liu(未说明)、Weizhi Shi(贵州工业职业技术学院 大数据与信息工程系)、Jinqiu Sang(华东师范大学 计算机科学与技术学院) 💡 毒舌点评 亮点:巧妙地将隐式神经表征(INR)从连续场重建迁移到了动态的频谱校正任务上,用一个紧凑的MLP(0.15M参数)就建模了复杂的时变声学传递函数,这种“小而美”的设计思路值得肯定。 短板:消融实验止步于“有/无”模块和编码器的比较,未能进一步剖析隐式网络本身的关键超参数(如层数、宽度、频率编码维数)对性能的敏感性,使得最优架构的选择缺乏更深入的理论或经验支撑。 📌 核心摘要 问题:高保真双耳音频合成(从单声道生成具有空间感的立体声)是VR/AR等沉浸式体验的关键,但现有基于深度学习的方法模型庞大,难以在计算资源有限的边缘设备上实时运行。 方法核心:提出一个名为Lite-INN的两阶段轻量级框架。第一阶段使用时间域翘曲(TDW)模块生成初步的双耳信号以近似双耳时间差(ITD);第二阶段将初步信号转换到时频域,并通过一个新颖的隐式双耳校正器(IBC)模块,将每个时频点的增益和相位校正建模为空间位置、耳朵索引、频率和时间坐标的连续函数,从而进行精细的频谱修正。 新意:将频谱校正任务重新定义为隐式神经表示问题,使用一个小型多层感知机(MLP)直接预测每个时频bin的复数增益。这与之前基于卷积或注意力机制的方法不同,能以极低的参数量(0.15M)建模复杂的动态声学特性。 主要实验结果:在Binaural Speech数据集上,Lite-INN相比最轻量的基线NFS,在参数量上减少72.7%(从0.55M到0.15M),计算量(MACs)降低21.5%(从3.40G到2.67G)。主观MOS测试表明,其感知质量(MOS-Q/S/Sim)与最高的WaveNet基线无统计显著差异(p > 0.05),且显著优于NFS和DPATFNet(p < 0.05)。其客观指标如Wave-ℓ2(0.167)、IPD-ℓ2(1.233)处于竞争力水平。 模型 参数量(M) ↓ MACs(G) ↓ Wave-ℓ2 ↓ IPD-ℓ2 ↓ NFS [13] 0.55 3.400 0.172 1.250 DPATFNet [14] 2.42 15.64 0.148 1.020 Lite-INN (Ours) 0.15 2.670 0.167 1.233 实际意义:成功在合成质量与计算效率之间取得了良好平衡,其极小的模型尺寸(0.15M参数)和低计算需求(RTF 0.121)使其非常适合部署在手机、耳机等边缘设备上,实现实时的高保真空间音频渲染。 主要局限性:隐式校正器(IBC)对动态场景(如声源快速移动)的建模能力依赖于输入的连续坐标编码,其泛化能力和对未见轨迹的表现未经充分验证。此外,消融实验未探讨IBC内部网络结构(如深度、宽度)的影响。 🏗️ 模型架构 本文提出的Lite-INN是一个两阶段的端到端框架,目标是从单声道音频x和随时间变化的声源位姿P(t)合成双耳音频y。 ...

2026-04-29