Lightweight Implicit Neural Network for Binaural Audio Synthesis
📄 Lightweight Implicit Neural Network for Binaural Audio Synthesis #空间音频 #隐式神经网络 #轻量模型 #端到端 #信号处理 ✅ 7.0/10 | 前25% | #空间音频 | #隐式神经网络 | #轻量模型 #端到端 学术质量 5.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Xikun Lu(华东师范大学 上海市人工智能教育重点实验室,华东师范大学 计算机科学与技术学院) 通讯作者:Jinqiu Sang(华东师范大学 计算机科学与技术学院,邮箱:jqsang@mail.ecnu.edu.cn) 作者列表:Xikun Lu(华东师范大学 上海市人工智能教育重点实验室,华东师范大学 计算机科学与技术学院)、Fang Liu(未说明)、Weizhi Shi(贵州工业职业技术学院 大数据与信息工程系)、Jinqiu Sang(华东师范大学 计算机科学与技术学院) 💡 毒舌点评 亮点:巧妙地将隐式神经表征(INR)从连续场重建迁移到了动态的频谱校正任务上,用一个紧凑的MLP(0.15M参数)就建模了复杂的时变声学传递函数,这种“小而美”的设计思路值得肯定。 短板:消融实验止步于“有/无”模块和编码器的比较,未能进一步剖析隐式网络本身的关键超参数(如层数、宽度、频率编码维数)对性能的敏感性,使得最优架构的选择缺乏更深入的理论或经验支撑。 📌 核心摘要 问题:高保真双耳音频合成(从单声道生成具有空间感的立体声)是VR/AR等沉浸式体验的关键,但现有基于深度学习的方法模型庞大,难以在计算资源有限的边缘设备上实时运行。 方法核心:提出一个名为Lite-INN的两阶段轻量级框架。第一阶段使用时间域翘曲(TDW)模块生成初步的双耳信号以近似双耳时间差(ITD);第二阶段将初步信号转换到时频域,并通过一个新颖的隐式双耳校正器(IBC)模块,将每个时频点的增益和相位校正建模为空间位置、耳朵索引、频率和时间坐标的连续函数,从而进行精细的频谱修正。 新意:将频谱校正任务重新定义为隐式神经表示问题,使用一个小型多层感知机(MLP)直接预测每个时频bin的复数增益。这与之前基于卷积或注意力机制的方法不同,能以极低的参数量(0.15M)建模复杂的动态声学特性。 主要实验结果:在Binaural Speech数据集上,Lite-INN相比最轻量的基线NFS,在参数量上减少72.7%(从0.55M到0.15M),计算量(MACs)降低21.5%(从3.40G到2.67G)。主观MOS测试表明,其感知质量(MOS-Q/S/Sim)与最高的WaveNet基线无统计显著差异(p > 0.05),且显著优于NFS和DPATFNet(p < 0.05)。其客观指标如Wave-ℓ2(0.167)、IPD-ℓ2(1.233)处于竞争力水平。 模型 参数量(M) ↓ MACs(G) ↓ Wave-ℓ2 ↓ IPD-ℓ2 ↓ NFS [13] 0.55 3.400 0.172 1.250 DPATFNet [14] 2.42 15.64 0.148 1.020 Lite-INN (Ours) 0.15 2.670 0.167 1.233 实际意义:成功在合成质量与计算效率之间取得了良好平衡,其极小的模型尺寸(0.15M参数)和低计算需求(RTF 0.121)使其非常适合部署在手机、耳机等边缘设备上,实现实时的高保真空间音频渲染。 主要局限性:隐式校正器(IBC)对动态场景(如声源快速移动)的建模能力依赖于输入的连续坐标编码,其泛化能力和对未见轨迹的表现未经充分验证。此外,消融实验未探讨IBC内部网络结构(如深度、宽度)的影响。 🏗️ 模型架构 本文提出的Lite-INN是一个两阶段的端到端框架,目标是从单声道音频x和随时间变化的声源位姿P(t)合成双耳音频y。 ...