3D Mesh Grid Room Impulse Responses Measured with A Linear Microphone Array And Suppression of Frame Reflections

📄 3D Mesh Grid Room Impulse Responses Measured with A Linear Microphone Array And Suppression of Frame Reflections #空间音频 #3D音频 #麦克风阵列 #信号处理 #数据集 🔥 8.3/10 | 前25% | #空间音频 | #麦克风阵列 | #3D音频 #信号处理 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.8 | 置信度 高 👥 作者与机构 第一作者:Yoichi Haneda(The University of Electro-Communications, Tokyo, Japan) 通讯作者:未说明 作者列表:Yoichi Haneda(The University of Electro-Communications)、Yi Ren(The University of Electro-Communications) 💡 毒舌点评 亮点在于其“授人以渔”的思路:不仅提供了一个罕见的、高分辨率的3D实测RIR数据集,还详细阐述了为获取该数据集而开发的、用于抑制测量系统自身干扰的专用信号处理方法,这为后续类似测量工作提供了实用参考。短板在于测量系统本身引入了需要额外处理的人工反射,且该方法的有效性在空间边缘区域有所下降,限制了数据集的完整利用率。 📌 核心摘要 本文旨在构建一个大规模、高空间分辨率的3D房间脉冲响应(RIR)数据库,以支持RIR插值、外推及基于物理信息神经网络(PINN)等机器学习方法的研究。为解决使用线性麦克风阵列进行自动化三维扫描时,支撑导轨和框架会产生不可忽略的早期反射干扰这一核心问题,作者提出了一种基于频率-波数域的二进制掩蔽方法。该方法通过二维傅里叶变换将信号变换到频域-波数域,识别并抑制主要沿特定方向(如x轴或z轴)传播的框架反射分量。实验表明,该方法有效抑制了位于直达声之后的框架反射。利用该系统,作者在一个8.4m×6.14m×2.66m的房间内,针对4个扬声器位置,以2cm的网格间距测量了共计4×63,648个RIRs(16kHz采样率)。所有数据已公开。PINN插值实验证实了该数据集用于驱动数据驱动声场重建模型的有效性。主要局限性包括:处理后边缘麦克风的反射抑制效果不佳需被剔除;测量环境受限于特定房间及扫描体积。 🏗️ 模型架构 本文的核心是一个集成了机械控制与信号处理的“测量-处理”系统架构,其流程如下: ...

2026-04-29

A Bayesian Approach to Singing Skill Evaluation Using Semitone Pitch Histogram and MCMC-Based Generated Quantities

📄 A Bayesian Approach to Singing Skill Evaluation Using Semitone Pitch Histogram and MCMC-Based Generated Quantities #音乐理解 #贝叶斯建模 #信号处理 #模型评估 #少样本 ✅ 7.0/10 | 前25% | #音乐理解 | #贝叶斯建模 | #信号处理 #模型评估 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度 中 👥 作者与机构 第一作者:Tomoyasu Nakano(日本产业技术综合研究所,AIST) 通讯作者:未说明 作者列表:Tomoyasu Nakano(日本产业技术综合研究所,AIST)、Masataka Goto(日本产业技术综合研究所,AIST) 💡 毒舌点评 亮点:论文将统计建模的严谨性引入了一个通常由深度学习主导的“歌唱评估”领域,利用贝叶斯概率输出和PHC指标,为“音准好不好”这个问题提供了带有不确定性的量化答案,而非一个冰冷的分数,这种视角在可解释性和用户反馈设计上很有价值。 短板:模型假设过于简化,将颤音和音符过渡“均匀”地混在一起,导致音准指标(π, pδ)本质上是“稳定音高比例”的一个嘈杂估计;且实验仅在单一内部数据集上进行,缺乏与传统机器学习或深度学习方法的直接性能对比,说服力有限。 📌 核心摘要 问题:现有自动歌唱技能评估方法要么依赖手工特征,要么依赖大规模数据集训练模型输出单一标量分数(如排名/评级),难以从单次演唱中提供可解释的、概率性的技能指标,且对引入新任务不友好。 方法核心:提出一种基于贝叶斯建模的方法。以“半音音高直方图”(将基频F0转换为半音并以±0.5半音为窗口折叠)作为表示,构建了一个由截断正态分布和均匀分布组成的混合模型来对其进行建模。使用汉密尔顿蒙特卡洛(HMC)/No-U-Turn Sampler (NUTS) 从模型后验中采样。 新意:与依赖点估计或判别式学习的方法不同,该方法通过MCMC后验采样生成“生成量”(generated quantities),如参数π(稳定音高成分权重)和σ(分布宽度),并进一步计算“假设正确概率(PHC)”。这允许进行概率性的、考虑不确定性的技能比较和阈值判断,且对小样本数据友好。 主要实验结果:在包含140首日文流行歌曲的内部数据集上进行验证。表1显示,模型参数(σ, π, pδ)在87%-96%的演唱中达到收敛标准。图3的散点图显示,生成的指标(π, pδ=0.10, pδ=0.25)与人工标注的综合音准分数呈现正相关(EAP相关系数分别为0.34, 0.44, 0.42),σ则呈现负相关(-0.30)。 实际意义:为歌唱技能评估提供了一种可解释、概率化、无需大规模数据的新范式,可用于个性化反馈(如指出哪些段落音准更稳定)和交互设计。该框架可扩展至其他音频特征。 主要局限性:模型仅部分捕捉音准相关技巧,未显式建模颤音和音符过渡等重要成分,仅将其视为“非稳定”噪声的一部分;实验未与任何现有SOTA歌唱评估方法进行性能对比;数据集规模较小且未公开。 🏗️ 模型架构 论文未提供系统架构图。其核心是一个用于建模半音音高直方图的贝叶斯混合模型。流程如下: ...

2026-04-29

A Data-Driven Framework for Personal Sound Zone Control Addressing Loudspeaker Nonlinearities

📄 A Data-Driven Framework for Personal Sound Zone Control Addressing Loudspeaker Nonlinearities #空间音频 #信号处理 #麦克风阵列 #深度学习 ✅ 7.5/10 | 前25% | #空间音频 | #信号处理 | #麦克风阵列 #深度学习 学术质量 7.0/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度 高 👥 作者与机构 第一作者:Lei Zhou (重庆邮电大学通信与信息工程学院) 通讯作者:Liming Shi (重庆邮电大学通信与信息工程学院) 作者列表:Lei Zhou(重庆邮电大学通信与信息工程学院),Chen Gong(重庆邮电大学通信与信息工程学院),Chen Huang(重庆邮电大学通信与信息工程学院),Hongqing Liu(重庆邮电大学通信与信息工程学院),Lu Gan(Brunel University伦敦校区工程、设计与物理科学学院),Liming Shi(重庆邮电大学通信与信息工程学院) 💡 毒舌点评 亮点:论文针对一个实际且被长期忽略的问题(小型扬声器的非线性破坏了传统线性控制理论),提出了一个“用魔法打败魔法”的优雅框架——先用深度学习精确建模非线性,再用这个模型去训练一个能补偿非线性的控制器,逻辑闭环非常漂亮。 短板:虽然物理实验验证了有效性,但核心控制器(如WaveNet+VNN)的计算开销巨大(MACs达33G),对于论文标题中暗示的“移动和边缘设备”场景,其落地可行性存疑,更像一个原理验证原型。 标题:A Data-Driven Framework for Personal Sound Zone Control Addressing Loudspeaker Nonlinearities 摘要:论文针对个人声区控制系统性能受小型扬声器非线性严重制约的问题,提出一个两阶段、数据驱动的框架。第一阶段,训练一个高保真非线性前向模型以精确捕获从数字输入到声压的真实声学过程。第二阶段,将该预训练模型作为可微模拟器,优化一个控制网络。该框架为传统线性方法提供了一个统一视角,同时实现了更强的端到端非线性控制。在物理微型扬声器阵列上的实验表明,性能最佳的非线性控制器相比基线方法,在语音信号(200–4000 Hz)上实现了平均5.33 dB的声对比度(AC)提升。 ...

2026-04-29

A Feature-Optimized Audio Watermarking Algorithm with Adaptive Embedding Strength

📄 A Feature-Optimized Audio Watermarking Algorithm with Adaptive Embedding Strength #音频安全 #深度学习 #鲁棒性 #信号处理 ✅ 7.5/10 | 前25% | #音频安全 | #深度学习 | #鲁棒性 #信号处理 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度 中 👥 作者与机构 第一作者:Weili Zhou(厦门大学信息学院、管理学院) 通讯作者:Shuangyuan Yang(厦门大学信息学院) 作者列表:Weili Zhou(厦门大学信息学院、管理学院,共同第一作者)、Jiabei Zhou(厦门大学信息学院,共同第一作者)、Shuangyuan Yang(厦门大学信息学院,通讯作者) 💡 毒舌点评 亮点在于将Transformer的特征提取能力与NSGA-II多目标优化框架巧妙结合,为“嵌入强度”这一传统难题提供了自适应解决方案,在实验数据上实现了容量、不可感知性与鲁棒性的较好平衡。短板是论文理论分析稍显薄弱,未能深入阐释Transformer编码器为何及如何在水印任务中优于传统模块,且优化策略(NSGA-II)的离线性质对实时性场景的适用性讨论不足。 📌 核心摘要 本文针对现有音频水印方法在嵌入容量、不可感知性和鲁棒性之间难以平衡,且跨音频类型泛化能力有限的问题,提出了一种名为AESAW的音频水印算法。该方法的核心是:1)利用Transformer编码器层来优化水印的特征表示,提升其与音频信号的融合质量;2)引入NSGA-II多目标优化算法,以信噪比(SNR)和误码率(BER)为目标,自适应地调整嵌入强度。实验在FMA音乐和VCTK语音数据集上进行,结果表明AESAW在保持较高嵌入容量(86 bps)的同时,实现了出色的不可感知性(音乐SNR 31.2 dB,语音SNR 26.7 dB)和强大的鲁棒性(在重采样、裁剪、重量化等攻击下BER接近0%)。与传统方法(SVD-DWT, SIFT-DWT)和现有深度学习方法(DeAR, AudioSeal)相比,AESAW在性能上具有明显优势。其实际意义在于为音频版权保护提供了一种更可靠的技术方案。主要局限性在于NSGA-II的优化过程是离线的,论文未详细探讨其对不同类型音频的实时嵌入适应性以及在实际部署中的计算开销。 实验结果关键数据对比表: 方法 数据集 容量 SNR (dB) 无攻击BER(%) AWGN BER(%) 重采样BER(%) 重量化BER(%) 回声BER(%) 幅度缩放BER(%) SVD-DWT 音乐 102 bps 25.3 0 1.79 0.10 1.01 1.46 0.10 SIFT-DWT 音乐 102 bps 28.1 0 0.29 0.07 0 0 1.00 DeAR 音乐 9 bps 23.2 0 0 0 0 4.20 0 AudioSeal 音乐 16 bps 22.67 2.00 3.50 1.81 1.81 4.25 2.06 AESAW 音乐 86 bps 31.2 0 0.14 0 0 0.01 0 SVD-DWT 语音 102 bps 25.3 0 0.16 0 0 1.92 0 SIFT-DWT 语音 102 bps 31.2 0 0.20 0.16 0.03 - 4.30 DeAR 语音 9 bps 20.5 0 0 0 0 11.6 0 AudioSeal 语音 16 bps 27.96 0 16.25 0 7.50 0 0 AESAW 语音 86 bps 26.7 0 0.03 0 0 0.22 0 🏗️ 模型架构 AESAW的整体框架由三个核心模块构成:水印嵌入器、攻击层和水印提取器。 AESAW总体框架 ...

2026-04-29

A Noniterative Phase Retrieval Considering the Zeros of STFT Magnitude

📄 A Noniterative Phase Retrieval Considering the Zeros of STFT Magnitude #信号处理 #时频分析 #语音增强 ✅ 7.5/10 | 前25% | #信号处理 | #信号处理 | #时频分析 #语音增强 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0 | 置信度 高 👥 作者与机构 第一作者:Kazuki Nishino(东京大学 情报理工学系研究科) 通讯作者:Takaaki Nara(东京大学 情报理工学系研究科,论文中标注*) 作者列表:Kazuki Nishino(东京大学 情报理工学系研究科)、Takaaki Nara(东京大学 情报理工学系研究科) 💡 毒舌点评 亮点:该工作并非简单套用现有框架,而是深入STFT幅值零点这一数学奇点,提出了“解析定位-减去奇异项-泰勒拟合”的两阶段精细化处理流程,理论上根除了PGHI在零点附近的数值不稳定问题,体现了扎实的信号处理功底。短板:理论优雅但实用性堪忧,高达31.82的实时因子(RTF)使其离实用部署相去甚远,且实验仅与一个十年前的基线(PGHI)对比,在如今深度学习大行其道的背景下,说服力略显不足。 📌 核心摘要 要解决什么问题:如何从短时傅里叶变换(STFT)的幅度谱中高精度地恢复相位信息。现有非迭代方法PGHI在STFT幅度零点附近因数值奇异性会产生较大误差。 方法核心是什么:基于高斯窗STFT与Bargmann变换的解析关系,提出一种两阶段方法。首先,利用复变函数的积分矩公式,从幅度谱中解析地确定零点位置;然后,将幅度谱的对数视为一个全纯函数与奇异项之和,在减去奇异项后,用泰勒展开对剩余的全纯函数进行最小二乘拟合,从而恢复相位。 与已有方法相比新在哪里:与PGHI通过数值积分规避零点不同,本方法显式且精确地定位零点,并利用零点信息来“净化”相位恢复过程,从数值求解转向基于函数逼近的解析式求解,提升了在零点附近的计算精度。 主要实验结果如何:在MOCHA-TIMIT语音数据集上的实验表明,所提方法在相位误差(可视化)和频谱收敛度(SCdB)上均优于PGHI。典型数据示例中,所提方法SCdB为-92.28 dB,PGHI为-78.04 dB,提升约14dB。在20个数据上的总体对比(Fig. 2)也显示所提方法普遍优于PGHI。但计算时间显著增加,总RTF为31.82,而PGHI仅为0.89。 实际意义是什么:为音频信号处理(如语音增强、源分离)提供了一种更高精度的相位恢复工具,其理论框架有助于理解STFT零点在相位重建中的作用。 主要局限性是什么:计算复杂度高,实时性差;实验仅与PGHI对比,缺乏与其他状态-of-the-art方法(包括迭代方法如GLA及其变体)的比较;方法有效性严重依赖于高斯窗,对其他窗函数的适用性未探讨。 🏗️ 模型架构 本文并非提出神经网络模型,而是一种基于解析推导的信号处理算法。其整体流程可视为一个两阶段的相位重建流水线: 输入:STFT的幅度谱 Ag(t, f),以及预设的全局相位参考点(通常选在幅度最大点,相位设为0)。 第一阶段:零点定位: 在幅度谱的局部极小值点周围定义矩形区域 C。 计算幅度对数 Re[log Bx(z)] 沿区域 C 边界的积分矩 Il(公式11)。 通过求解矩问题(如I0给出零点个数,I1, I2解方程),得到区域 C 内STFT零点的复数坐标 ζ。 通过最小化 ¯∂-导数 对零点位置进行精细优化。 第二阶段:相位恢复: 选择一个包含已知零点集 ZinD 的圆形区域 D。 构造全纯函数 h'(z),它等于 log Bx(z) 减去所有零点对应的奇异项 log(z-ζ)。 将 h'(z) 进行泰勒展开(公式14),通过最小二乘法拟合其实部(已知,来自幅度谱),求解系数 an, bn。 利用拟合得到的系数计算 h'(z) 的虚部,从而得到该点相位。 以“移动窗口”的方式,从一个参考点出发,逐步平移区域 D 并计算相位,最终覆盖整个时频网格。 输出:完整的相位谱 Φ(t, f)。 关��设计选择:使用矩公式和泰勒拟合是为了将相位恢复这一数值积分问题转化为解析的函数逼近问题,动机是避免在零点附近进行不稳定的有限差分运算(如PGHI所做的)。 ...

2026-04-29

A Noval Monte Carlo Gradient Method Based on Meta-Learning for Effective Step-Size Selection in Active Noise Control

📄 A Noval Monte Carlo Gradient Method Based on Meta-Learning for Effective Step-Size Selection in Active Noise Control #噪声控制 #元学习 #信号处理 #自适应滤波器 ✅ 6.5/10 | 前50% | #噪声控制 | #元学习 | #信号处理 #自适应滤波器 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 -0.5 | 置信度 高 👥 作者与机构 第一作者:Luyuan Li(西北工业大学 智能声学与沉浸式通信中心) 通讯作者:未明确说明(根据惯例,可能为通讯单位NTU的Woon-seng Gan,但论文中未明确标注) 作者列表:Luyuan Li(西北工业大学)、Jisheng Bai(西安邮电大学 通信与信息工程学院)、Xiruo Su(浙江大学 网络多媒体技术浙江省重点实验室)、Xiaoyi Shen(中国科学院声学研究所 声学与海洋信息国家重点实验室)、Dongyuan Shi(西北工业大学)、Woon-seng Gan(南洋理工大学 电气与电子工程学院) 💡 毒舌点评 这篇论文巧妙地将元学习“学会学习”的思想应用于解决ANC中“如何选步长”这个痛点,想法很有趣,且理论上不增加在线计算负担是很大亮点。不过,验证它的实验停留在仿真阶段,缺少在真实降噪耳机或车载产品上的“真枪实弹”检验,说服力打了个折扣;而且“无代码无数据”的状态,让想复现的同行基本无从下手。 📌 核心摘要 要解决什么问题:经典的FxLMS算法在主动噪声控制中,其性能高度依赖步长参数μ的选择。传统变步长方法经验性强、泛化能力有限,且会增加计算负担。 方法核心:提出一种基于蒙特卡洛梯度的元学习(MCGM)方法。核心思想是:在FxLMS算法运行前,利用当前环境下的噪声数据(通过蒙特卡洛采样构造多个任务),通过梯度下降离线“学习”一个最优的固定步长μ。方法中引入了遗忘因子λ,以减轻控制滤波器初始化为零带来的“初始零效应”影响。 与已有方法相比新在哪里: 理念新:将步长选择视为一个可学习的元问题,而非在线调整或经验设定。 机制新:利用蒙特卡洛采样模拟任务分布,结合梯度下降直接优化步长参数,而非设计复杂的步长函数。 负担低:学习过程在算法运行前完成,不增加FxLMS在线运行时的计算量,这与多数变步长方法不同。 主要实验结果:在仿真中,使用了真实声学路径和多种真实噪声(直升机、交通、手推车、街道噪声)。实验表明: MCGM方法在宽带噪声下,收敛速度和稳态降噪量均优于理论步长、归一化步长、变步长和组合步长方法(图4)。 在四种真实世界噪声下,MCGM方法均能达到约40 dB的平均降噪量,而其他方法只在特定噪声类型下表现良好(图5)。 当次级路径发生10%-30%的失配时,MCGM方法仍能保持较好的降噪性能,表现出一定鲁棒性(图6)。 (注:论文中所有图表均为曲线图,未提供包含具体数值的对比表格。) 实际意义:为ANC系统提供了一种自动化、低计算开销的步长优化方案,有望提升FxLMS算法在不同噪声环境下的适应性和初始收敛速度,对实际ANC产品(如耳机、汽车座椅)的快速降噪有潜在应用价值。 主要局限性: 实验仅限于仿真环境,未在真实硬件原型(如降噪耳机)上验证。 训练数据依赖于当前环境噪声的采样,对于噪声统计特性突变的场景,是否需要重新训练未讨论。 论文未公开代码和数据,可复现性差。 🏗️ 模型架构 本文并非提出一个神经网络模型,而是提出一个算法框架,用于优化经典自适应滤波器(FxLMS)的超参数(步长μ)。 ...

2026-04-29

A Robust KNN Approach for Multi-Class Laryngeal Disease Detection using MFCC Features

📄 A Robust KNN Approach for Multi-Class Laryngeal Disease Detection using MFCC Features #音频分类 #信号处理 #图神经网络 #医疗AI #鲁棒性 ✅ 7.5/10 | 前25% | #音频分类 | #信号处理 | #图神经网络 #医疗AI 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 中 👥 作者与机构 第一作者:Pingping Wu(南京审计大学工程审计学院) 通讯作者:未说明 作者列表: Pingping Wu(南京审计大学工程审计学院) Weijie Gao(南京审计大学计算机科学学院) Haibing Chen(江苏省人民医院耳鼻喉科) 💡 毒舌点评 本文将图神经网络(GNN)引入传统的K近邻(KNN)分类框架,为病理语音特征建模提供了一个有趣的视角,这是其最亮眼的创新点。然而,论文对所提出图增强KNN中GNN的具体实现(如层数、聚合器类型、注意力机制)和关键超参数(如K值选择)的讨论严重不足,使得“图”这一核心概念的魔力显得有些“黑箱”,也给复现设置了不必要的障碍。此外,使用一个仅320例、未公开的临床数据集得出的结论,其泛化能力有待未来更大规模数据的验证。 📌 核心摘要 问题:喉部疾病(如癌症、息肉、结节、白斑)的早期无创检测对改善预后至关重要,而传统的内窥镜检查受限于设备和专家。现有研究多集中于简单的二分类,对多种疾病的精细分类探索不足。 方法核心:提出一种图增强的KNN框架。首先从语音信号中提取MFCC特征序列,然后为每个样本构建基于特征相似度的K近邻图,最后利用图神经网络(GNN)在图上进行信息聚合,学习更具判别性的表示,最终进行分类。 创新点:1) 首次将多种非癌症性喉部病变(息肉、结节、白斑)纳入统一的五分类框架进行研究;2) 将图神经网络与KNN结合,通过建模局部拓扑关系来增强传统距离度量的判别能力,这是对标准KNN分类器的一种结构性改进。 主要结果:在自建的320例患者数据集上,该方法在二分类(健康 vs 病变)任务中达到96%的准确率,在五分类(健康、癌症、息肉、结节、白斑)任务中达到88%的准确率,均优于包括CNN和传统KNN在内的基线模型。关键数据对比如下表所示: 模型 二分类准确率 五分类准确率 传统KNN 0.94 0.83 CNN 0.94 0.80 本文方法 (Ours) 0.96 0.88 实际意义:该研究验证了基于语音的、结合图结构的机器学习模型在非侵入式喉部疾病筛查中的潜力,为临床早期诊断提供了新的技术思路。 主要局限性:数据集规模较小(320例)且未公开,模型泛化性存疑;对图神经网络部分的实现细节描述不够深入,技术贡献的清晰度和可复现性有所折扣。 🏗️ 模型架构 本文提出的模型整体流程(如图1所示)可分为四个主要阶段: ...

2026-04-29

A Speech-Driven Paradigm for Physics-Informed Modeling of Coupled Micro-Speakers

📄 A Speech-Driven Paradigm for Physics-Informed Modeling of Coupled Micro-Speakers #信号处理 #音频生成 #端到端 #声源定位 ✅ 7.0/10 | 前50% | #音频生成 | #信号处理 | #端到端 #声源定位 学术质量 5.0/7 | 选题价值 1.5/2 | 复现加成 -0.5 | 置信度 高 👥 作者与机构 第一作者:Chen Huang†(重庆邮电大学通信与信息工程学院) 通讯作者:Liming Shi†,⋆(重庆邮电大学通信与信息工程学院) 作者列表:Chen Huang†(重庆邮电大学通信与信息工程学院)、Chen Gong†(重庆邮电大学通信与信息工程学院)、Lei Zhou†(重庆邮电大学通信与信息工程学院)、Guoliang Wu†(重庆邮电大学通信与信息工程学院)、Hongqing Liu†(重庆邮电大学通信与信息工程学院)、Lu Gan‡(Brunel University College of Engineering, Design and Physical Science)、Liming Shi†(重庆邮电大学通信与信息工程学院) 💡 毒舌点评 论文的亮点在于其“范式转变”的提出——用真实语音而非工程信号进行系统辨识,并为此设计了一个物理启发式的紧凑神经网络(HPNN),在参数量和计算量远小于WaveNet的情况下达到了接近的性能,展现了“小而美”的工程优化价值。然而,短板也显而易见:作为一篇强调“生态效度”和“复现”的工作,论文完全未提供任何代码、模型权重或数据集,其实验结论对于第三方复现而言犹如空中楼阁,大大削弱了其作为“新范式”证明的说服力。 📌 核心摘要 问题:智能手机中的共腔多微扬声器系统存在复杂的非线性失真和声学耦合,传统的线性系统辨识方法(如正弦扫频)无法准确建模,影响了声音场控制等下游应用的性能。 方法核心:提出一种以真实语音为激励源、基于物理信息的系统辨识新范式。核心是设计了一个“混合多项式神经网络”(HPNN),其架构直接映射自扬声器阵列的物理拓扑:对线性响应的扬声器使用单层卷积,对非线性强的扬声器引入并行多项式卷积与激活,并通过一个全连接混合层联合建模多个扬声器的响应与耦合。 与已有方法相比新在哪里:摒弃了传统的扫频激励信号,改用更符合实际使用场景、频谱更丰富的语音信号进行激励和训练,以期更全面地激发系统非线性。模型架构上,HPNN是专为该多扬声器耦合问题定制的“灰盒”模型,兼具可解释性(物理结构指导)和数据拟合能力,在效率和参数规模上显著优于通用黑盒模型(如WaveNet)。 主要实验结果:在消声室原型阵列上,HPNN的时间域归一化均方误差(NMSE)达到-11.35 dB,与WaveNet(-11.28 dB)性能相当,但参数量仅为117.62K(WaveNet为1.02M),内存占用和计算量(MACs)也大幅降低。在频率域(200-4000Hz),HPNN在多个频段的表现优于线性FIR模型和Volterra神经网络(VNN),接近WaveNet。具体数据见下表。 模型 LSK1 (dB) LSK2 (dB) LSK3 (dB) LSK4 (dB) All (dB) HPNN -13.92 -16.25 -17.54 -8.13 -11.35 WaveNet -13.91 -17.03 -18.25 -8.15 -11.28 VNN -11.39 -12.25 -12.40 -7.32 -9.37 FIR -11.45 -11.47 -12.51 -5.83 -6.27 实际意义:为复杂非线性音频系统(如多扬声器设备)提供了一种更高效、更贴近实际工况的建模范式与模型设计思路,有望加速移动设备等资源受限环境下的音频系统开发与调试。 主要局限性:研究仅在特定原型阵列和消声室环境下验证,其泛化能力未知;未公开代码、数据与模型,可复现性差;作为“新范式”的证明,缺乏与更多传统或先进方法的广泛对比。 🏗️ 模型架构 论文提出的混合多项式神经网络(HPNN)架构如图1所示,其设计紧密贴合所研究的四扬声器(LSK1-LSK4)智能手机物理系统。 ...

2026-04-29

A Stabilized Hybrid Active Noise Control Algorithm of GFANC and FxNLMS with Online Clustering

📄 A Stabilized Hybrid Active Noise Control Algorithm of GFANC and FxNLMS with Online Clustering #语音增强 #信号处理 #深度学习 #实时处理 ✅ 7.5/10 | 前25% | #语音增强 | #信号处理 #深度学习 | #信号处理 #深度学习 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Zhengding Luo (南洋理工大学电气与电子工程学院) 通讯作者:Haozhe Ma (新加坡国立大学计算学院) 作者列表:Zhengding Luo (南洋理工大学电气与电子工程学院), Haozhe Ma (新加坡国立大学计算学院), Boxiang Wang (南洋理工大学电气与电子工程学院), Ziyi Yang (南洋理工大学电气与电子工程学院), Dongyuan Shi (西北工业大学), Woon-Seng Gan (南洋理工大学电气与电子工程学院) 💡 毒舌点评 亮点: 巧妙地将生成式固定滤波器(快)与自适应算法(准)结合,并针对混合系统可能出现的“打架”(因权重微调导致滤波器重置)问题,设计了一个简洁有效的在线聚类“和事佬”,使系统既快又稳。 短板: 创新本质是“搭积木”式组合现有模块(CNN预测权重+聚类稳定+FxNLMS优化),理论深度不足;实验虽充分但仅限于仿真,缺乏真实硬件平台(如耳机、车内)的部署验证,实际落地效果存疑。 ...

2026-04-29

A Unified SVD-Modal Solution for Sparse Sound Field Reconstruction with Hybrid Spherical-Linear Microphone Arrays

📄 A Unified SVD-Modal Solution for Sparse Sound Field Reconstruction with Hybrid Spherical-Linear Microphone Arrays #声源定位 #麦克风阵列 #信号处理 #鲁棒性 ✅ 6.5/10 | 前25% | #声源定位 | #麦克风阵列 | #信号处理 #鲁棒性 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 -0.5 | 置信度 高 👥 作者与机构 第一作者:Shunxi Xu (悉尼大学计算与音频研究实验室) 通讯作者:未说明(论文中未明确标注通讯作者) 作者列表: Shunxi Xu (悉尼大学计算与音频研究实验室,Computing and Audio Research Lab, The University of Sydney) Thushara Abhayapala (澳大利亚国立大学音频与声学信号处理组,Audio & Acoustic Signal Processing Group, The Australian National University) Craig T. Jin (悉尼大学计算与音频研究实验室) 💡 毒舌点评 这篇论文的亮点在于为混合球形-线形麦克风阵列提供了一个原理清晰、数学形式优美的统一处理框架(SVD模态),避免了拼接或两阶段方法的“临时性”,并且通过模态分析直观展示了混合阵列的优势。短板在于缺乏开源实现,且实验环境(模拟混响室、特定阵列构型)虽然合理,但离真实世界复杂场景的验证尚有距离,使得结论的泛化性有待更多实践检验。 ...

2026-04-29