📄 Neural Radiated-Noise Fields for Unmanned Underwater Vehicle Noise Spectrum Prediction in Three-Dimensional Scenes
5.1/10 | 创新 1.3/2 | 严谨 0/1.5 | 实验 1.3/1.5 | 清晰 1/1 | 影响 0.3/1.5 | 开源 0/1.5 | 复现 0.4/0.5 | 工程 0.8/1.5
📝 5.1/10 | 前50% | arxiv
👥 作者与机构
作者:Yan Wu, Yang Yang, Jun Fan, Bin Wang 机构:上海交通大学,海洋智能装备与系统教育部重点实验室
💡 毒舌点评
这篇论文将神经辐射场(NeRF)的思想迁移到水下噪声预测上,想法有一定新意。然而,其“新颖性”更多是方法应用上的迁移,而非基础原理的突破。论文最大的短板在于实验对比严重不足:文中完全没有与任何现有的水下噪声预测方法(无论是物理模型还是数据驱动方法)进行对比,这使得其声称的“有效性”和“优越性”缺乏支撑。读者无法知道3.5 dB的误差是优秀还是平庸。此外,实验仅在单一、简单的水库环境中进行,模型的泛化能力声明过于乐观——作者自称“未来将探索多场景”,但当前的结论(如“水平外推最容易”)可能仅在该特定环境下成立。对场景特征网格的解释略显模糊,其学习到的特征具体表征了什么物理意义并未阐明。总体而言,工作是完整且清晰的,但因其缺乏横向对比和更广泛的验证,影响力大打折扣。
📌 核心摘要
本文针对传统物理建模方法对水下航行器(UUV)结构信息和环境边界条件依赖性强、难以实现三维场景连续频谱建模的问题,提出了神经辐射噪声场(NRNF)模型。该模型将UUV辐射噪声功率谱密度(PSD)表示为UUV位置、水听器位置、UUV偏航角及频率的连续函数,支持对任意空间位置的频谱查询。NRNF的核心创新在于引入了一个可学习的三维场景特征网格,并通过交叉注意力机制动态聚合与UUV和水听器位置相关的环境上下文特征,从而显式建模环境结构和声传播效应。实验基于浙江湖州水库的湖试数据,设计了三种渐进式的测试场景(水平外推、深度外推、跨次运行泛化)。结果表明,NRNF在50-5000 Hz频带内的平均预测误差约为3.5 dB,其中水平外推性能最佳,深度外推最具挑战性。消融实验证实了场景特征网格对提升模型泛化能力的关键作用。本研究为水下噪声特征评估提供了一种连续、数据驱动的新范式。
🔗 开源详情
- 代码:论文未提及代码开源。
- 模型权重:论文未提及模型权重开源。
- 数据集:论文说明数据集可向通讯作者申请获取(yang_dl@sjtu.edu.cn),未提供公开下载链接。
- Demo:论文未提及。
- 复现材料:论文未提供训练脚本、配置文件或预训练模型。但第4节“Results and Discussion”详细描述了模型实现的关键参数,包括场景特征网格的计算域(\(x\in[-110,100], y\in[-25,25], z\in[0,10]\))、网格分辨率(\(\Delta x=2, \Delta y=1, \Delta z=1\))、节点特征维度(64维)、优化器(Adam)、初始学习率(\(5\times10^{-4}\))、学习率衰减策略、硬件环境(NVIDIA GeForce RTX 4090 GPU)等。
🏗️ 方法概述和架构
NRNF的模型架构旨在学习一个从输入条件到连续频谱输出的映射,其核心设计包含特征组成和隐式解码两大阶段。如论文图1所示,架构处理流程如下:
输入与编码:模型接受四元组输入:UUV三维位置 \(p_u\)、水听器三维位置 \(p_h\)、UUV偏航角 \(\psi\) 和频率 \(f\)。
- 位置与频率编码:\(p_u\),\(p_h\),\(f\) 首先被线性缩放至[-1, 1]区间,然后应用对数间隔的正弦编码(Fourier Feature Mapping),其中空间坐标最高频率尺度设为 \(2^7\),频率坐标最高频率尺度设为 \(2^{10}\),生成编码特征 \(e_u\), \(e_h\), \(e_f\)。这有助于网络学习高频变化。
- 偏航角编码:\(\psi\) 通过一个可学习的离散嵌入矩阵处理。将0°-360°范围离散为36个间隔(每10°一个),对应一个维度为 \(36 \times D\) 的嵌入表(\(D\)为特征维度)。根据 \(\psi\) 所在区间查找对应的嵌入向量。该嵌入被注入到解码器的多个中间层。
场景特征网格与查询:这是建模环境效应的关键。
- 网格构建:在一个三维计算域(\(x \in [-110, 100], y \in [-25, 25], z \in [0, 10]\) 米)上,以分辨率 \(\Delta x=2\)m, \(\Delta y=1\)m, \(\Delta z=1\)m 构建一个可学习的特征网格,共生成59466个节点。每个节点存储一个64维的可学习特征向量,初始化为高斯分布。
- 位置相关查询:对于给定的查询位置(如 \(p_u\)),采用软加权策略聚合其邻近节点特征。首先找到 \(K\) 个最近邻节点,然后基于距离的高斯核(带宽 \(\sigma\))计算权重 \(\beta_j(p_u)\),对邻域节点特征 \(\{m_j\}\) 进行加权求和,得到初步的位置相关查询令牌 \(\tilde{m}(p_u)\)。
- 上下文聚合:将 \(\tilde{m}(p_u)\) 作为查询,对整个场景特征网格(全局场景记忆 \(\mathbf{M}\))执行交叉注意力操作,计算注意力权重 \(\alpha_i(p_u)\),最终得到聚合了全局场景上下文的特征 \(S(p_u)\)。水听器位置 \(p_h\) 以相同方式处理,并根据声互易原理共享同一场景表示。由此得到场景特征 \(F_S\)。
特征融合与隐式解码:
- 查询特征组合:将位置编码特征 \(e_u\), \(e_h\), \(e_f\) 与偏航角嵌入拼接,构成查询特征 \(F_Q\)。
- 隐式解码器:将拼接后的特征 \([F_Q; F_S]\) 输入一个由8层全连接层组成的多层感知机(MLP)。除输出层外,均使用LeakyReLU激活函数。网络引入了一个跳连分支(两层全连接),将输入层映射的输出与第4个隐藏层的输出通过残差相加融合。偏航角嵌入通过逐层加性条件注入到中间层。
- 输出:解码器最终输出每个查询频率点 \(f_k\) 对应的PSD预测值 \(\Omega(p_u, p_h, \psi, f_k)\)。通过遍历所有频率点,获得完整的预测PSD曲线。
训练目标:使用预测PSD与真实PSD之间的均方误差(MSE)作为损失函数,对网络参数和场景网格参数进行联合优化。


💡 核心创新点
- 连续噪声场建模:首次将隐式神经表征(INR)框架应用于无人水下航行器辐射噪声谱预测,将PSD定义为空间位置、航向和频率的连续函数,突破了传统离散点预测的限制,实现了对任意未观测空间位置的频谱查询。
- 显式环境参数化:为捕捉浅水波导中边界反射、多径效应等复杂传播特性,创新性地引入了可学习的三维场景特征网格。该网格将环境信息隐式参数化,并通过交叉注意力机制与模型查询动态交互,使模型能够“感知”并编码传播路径的结构信息,而非仅依赖坐标输入。
- 方向性与传播耦合:模型框架同时显式建模了UUV航向(偏航角)对辐射噪声的方向性影响,以及场景传播结构对频谱的调制作用。通过将航向嵌入与场景特征在解码器中融合,增强了模型对复杂频谱变化的表达能力,提升了空间外推和场景鲁棒性。
📊 实验结果
实验基于湖试数据集,按照三种设置(Setting I-III)评估模型性能,主要结果如下表所示:
表4:不同转速下三种测试设置的RMSE和MAE(单位:dB)
| Setting | Rotational speed | RMSE/dB | MAE/dB |
|---|---|---|---|
| Setting I | 2000 RPM | 3.8 | 3.0 |
| 3000 RPM | 3.0 | 2.3 | |
| 4000 RPM | 3.2 | 2.6 | |
| Setting II | 2000 RPM | 5.2 | 4.0 |
| 3000 RPM | 5.1 | 3.9 | |
| 4000 RPM | 5.9 | 4.4 | |
| Setting III | 2000 RPM | 4.9 | 3.8 |
| 3000 RPM | 4.8 | 3.6 | |
| 4000 RPM | 4.9 | 3.7 |
- Setting I(水平外推):训练集和测试集来自同一运行周期,但水听器位于中心轴两侧(如A1/B1/C1训练,A2/B2/C2测试)。误差最低,三种转速下RMSE均低于4 dB。误差主要源于难以拟合特定频带(如1000, 2000, 3000, 4000 Hz附近)的复杂谱线结构。
- Setting II(深度外推):训练集包含浅于5 m的水听器数据,测试集包含深于5 m的数据。误差显著升高,平均RMSE达5.4 dB, MAE达4.1 dB。表明深度变化引起的传播路径和干涉结构改变对模型构成最大挑战,误差在未见深度区域(>5 m)明显累积。
- Setting III(跨次运行泛化):训练集为1-3次运行数据,测试集为第4次运行数据。误差介于两者之间,平均RMSE为4.9 dB。误差在UUV与水听器距离较近的运行阶段显著增大,表明近场多径干扰和复杂谱结构增加了预测难度。
消融实验:对比了有无场景特征网格(W/ vs W/o)的模型。如图7所示,在所有三种转速下,引入场景特征网格使RMSE和MAE降低14%-28%,一致性地证明了该组件对于提升模型泛化能力的关键作用。


⚖️ 评分理由
- 创新性 (1.3/2):将INR应用于水下噪声预测有一定新意,场景特征网格的设计也体现了对领域特性的理解。但核心思想(坐标网络+特征网格)在NeRF、Neural Acoustic Fields等工作中已有体现,属于领域适配而非根本性创新。
- 技术严谨性 (1.0/1/1.5):模型推导和实验设计逻辑清晰。但存在不足:1)未讨论计算复杂度(尤其是场景网格查询和注意力机制带来的开销);2)对网格分辨率、邻域大小等超参数的影响缺乏分析;3)声互易原理的适用性未在非理想条件下(如移动源)讨论。
- 实验充分性 (1.3/2):实验设计有层次(三种设置),评估指标恰当。主要缺陷是完全缺乏与已有方法的定量对比(无论是物理模型还是基线神经网络),使读者无法判断其相对性能。实验场景单一(仅一个水库),缺乏更复杂或开放水域的验证。
- 清晰度 (1.5/2):论文结构完整,描述清晰,图表说明充分。数学公式和符号定义基本明确。但场景特征网格的“可学习”表征具体编码了何种物理信息解释不够透彻。
- 影响力 (0.3/1):对水下声学、UUV性能评估领域有应用价值。然而,该工作与语音/音乐/音频领域的直接关联较弱,对后者读者的启发性有限。
- 开源 (0.0/0.5):论文未公开代码、模型权重。数据集需申请,未提供公开链接。完全无法直接复用。
- 可复现性 (0.4/0.5):尽管未开源,但论文第4节提供了非常详细的模型架构参数、训练设置和硬件信息,使得在相同或类似数据上复现研究成为可能,故给予部分分数。
- 工程/实践价值 (0.8/1):提出了一个实用的建模框架,消融实验验证了关键组件的有效性,为工程应用提供了思路。但其实用性受限于单一实验场景和缺乏对比验证。
🚨 局限与问题
- 缺乏基线对比:论文最大的局限是未与任何现有方法进行性能比较。这使得“平均预测误差3.5 dB”等结果失去了参照系,无法评估NRNF相对于传统方法或简单神经网络基线的优劣。
- 场景泛化性存疑:所有实验均在一个几何和水声条件相对简单的水库中进行。模型在更复杂的海洋环境(如存在温度/盐度跃层、海底地形变化、更远距离)中的性能未知。结论中关于“水平外推最容易”的论断可能仅限于该特定实验设置。
- 模型可解释性不足:可学习场景特征网格的具体物理含义模糊。模型究竟学到了怎样的“传播环境特征”?这些特征如何与多径效应、边界反射对应?缺乏可视化或分析来解释。
- 计算效率未评估:引入三维特征网格和交叉注意力机制显著增加了模型参数和计算量。对于实时或嵌入式应用,其推理速度、内存占用是否可接受未做讨论。
- 数据与评估局限性:
- UUV工作深度固定(5 m),未测试不同发射深度对模型的影响。
- 评估频带限于50-5000 Hz,未讨论更低或更高频的预测能力。
- 指标仅使用RMSE和MAE,未考虑声学领域更关注的频谱形状相似度、峰值误差等。
- 结论可能过度推广:摘要和结论中强调“平均预测误差约3.5 dB”,但这是在最好设置(Setting I)下接近的数字,而最具挑战性的Setting II误差高达5.4 dB。应更明确指出性能对测试条件的敏感性。