📄 Broad learning system with robust adaptive kernel
#信号处理
🔥 8.7/10 | 前25% | #信号处理 | #信号处理 | arxiv
学术质量 6.7/7 | 影响力 1.2/2 | 可复现性 0.8/2
👥 作者与机构
- Haiquan Zhao (赵海泉,通讯作者,hqzhao_swjtu@126.com)
- Jinhui Hu (胡金辉)
- Xin Lu (卢鑫,通讯作者,17695794976@163.com)
- 单位:西南交通大学 电气工程学院,成都 611756,中国
💡 毒舌点评
这工作属于典型的“站在巨人肩膀上微调参数”的路线。BLS本身是个很成熟的框架,本文的核心改动就是给它的损失函数加了个自适应旋钮(即形状参数 α)。技术上并不惊艳,但胜在动机明确、实现完整、实验也还算扎实。最大的亮点是把损失函数选择这个“苦力活”自动化了,理论上讲比手动试错各种M-estimator要高效。不过,论文的写作和呈现有些小毛病,比如个别公式编号错误(如公式(10)引用了公式(2)),参考文献列表里混入了几篇看起来不相关的作者早期作品,拉低了整体的严谨感。对于追求“革命性创新”的读者来说,这可能只是又一篇BLS的变体文章;但对于实际应用中饱受噪声和手动调参困扰的工程师而言,它提供了一个开箱即用的鲁棒性解决方案。
📌 核心摘要
本文针对传统宽学习系统(BLS)在非高斯噪声环境下性能下降,以及现有基于固定M-estimator的BLS变体需要耗时人工选择损失函数形式的问题,提出了一种基于自适应鲁棒核的宽学习系统变体(AR-BLS)。其核心思想是将损失函数的选择从人工预设转化为模型优化过程的一部分。AR-BLS通过交替迭代优化模型权重和自适应鲁棒核的形状参数α,使得损失函数形式能够根据数据中的噪声分布自动调整,无需人工干预。论文基于Zangwill全局收敛定理证明了该算法的迭代收敛性。在多个UCI回归数据集和混凝土强度预测任务上的实验表明,AR-BLS在应对不同比例的异常值噪声和α稳定噪声时,其测试RMSE和MAE通常优于传统BLS及基于Huber、Cauchy、Welsch函数的M-BLS变体,验证了所提方法的有效性。
🔗 开源详情
- 代码:论文中未提及代码链接。
- 模型权重:论文中未提及。
- 数据集:论文中使用了UCI机器学习数据库中的多个公开回归数据集(Housing, Bodyfat, Clevend, Wine, Abalone, Slump, Strike)以及一个混凝土强度预测数据集(1030个样本)。论文未提供这些数据集的具体下载链接,通常可从其来源(如UCI机器学习仓库)获取。
- Demo:论文中未提及。
- 复现材料:论文详细描述了所提AR-BLS算法的流程(Algorithm 1 & 2)、参数设置(如网络结构参数n, q, m, p的搜索范围,正则化系数λ统一设为\(30^{-2}\),数据划分比例等)以及实验环境(Intel Core i5-6200U CPU, 2.30 GHz, 8GB RAM)。这些信息可作为复现的依据,但未提供具体的训练配置文件、检查点或附录。
- 论文中引用的开源项目:未提及具体的开源项目名称或链接。论文引用了Barron提出的自适应鲁棒核函数(参考文献[27])和Chebrolu等人对近似分区函数的研究(参考文献[29])等学术工作,但未指向其具体的代码仓库。
🏗️ 方法概述和架构
本文提出的AR-BLS方法在传统BLS的框架上进行了改进,其核心架构包含三个关键部分:BLS基础网络、自适应鲁棒核损失函数、以及交替迭代的权重与参数优化策略。
BLS基础网络:该网络结构(图1)由输入层、隐藏层和输出层构成。隐藏层是核心,包含特征节点和增强节点。给定输入数据矩阵 \(X \in \mathbb{R}^{N \times t}\)(N个样本,t维特征),特征节点集 \(\boldsymbol{Z}_n = [\boldsymbol{Z}_1, \dots, \boldsymbol{Z}_n]\) 通过随机映射函数 \(f_{ei}(X W_{ei} + \beta_{ei})\) 生成。在此基础上,通过非线性激活函数 \(h_{hj}(\boldsymbol{Z}_n W_{hj} + \beta_{hj})\) 增强特征节点,得到增强节点集 \(\boldsymbol{H}_m = [\boldsymbol{H}_1, \dots, \boldsymbol{H}_m]\)。将特征节点与增强节点拼接,形成输入向量 \(A = [\boldsymbol{Z}_n | \boldsymbol{H}_m]\)。输出层通过最小化输出误差来训练权重 \(W\)。
自适应鲁棒核损失函数:这是本文的主要创新。传统BLS使用\(L_2\)损失,对异常值敏感。本文采用Barron提出的自适应鲁棒核函数作为损失函数 \(\rho(e, \alpha, c)\)。该函数是一个广义框架,通过形状参数 \(\alpha\) 控制鲁棒性(\(\alpha \to 0\) ��类似Welsch函数,具有指数饱和特性;\(\alpha=1\) 时为Cauchy函数;\(\alpha=2\) 时退化为\(L_2\)损失),尺度参数 \(c\) 控制二次区域宽度。为避免直接优化导致 \(\alpha\) 趋向极端值,论文通过构建概率分布 \(P(e, \alpha, c) = \frac{1}{c Z_\alpha} \rho(e, \alpha, c)\)(\(Z_\alpha\) 为配分函数),将损失函数定义为该分布的负对数似然函数 \(\hat{\rho}(e, \alpha, c) = -\log P(e, \alpha, c) = \log \rho(e, \alpha, c) + \log c + \log Z_\alpha\)。由于精确积分 \(Z_\alpha\) 无界,论文采用近似方案,在区间 \([-\varepsilon, \varepsilon]\) 上构建近似配分函数 \(\hat{Z}_\alpha\),得到最终用于优化的损失函数(公式(17))。这使得损失函数形态可随 \(\alpha\) 连续变化。
交替迭代优化策略:AR-BLS的目标函数为 \(J(W, \alpha) = \sum_{i=1}^N \hat{\rho}(e_i, \alpha, c) + \frac{\lambda}{2} \|W\|^2\),其中 \(e_i = AW_i - Y_i\)。求解采用交替迭代方法:
- 步骤1(固定α,更新W):此时问题转化为加权最小二乘问题。通过对 \(J(W, \alpha)\) 关于 \(W\) 求导并置零,得到权重更新公式(公式(14)):\(W = (\lambda I + A^T \Lambda A)^{-1} A^T \Lambda Y\),其中 \(\Lambda\) 是由 \(\phi(e_i, \alpha, c) = \partial \rho(e_i, \alpha, c) / \partial e_i\) 构成的对角加权矩阵(公式(13))。这是一个迭代重加权最小二乘(IRLS)过程,如算法1所示。
- 步骤2(固定W,更新α):固定当前权重 \(W\),计算归一化残差 \(u_i\),并基于此通过网格搜索在候选集 \(\alpha \in [\alpha_{min}, 2]\) 内(\(\alpha_{min}=-10\))最小化负对数似然函数(公式(17))来确定最优的形状参数 \(\alpha\)。参数 \(c\) 根据当前残差确定并在优化中保持固定。整个参数优化过程如算法2所示,实现了损失函数形态与噪声分布的自适应匹配。
算法整体通过交替执行上述两步,直至权重收敛(\(\|W_{t+1} - W_t\|_2 < \nu\))或达到最大迭代次数。
💡 核心创新点
- 损失函数自适应化:将BLS鲁棒变体中损失函数形式的选择(通常为预设的固定M-estimator)从人工先验问题转化为模型优化过程的一部分。通过联合优化权重 \(W\) 和损失函数形状参数 \(\alpha\),实现了模型鲁棒性的自适应调整,避免了耗时的人工试错过程。
- 基于Zangwill定理的收敛性证明:论文详细证明了所提出的交替迭代优化算法满足Zangwill全局收敛定理的三个条件(闭集约束、下降性、映射闭合性),从而从理论上保证了算法的全局收敛性,这是方法可靠性的理论基础。
- 统一的鲁棒优化框架:提出的AR-BLS可看作一个统一框架,当 \(\alpha\) 取不同值时,可退化为Welsch、Cauchy、Huber等多种经典鲁棒损失函数,并能生成其间的中间形态,在处理不同类型(如异常值、α稳定脉冲噪声)的非高斯噪声时表现出更强的灵活性和泛化能力。
📊 实验结果
论文在多个UCI回归数据集和一个混凝土强度预测实际任务上进行了实验,对比了传统BLS、基于Huber/Cauchy/Welsch的M-BLS以及AR-BLS。评估指标为测试RMSE和MAE。实验结果如下表所示。
表3:不同异常值噪声率下各数据集的测试RMSE (×10⁻²)
| 数据集 | 噪声率 | BLS | M-BLS(Huber) | M-BLS(Cauchy) | M-BLS(Welsch) | AR-BLS |
|---|---|---|---|---|---|---|
| Housing | P=10% | 15.12±2.32 | 14.13±3.23 | 14.26±3.41 | 14.50±3.36 | 13.76±3.26 |
| P=20% | 16.91±3.11 | 14.59±2.58 | 14.62±2.76 | 14.94±2.82 | 14.64±2.71 | |
| P=30% | 19.14±4.01 | 15.36±2.75 | 15.32±2.82 | 16.04±3.41 | 15.31±2.90 | |
| Bodyfat | P=10% | 19.43±3.41 | 18.02±3.27 | 17.99±3.28 | 18.10±3.23 | 17.41±2.83 |
| P=20% | 23.47±5.67 | 21.35±4.03 | 21.25±3.75 | 21.38±3.80 | 20.94±3.74 | |
| P=30% | 26.78±6.06 | 23.73±5.02 | 23.38±4.86 | 24.64±5.39 | 22.06±3.52 | |
| Clevend | P=10% | 24.74±1.22 | 24.30±1.70 | 24.19±1.51 | 24.20±1.18 | 23.81±1.02 |
| P=20% | 27.48±2.31 | 26.10±2.73 | 25.99±2.63 | 26.25±2.39 | 25.58±2.03 | |
| P=30% | 30.67±4.43 | 28.53±3.44 | 28.41±3.45 | 29.20±4.09 | 27.68±2.19 | |
| Wine | P=10% | 14.43±0.43 | 13.59±0.29 | 13.54±0.27 | 13.54±0.27 | 13.53±0.26 |
| P=20% | 16.75±0.64 | 14.27±0.42 | 14.09±0.40 | 14.46±0.47 | 13.73±0.32 | |
| P=30% | 20.16±0.67 | 16.39±0.60 | 16.06±0.60 | 17.76±0.71 | 14.14±0.46 | |
| Abalone | P=10% | 12.38±2.23 | 12.35±1.98 | 12.46±2.04 | 12.48±2.00 | 12.31±1.93 |
| P=20% | 13.55±3.27 | 12.08±2.00 | 12.21±1.96 | 12.29±1.98 | 12.01±1.83 | |
| P=30% | 16.19±4.36 | 12.92±3.02 | 12.71±2.85 | 13.79±3.43 | 12.51±2.16 | |
| Slump | P=10% | 15.26±2.52 | 13.49±4.45 | 13.28±4.38 | 13.20±4.31 | 13.25±4.28 |
| P=20% | 16.91±2.75 | 15.33±5.13 | 14.81±4.63 | 14.75±4.55 | 14.75±4.48 | |
| P=30% | 19.03±2.79 | 22.69±9.83 | 22.25±10.09 | 18.94±2.99 | 17.28±7.12 | |
| Strike | P=10% | 27.19±1.05 | 27.89±3.57 | 27.51±2.43 | 27.29±1.83 | 26.79±0.81 |
| P=20% | 28.92±2.18 | 28.41±2.86 | 28.53±3.19 | 28.00±1.36 | 27.95±0.96 | |
| P=30% | 30.27±1.10 | 29.33±1.72 | 29.98±3.21 | 30.56±2.61 | 29.16±1.59 |
表5:α稳定噪声环境下各数据集的测试RMSE (×10⁻²)
| 数据集 | BLS | M-BLS(Huber) | M-BLS(Cauchy) | M-BLS(Welsch) | AR-BLS |
|---|---|---|---|---|---|
| Housing | 13.44±3.03 | 13.45±3.35 | 13.52±3.41 | 13.67±3.33 | 13.37±3.52 |
| Bodyfat | 20.18±2.41 | 19.72±2.61 | 19.60±2.61 | 19.77±2.60 | 19.35±2.51 |
| Clevend | 91.65±1.84 | 91.01±2.00 | 90.96±1.86 | 91.24±1.90 | 90.56±2.19 |
| Wine | 30.30±0.55 | 30.19±0.64 | 30.07±0.62 | 30.30±0.64 | 29.23±0.68 |
| Abalone | 15.76±2.36 | 15.97±2.00 | 15.97±1.91 | 16.00±2.00 | 15.76±2.32 |
| Slump | 12.13±5.09 | 12.69±4.99 | 12.99±4.87 | 12.87±4.87 | 11.72±4.99 |
| Strike | 99.24±1.60 | 102.39±8.49 | 101.45±5.54 | 100.18±3.12 | 99.22±1.61 |
表9:混凝土强度预测任务的性能与训练时间
| 算法 | MAE±STD | 训练时间(s) | RMSE±STD | 训练时间(s) |
|---|---|---|---|---|
| LR | 11.30±1.54 | 0.0205 | 11.30±1.14 | 0.0010 |
| SVM | 9.42±1.23 | 9.7217 | 11.60±1.12 | 6.0104 |
| MP | 7.99±0.87 | 27.7583 | 9.61±0.82 | 10.6336 |
| BPNN | 8.07±1.03 | 5.1834 | 10.26±0.90 | 0.8562 |
| BLS | 8.00±0.96 | 0.0089 | 10.14±0.83 | 0.0161 |
| M-BLS(Huber) | 6.42±0.44 | 0.0492 | 8.30±0.51 | 0.0719 |
| M-BLS(Cauchy) | 6.30±0.40 | 0.0396 | 8.21±0.49 | 0.0388 |
| M-BLS(Welsch) | 6.32±0.42 | 0.0512 | 8.20±0.50 | 0.0416 |
| AR-BLS | 6.19±0.34 | 0.5806 | 8.19±0.49 | 0.6753 |
主要结论:
- 异常值噪声:传统BLS性能随噪声率增加急剧下降。M-BLS变体(特别是Cauchy和Welsch)表现更稳定。AR-BLS在绝大多数情况下取得了最低的测试RMSE,证明其自适应调整损失函数形状的能力使其能更好地平衡正常样本拟合与异常值抑制。
- α稳定噪声:M-BLS变体表现不稳定,甚至在多数数据集上不如传统BLS,表明固定损失函数难以匹配此类强脉冲噪声。AR-BLS则在所有数据集上均取得最优或持平的性能,显示其通过动态调整α来匹配噪声特性的强大能力。
- 混凝土强度预测:AR-BLS在RMSE和MAE上均达到最优,优于传统机器学习模型(LR, SVM, MP, BPNN)及其他BLS变体。但AR-BLS的训练时间显著长于其他BLS变体(约慢一个数量级),作者认为这是为了自适应调整参数所付出的合理代价。
- 训练时间:AR-BLS的训练时间普遍长于其他BLS变体,这主要是由于需要迭代优化形状参数α。但论文指出,在大多数数据集上,绝对训练时间仍在秒级或更短,保持了BLS快速训练的特点。
🔬 细节详述
- 算法细节:AR-BLS的训练包含两个交替的步骤。步骤1(权重更新)执行IRLS迭代:计算当前权重下的归一化残差 \(u_i = 0.6745 \times \text{med}(|e_i - \text{med}(e)|)\),构建加权矩阵 \(\Lambda\),然后求解 \(W = (\lambda I + A^T \Lambda A)^{-1} A^T \Lambda Y\)。步骤2(参数更新)固定权重,通过网格搜索(范围 \([\alpha_{min}, 2]\),\(\alpha_{min}=-10\))最小化近似负对数似然函数 \(\hat{\rho}\) 来更新 \(\alpha\)。尺度参数 \(c\) 根据当前残差确定。
- 参数设置:网络结构参数(特征节点组数n、每组节点数q、增强节点组数m、每组节点数p)通过网格搜索确定,范围分别为\(n \in [1,20]\), \(q \in [1,20]\) (步长2),\(m=1\), \(p \in [1,200]\) (步长5)。所有方法使用相同的网络结构以公平比较。正则化系数 \(\lambda\) 统一设为 \(30^{-2}\)。实验重复10次取平均。
- 实验环境:Intel Core i5-6200U CPU, 2.30 GHz, 8GB RAM,PyCharm工作台。
- 数据处理:UCI回归数据集在实验前被归一化到[0,1]区间。混凝土数据集同样被归一化,预测结果需反归一化。
- 噪声生成:异常值噪声通过随机选择比例P的训练样本,将其输出替换为数据范围内的随机值来生成。α稳定噪声通过特征函数 \(\psi(x) = \exp(-|x|^\rho)\) (\(\rho=0.1, \mu=1.5\)) 直接添加到训练集输出 \(y\) 上。
- 理论证明:论文详细证明了AR-BLS满足Zangwill全局收敛定理的三个条件:(1) 参数空间 \(C = \mathcal{W} \times [-10, 2]\) 是紧集;(2) 每次交替迭代步均使目标函数 \(J\) 非增;(3) 迭代映射 \(f\) 在解集 \(S\) 的补集上是闭合的。从而保证了算法收敛到稳定点。
- 引用与致谢:论文由国家自然科学基金(No. 62171388)支持。参考文献包含了BLS原创论文及近年多个应用领域的BLS变体工作。
⚖️ 评分理由
- 创新性 (3/3):本文的主要创新在于将BLS的鲁棒性设计从“选择固定损失函数”范式转变为“自适应学习损失函数”范式。这是一个清晰且有价值的��路,将一个常见的手工调参问题自动化,具有方法论上的新颖性。虽然自适应鲁棒核函数本身不是新提出的,但将其与BLS框架深度结合并进行理论证明是贡献。
- 技术严谨性 (1.5/1.5):论文推导过程清晰,从目标函数构建、IRLS求解到交替优化策略都有详细公式支撑。最关键的理论贡献是基于Zangwill定理给出了完整的收敛性证明,这大大增强了方法的可信度和严谨性。
- 实验充分性 (1.3/1.5):实验设计较为全面,覆盖了多种UCI数据集、两种非高斯噪声(异常值、α稳定噪声)和一个实际应用场景(混凝土强度预测)。与多个基线(传统BLS、多种M-BLS)进行了充分对比。扣分点在于:1) 所有实验仅针对回归任务,未在分类等其他任务上验证方法的普适性;2) 未与更多非BLS框架的最新鲁棒回归方法进行对比,局限了其先进性的定位。
- 清晰度 (0.9/1.0):论文结构完整,逻辑清晰,公式编号连贯(但存在个别笔误如公式(2)与(10))。图表说明充分,表格数据呈现清晰。美中不足是部分段落略显冗长,且文末引用了大量作者不相关领域的早期论文,显得有些突兀。
- 影响力 (1.2/2.0):该研究为BLS社区提供了一个新的鲁棒变体,对提升模型在噪声环境下的泛化性能有实际帮助。自适应调整的思想也可能启发其他学习框架。然而,论文聚焦于回归任务和特定的BLS框架,其技术路径的普适性有限。此外,BLS本身在学术界的热度相较于深度学习模型已有所降低,这限制了工作的整体影响力范围。(注:本研究面向通用机器学习,与语音/音乐/音频领域无直接关联,故在影响力维度对音频领域读者的相关性上已作考虑。)
- 开源 (0.5/1.5):论文提供了详细的算法伪代码、参数设置和实验环境描述,为复现提供了良好基础。然而,未公开代码、模型权重或处理好的数据集,这无疑增加了独立复现的难度,降低了可验证性和可扩展性。
- 可复现性 (0.3/0.5):由于未开源代码,且实验依赖的网络结构参数需通过网格搜索确定,完整的复现工作量较大。论文虽给出了搜索范围和步骤,但具体搜索过程和最终选择的参数未完全公开。此外,数据归一化、噪声生成的具体随机种子等细节也未提及,影响实验的绝对可复现性。
🚨 局限与问题
- 任务范围局限:作者在结论中也承认,本文仅探索了AR-BLS在回归任务上的应用,其在分类任务上的有效性未被验证。这是方法普适性的一个重要缺口。
- 理论证明的近似性:收敛性证明依赖于构造的近似配分函数 \(\hat{Z}_\alpha\),而非精确的配分函数 \(Z_\alpha\)。这种近似是否会影响理论上收敛到的解的质量,以及在何种条件下近似是合理的,论文未进行深入讨论。
- 计算开销:实验表明AR-BLS的训练时间显著高于其他BLS变体(通常慢几倍到一个数量级)。尽管作者认为“可接受”,但在大规模数据或实时应用中,这种开销可能成为瓶颈。论文未探讨如何加速参数 \(\alpha\) 的优化(例如使用更高效的搜索或梯度方法)。
- 实验对比基线有限:对比方法仅限于传统BLS及其几种M-estimator变体。未与更广泛的鲁棒回归方法(如基于MMD的鲁棒方法、其他自适应损失函数框架)进行对比,使得无法全面评估AR-BLS在整个鲁棒回归领域中的性能定位。
- 超参数敏感性未充分分析:关键超参数如近似积分截断 \(\varepsilon\)、形状参数搜索范围 \([\alpha_{min}, 2]\)、正则化系数 \(\lambda\) 的选择对性能的影响未进行系统的消融实验或敏感性分析。读者无法了解这些参数在多大程度上影响最终结果。
- 对特定噪声类型的依赖:实验中的α稳定噪声参数是固定的(\(\rho=0.1, \mu=1.5\))。方法在更广泛的α稳定分布参数或其他类型混合噪声下的鲁棒性有待进一步考察。
- 参考文献问题:参考文献列表中包含了大量与本文主题无关的作者早期工作(如[34]-[43]),这些引用显得冗余,甚至可能被误解为与本文技术直接相关,影响了论文的严谨性。