📄 Comprehensive Dataset and Signal Processing Framework for Phonocardiogram-Based Heart Rate and Blood Pressure Estimation
#医疗音频 #工业应用
🔥 8/10 | 前25% | #医疗音频 | #工业应用 | arxiv
学术质量 5.4/7 | 影响力 1.5/2 | 可复现性 1.1/2
👥 作者与机构
第一作者及通讯作者:Abdul Ahad Mamun,孟加拉国工程技术大学电气与电子工程系。 共同作者:Utsab Saha(同机构及BRAC大学),Md Hasibul Hasan,Shahed Ahmed,MD Jahin Alam(同机构及BRAC大学)。
💡 毒舌点评
这篇论文想用一个麦克风和Arduino板子同时测心率血压,想法很美好,现实很骨感。硬件描述详细得像产品说明书,但核心贡献——那个“半经验模型”——在一个15人的健康男性小样本上跑回归,特征维度比样本数还多,这过拟合的flag立得飞起。作者自己都在supplementary material里承认了,但正文中还是把那组漂亮的相关系数(R=0.891)摆得挺显眼。血压参考值用的是手动测量取平均,这误差引入得也很“朴素”。整篇文章像一份详实的系统验证报告,而不是一篇旨在解决核心科学问题(如何从PCG中可靠推断BP)的方法论文。对语音/音乐领域的读者来说,除了“信号处理”这个宽泛标签,几乎没有直接可借鉴的创新点。
📌 核心摘要
本研究提出了一种名为PhonoTrack的低成本心音图(PCG)监测系统,旨在仅使用单通道PCG信号同时估计心率(HR)和血压(BP)。研究构建了一个包含15名健康成年男性同步PCG、心电图(ECG)及手动血压测量的小型数据集。HR估计采用三种包络检测方法(希尔伯特变换、香农能量、小波能量谱)提取心音峰值,其中香农能量法表现最佳,与ECG参考的HR相关性达0.973,RMSE为1.688 bpm。BP估计基于从PCG包络中提取的时域特征(如心音持续时间、上升/下降时间等),通过一个包含线性、二次项及交互项的半经验多元线性回归模型进行预测,其估计值与手动测量值的收缩压(SBP)和舒张压(DBP)相关性分别为0.891和0.700,误差标准差为2.10和3.20 mmHg。研究通过留一法交叉验证(LOOCV)评估了BP模型的泛化能力,但指出小样本和模型复杂度存在过拟合风险。论文为基于PCG的低成本便携式心血管监测设备提供了概念验证,但强调其结论的推广需要更大、更多样化的数据集和临床验证。
🔗 开源详情
- 代码: 未提供公开代码仓库或链接。
- 模型权重: 未提供。论文提出的HR和BP估计算法基于传统信号处理和统计回归模型,无深度学习模型权重。
- 数据集: 论文提出了一个名为“Comprehensive Dataset for Phonocardiogram-Based Heart Rate and Blood Pressure Estimation”的数据集。获取方式:论文中未提供公开下载链接,在Data Availability部分指出“通讯作者会在合理请求下提供”。开源协议:未提及。
- Demo: 未提及。
- 复现材料: 未提供结构化的复现包。但论文在“Methodology”、“Data Validation”和“Results”部分详细描述了完整的信号处理流程、算法参数(如滤波器截止频率、小波类型与层级、阈值设置)、半经验回归模型的所有系数(Table 1)、以及数据验证指标(NRMSE, SNR)的计算方法(Table 2)。这些文字描述构成了复现研究所必需的关键信息。
- 论文中引用的开源项目: 未引用特定的开源软件库或项目。论文引用了多个公开数据集(PASCAL HSC, PhysioNet 2016等)进行文献综述和比较,但未提供具体URL。
🏗️ 方法概述和架构
本研究的方法框架是一个端到端的系统,涵盖硬件设计、数据采集、信号处理与建模,旨在验证仅用PCG信号进行HR和BP估计的可行性。其核心架构可分为硬件平台、数据采集流程、信号处理流水线(用于HR估计)和BP估计模型四个主要部分。
- 硬件平台与数据采集:
- PhonoTrack设备: 核心是一个定制的听诊器麦克风系统。将麦克风嵌入标准听诊器延长管内,直接从胸壁拾取心音声学信号,通过有线连接传输至iPad进行录制(采样率44.1 kHz)。使用可调绑带将听诊器隔膜固定在标准解剖位置(左胸骨旁,比典型三尖瓣听诊位高一肋间),以保持稳定接触,减少运动伪影。
- ECG系统: 采用基于Arduino的三导联单通道ECG采集系统。使用AD8232传感器模块放大和滤波心电信号,经ADC数字化后通过USB传输至笔记本电脑。ECG R-R间期作为HR估计的金标准。
- 数据采集协议: 在安静的室内实验室环境中,受试者静坐。在60秒录制期间同步采集PCG和ECG信号。录制前后立即使用手动血压计测量血压,取平均值作为BP参考值。所有录制由受过训练的医疗专业人员监督。

信号处理流水线(HR估计):
- ECG参考HR计算: ECG信号(平均采样率190 Hz)被分段为6秒非重叠帧。对每帧进行去趋势和归一化处理,然后通过局部最大值检测算法(峰值显著性阈值0.8)识别R波峰值,计算R-R间期平均值,进而得到参考HR。
- PCG信号处理与HR提取: 同步的6秒PCG帧(44.1 kHz)依次经过以下处理:
- 小波去噪: 使用Daubechies (db4) 小波进行8级分解,应用基于阈值(15%最大振幅)的小波收缩去噪,然后重构信号。
- 归一化: 将去噪后的信号除以其最大值进行归一化。
- 包络提取: 应用三种方法提取信号包络,以突出S1/S2心音峰值:
- 希尔伯特变换(HT): 通过计算解析信号的幅值得到包络。
- 香农能量(SE): 计算公式为 \(E_{\text{SE}}[n] = -x[n]^2 \cdot \log(x[n]^2 + \epsilon)\),强调高能量区域,抑制低能量成分。
- 小波能量谱(WES): 使用连续小波变换将信号分解到时频平面,计算各尺度小波系数的平方和(能量谱),得到平滑的能量包络。
- 后处理与峰值检测: 对提取的包络应用截止频率为20 Hz的零相位巴特沃斯低通滤波器进行平滑。然后检测局部最大值作为候选心音峰值,并施加最小峰值间距(0.125秒,对应最高心率240 bpm)和最小峰值高度(15%包络最大值)约束以排除噪声。通过分析相邻峰值间隔的规律来区分S1和S2。
- HR计算: 根据检测到的S1和S2峰值,计算平均收缩期时长 (\(t_{\text{sys}}\), S1到S2) 和舒张期时长 (\(t_{\text{dias}}\), S2到下一S1),最终HR取自两者的平均:\(\text{HR}_{\text{pcg}} = (\frac{1}{t_{\text{sys}}} + \frac{1}{t_{\text{dias}}}) \times \frac{60}{2}\)。
BP估计模型:
- 特征提取: 从每个6秒PCG帧的包络中提取一组时域特征,这些特征旨在反映心脏机械活动的定时特性。特征包括:S1和S2的持续时间(\(t_{\text{s1}}\), \(t_{\text{s2}}\))、S1和S2的上升时间(\(t_{\text{rs1}}\), \(t_{\text{rd2}}\))与衰减时间(\(t_{\text{ds1}}\), \(t_{\text{dd2}}\))、收缩期时长(\(t_{\text{sys}}\))、舒张期时长(\(t_{\text{dias}}\))以及上一步计算得到的\(\text{HR}_{\text{pcg}}\)。这些特征在每个受试者的所有帧上取平均,得到每个受试者一组固定的特征向量。
- 半经验回归模型: 提出一个多变量回归模型来直接映射上述特征到SBP和DBP。模型包含常数项、线性项、二次项(如\(t_{\text{sys}}^2\), \(t_{\text{s1}}^2\), \(\text{HR}_{\text{pcg}}^2\))以及交互项(如\(t_{\text{rs1}} \cdot t_{\text{ds1}}\))。SBP模型的公式为: \[ P_{\text{sys}} = C_1 + \sigma_{\text{sys}} \cdot t_{\text{sys}} + \sigma_{\text{rs1}} \cdot t_{\text{rs1}} + \sigma_{\text{ds1}} \cdot t_{\text{ds1}} + \sigma_{\text{s1}} \cdot t_{\text{s1}} + \sigma_{\text{s,HR}} \cdot \text{HR}_{\text{pcg}} + \sigma_{\text{s,HR}^2} \cdot \text{HR}_{\text{pcg}}^2 + \sigma_{\text{sys}^2} \cdot t_{\text{sys}}^2 + \sigma_{\text{s1}^2} \cdot t_{\text{s1}}^2 + \sigma_{\text{rds1}} \cdot t_{\text{rs1}} \cdot t_{\text{ds1}} \] DBP模型 (\(P_{\text{dias}}\)) 结构类似,但使用舒张期相关的特征和系数(\(\alpha\) 系数)。模型系数通过多元线性回归分析在15个受试者的数据上拟合得到。由于样本量远小于特征维度(10个特征),作者明确指出该模型存在严重的过拟合风险,其系数不稳定,不应被解释为普遍的生理参数,而应视为一个初步的概念验证基线。
- 泛化性评估: 为评估模型在未见受试者上的表现,使用了受试者级留一法交叉验证(LOOCV)。每次排除一个受试者,用剩余14个受试者的数据训练模型,然后预测被排除受试者的BP,最后汇总所有被排除受试者的预测误差(RMSE, MAE)。




💡 核心创新点
- 系统集成与概念验证: 提出了PhonoTrack硬件系统原型,集成了定制的低成本PCG传感器和Arduino ECG模块,实现了PCG与ECG的同步采集,为便携式、低成本的多模态心血管监测设备提供了可行的硬件方案。
- 数据集构建: 贡献了一个包含时间对齐的PCG-ECG记录及配对手动血压测量的小型数据集。尽管规模有限,但该数据集为研究PCG信号的特性及其与HR/BP的关系提供了基础材料。
- PCG信号处理流程整合: 系统性地比较了三种基于包络的HR估计算法(HT, SE, WES)在同一数据集和框架下的性能,并验证了其有效性。
- 初步的PCG-to-BP建模尝试: 探索了一种不依赖ECG或PPG,仅使用PCG信号中可解释的时域特征,通过回归模型估计BP的方法。这在PCG研究领域是一个有挑战性且较少被探索的方向。
📊 实验结果
心率(HR)估计性能: 以ECG R-R间期计算的HR为参考,评估了三种PCG包络方法。
- 定量指标(帧级,15帧/受试者,平均报告):
方法 平均绝对误差 (MAE, bpm) 均方根误差 (RMSE, bpm) 平均差 (mean ± SD, bpm) 皮尔逊相关系数 (R) 希尔伯特变换 (HT) 1.824 2.467 0.962 ± 1.939 0.965 香农能量 (SE) 1.330 1.688 0.880 ± 1.304 0.973 小波能量谱 (WES) 1.517 1.992 1.069 ± 1.549 0.955 - 结论: 三种方法均表现优异,香农能量(SE)法在误差指标上略占优。Bland-Altman分析显示低系统偏差和紧密一致性(详见Supplementary Fig. S4)。
- 定量指标(帧级,15帧/受试者,平均报告):
血压(BP)估计性能: 使用15个受试者(每个受试者一组平均特征)拟合半经验回归模型。
- 训练集性能(相关性):
- 收缩压 (SBP): 皮尔逊相关系数 \(R = 0.891\)
- 舒张压 (DBP): 皮尔逊相关系数 \(R = 0.700\)
- 误差标准差:SBP = 2.10 mmHg, DBP = 3.20 mmHg。
- 泛化性能(受试者级LOOCV):
血压类型 均方根误差 (RMSE, mmHg) 平均绝对误差 (MAE, mmHg) 收缩压 (SBP) 9.8871 7.2565 舒张压 (DBP) 11.0508 8.6295 - Bland-Altman分析 (Fig. 10): SBP的差异点紧密围绕零线分布,一致性较好;DBP的误差分布更散,包含一些较大的负偏差,解释了其更高的RMSE/MAE。
与现有文献的比较 (Table 3):
系统名称 样本量 HR估计准确度 (皮尔逊相关R) BP估计误差 (标准差SD, mmHg) 参考文献 In-ear PPG Sensor 97 0.83 未报告 [1] PPG wearable sensors 31 0.834 未报告 [17] 胎儿PCG HR估计 未指定 0.90 未报告 [19] EPHNOGRAM system 68 ~0.65 未报告 [38] Contact-type HR sensor 40 ~0.95 未报告 [70] Wearable cuff‑less watch 21 未报告 SBP SD=4.70, DBP SD=2.70 [28] PCG+ANN BP Estimation 37 未报告 SBP SD=13.31, DBP SD=9.52 [52] BP monitoring system 12 未报告 SBP SD=3.139, DBP SD=5.198 [13] PhonoTrack System 15 0.973 SBP SD=2.10, DBP SD=3.20 本工作
🔬 细节详述
数据验证与信号质量评估: 论文不仅进行了性能评估,还对所采集的PCG数据集本身进行了多方面的质量验证,这是其方法论完整性的一部分。
- 频域分析: 对每个受试者的原始PCG信号进行FFT分析,得到的频率范围(如6-267 Hz)与文献报道的PCG典型频段(20-250 Hz)相符,验证了信号的生理相关性。频谱图(STFT)和梅尔频率倒谱系数(MFCC)分析进一步可视化并证实了S1/S2心音在时频域的清晰呈现。
- 小波能量谱(WES)分析: 将WES与原始信号的能量谱(ES)进行对比,生成平滑的包络,清晰显示了S1振幅大于S2的规律。
- 信号质量定量指标: 计算了两种谱表示(WES与ES)之间的归一化均方根误差(NRMSE)以及信噪比(SNR),结果汇总于Table 2。NRMSE值(使用Morlet小波时范围0.733-0.867)表明WES与ES在频谱结构上具有较好的对应关系。平均SNR范围(18.9-32.1 dB)均高于20 dB,表明录音质量良好,满足后续分析需求。
HR估计的细节补充:
- 帧长度选择: HR计算使用了6秒的帧长度。对于PCG,这是为了与ECG帧保持一致。作者也提到了在外部测试中使用了4秒帧。
- 鲁棒性初步测试: 在Supplementary Table S2中,报告了在PhysioNet 2016数据集和一些自有噪声环境录音上的HR估计误差,表明在中等噪声下方法仍可靠,但存在个别异常帧。
BP模型细节与警告: Table 1详细列出了回归模型中所有的系数值及其单位(\(\text{mmHg} \cdot \text{ms}^{-1}\) 等),这是可复现的关键。文中明确指出,由于样本量(n=15)远小于特征数(模型包含11个系数,包括常数项),该模型“应谨慎解释”,存在“过拟合风险和系数不稳定性”。系数不应被视为“确定性的群体层面生理参数”,模型仅是“初步的概念验证基线”。这种自我批评是严谨的。
⚖️ 评分理由
- 创新性 (3/3): 在探索仅用PCG信号进行同步HR和BP估计的系统集成和建模方面,具有清晰的新颖性和挑战性。硬件设计、数据集构建和方法整合均有一定创新价值。
- 技术严谨性 (0.5/1.5): 硬件描述和信号处理流程详���。但核心BP回归模型存在根本性缺陷:严重过拟合风险。在仅15个独立样本(受试者)上拟合一个包含线性、二次及交互项的多变量模型,导致模型缺乏泛化能力(LOOCV的RMSE高达~10-11 mmHg),其系数缺乏统计意义。BP参考值为手动测量取平均,引入了不可忽略的测量误差。ECG采样率(190 Hz)虽够用,但非标准值。
- 实验充分性 (1.0/1.5): HR评估较为全面(多种方法、帧级误差、LOOCV、Bland-Altman、外部数据初步测试)。BP评估受限于数据集,仅做了相关性分析和LOOCV,但LOOCV结果揭示了模型泛化能力不足,这本身是重要发现。缺乏对特征重要性、模型简化(如降维、正则化)或与简单基线(如仅用HR)比较的消融实验。
- 清晰度 (0.9/1): 论文结构清晰,方法描述详实,图表丰富,便于理解。对模型局限性的讨论坦诚。
- 影响力 (1.5/2): 概念验证有潜力推动低成本PCG监测设备的发展,特别是在资源受限地区。但目前的技术成熟度(小样本、特定人群、静止环境)距离临床应用或改变现有实践仍有显著差距。对语音/音乐/音频领域的直接技术借鉴有限。
- 开源 (0.8/1.5): 提出了一个数据集,但仅“应合理要求提供”,未公开。代码和模型未开源。论文详细描述了算法参数和回归系数,提供了理论上的可复现性,但缺乏实现材料。
- 可复现性 (0.3/0.5): 论文对信号处理步骤和回归模型的描述足够详细,理论上可根据描述复现核心算法。但缺乏实际的代码和公开数据集,使得完全复现面临障碍。
🚨 局限与问题
- 样本规模与多样性严重不足: 15名健康男性成人的数据集是最大的局限。这导致:(a) BP回归模型严重过拟合,系数不稳定,无法推广至更广泛人群(不同年龄、性别、BMI、健康状况);(b) 无法评估系统在病理状态或生理变异下的性能;(c) 统计结论的置信度低。
- BP估计方法学缺陷: 半经验回归模型本质上是数据拟合,而非基于明确生理机制。特征与BP之间的因果关系未被建立或验证。模型复杂度相对于样本量过高,即使作者承认过拟合,但报告的“好”相关性(R=0.89)具有误导性。LOOCV的高误差(RMSE>10 mmHg)更真实地反映了模型局限。与仅用HR估计BP的简单模型对比缺失。
- BP参考值不确定性: 使用手动血压计录制前后两次测量的平均值作为“真实值”。动脉血压随时间、情绪、呼吸变化,两次测量的平均值是否真正代表60秒录制窗口内的“平均”血压值得商榷,引入了系统性的参考误差。
- 实验场景单一: 所有实验在受控静息环境下进行。未验证系统在日常活动(如行走、上下楼梯)、不同姿势或轻度运动中的鲁棒性,而这些是便携式监测设备必须面对的实际挑战。
- 过度解读潜力: 论文在结论和讨论中倾向于强调“有前景”、“可行”、“竞争性准确度”,尽管在局限性部分有所提及,但整体上可能给读者(尤其是非该领域读者)造成该技术已接近成熟的错觉。需明确当前仍处于早期概念验证阶段。
- 领域相关性: 本研究核心贡献在于生物医学工程和可穿戴设备领域,而非语音、音乐或通用音频信号处理。因此,对于目标读者(语音/音乐/音频领域)而言,其直接影响力和技术启发性有限。