📄 Comprehensive Dataset and Signal Processing Framework for Phonocardiogram-Based Heart Rate and Blood Pressure Estimation

#医疗音频 #工业应用

🔥 8/10 | 前25% | #医疗音频 | #工业应用 | arxiv

学术质量 5.4/7 | 影响力 1.5/2 | 可复现性 1.1/2

👥 作者与机构

第一作者及通讯作者：Abdul Ahad Mamun，孟加拉国工程技术大学电气与电子工程系。共同作者：Utsab Saha（同机构及BRAC大学），Md Hasibul Hasan，Shahed Ahmed，MD Jahin Alam（同机构及BRAC大学）。

💡 毒舌点评

这篇论文想用一个麦克风和Arduino板子同时测心率血压，想法很美好，现实很骨感。硬件描述详细得像产品说明书，但核心贡献——那个“半经验模型”——在一个15人的健康男性小样本上跑回归，特征维度比样本数还多，这过拟合的flag立得飞起。作者自己都在supplementary material里承认了，但正文中还是把那组漂亮的相关系数（R=0.891）摆得挺显眼。血压参考值用的是手动测量取平均，这误差引入得也很“朴素”。整篇文章像一份详实的系统验证报告，而不是一篇旨在解决核心科学问题（如何从PCG中可靠推断BP）的方法论文。对语音/音乐领域的读者来说，除了“信号处理”这个宽泛标签，几乎没有直接可借鉴的创新点。

📌 核心摘要

本研究提出了一种名为PhonoTrack的低成本心音图（PCG）监测系统，旨在仅使用单通道PCG信号同时估计心率（HR）和血压（BP）。研究构建了一个包含15名健康成年男性同步PCG、心电图（ECG）及手动血压测量的小型数据集。HR估计采用三种包络检测方法（希尔伯特变换、香农能量、小波能量谱）提取心音峰值，其中香农能量法表现最佳，与ECG参考的HR相关性达0.973，RMSE为1.688 bpm。BP估计基于从PCG包络中提取的时域特征（如心音持续时间、上升/下降时间等），通过一个包含线性、二次项及交互项的半经验多元线性回归模型进行预测，其估计值与手动测量值的收缩压（SBP）和舒张压（DBP）相关性分别为0.891和0.700，误差标准差为2.10和3.20 mmHg。研究通过留一法交叉验证（LOOCV）评估了BP模型的泛化能力，但指出小样本和模型复杂度存在过拟合风险。论文为基于PCG的低成本便携式心血管监测设备提供了概念验证，但强调其结论的推广需要更大、更多样化的数据集和临床验证。

🔗 开源详情

代码：未提供公开代码仓库或链接。
模型权重：未提供。论文提出的HR和BP估计算法基于传统信号处理和统计回归模型，无深度学习模型权重。
数据集：论文提出了一个名为“Comprehensive Dataset for Phonocardiogram-Based Heart Rate and Blood Pressure Estimation”的数据集。获取方式：论文中未提供公开下载链接，在Data Availability部分指出“通讯作者会在合理请求下提供”。开源协议：未提及。
Demo：未提及。
复现材料：未提供结构化的复现包。但论文在“Methodology”、“Data Validation”和“Results”部分详细描述了完整的信号处理流程、算法参数（如滤波器截止频率、小波类型与层级、阈值设置）、半经验回归模型的所有系数（Table 1）、以及数据验证指标（NRMSE, SNR）的计算方法（Table 2）。这些文字描述构成了复现研究所必需的关键信息。
论文中引用的开源项目：未引用特定的开源软件库或项目。论文引用了多个公开数据集（PASCAL HSC, PhysioNet 2016等）进行文献综述和比较，但未提供具体URL。

🏗️ 方法概述和架构

本研究的方法框架是一个端到端的系统，涵盖硬件设计、数据采集、信号处理与建模，旨在验证仅用PCG信号进行HR和BP估计的可行性。其核心架构可分为硬件平台、数据采集流程、信号处理流水线（用于HR估计）和BP估计模型四个主要部分。

硬件平台与数据采集：
- PhonoTrack设备：核心是一个定制的听诊器麦克风系统。将麦克风嵌入标准听诊器延长管内，直接从胸壁拾取心音声学信号，通过有线连接传输至iPad进行录制（采样率44.1 kHz）。使用可调绑带将听诊器隔膜固定在标准解剖位置（左胸骨旁，比典型三尖瓣听诊位高一肋间），以保持稳定接触，减少运动伪影。
- ECG系统：采用基于Arduino的三导联单通道ECG采集系统。使用AD8232传感器模块放大和滤波心电信号，经ADC数字化后通过USB传输至笔记本电脑。ECG R-R间期作为HR估计的金标准。
- 数据采集协议：在安静的室内实验室环境中，受试者静坐。在60秒录制期间同步采集PCG和ECG信号。录制前后立即使用手动血压计测量血压，取平均值作为BP参考值。所有录制由受过训练的医疗专业人员监督。

信号处理流水线（HR估计）：
- ECG参考HR计算： ECG信号（平均采样率190 Hz）被分段为6秒非重叠帧。对每帧进行去趋势和归一化处理，然后通过局部最大值检测算法（峰值显著性阈值0.8）识别R波峰值，计算R-R间期平均值，进而得到参考HR。
- PCG信号处理与HR提取：同步的6秒PCG帧（44.1 kHz）依次经过以下处理：
- 小波去噪：使用Daubechies (db4) 小波进行8级分解，应用基于阈值（15%最大振幅）的小波收缩去噪，然后重构信号。
- 归一化：将去噪后的信号除以其最大值进行归一化。
- 包络提取：应用三种方法提取信号包络，以突出S1/S2心音峰值：
  1. 希尔伯特变换（HT）：通过计算解析信号的幅值得到包络。
  2. 香农能量（SE）：计算公式为 \(E_{\text{SE}}[n] = -x[n]^2 \cdot \log(x[n]^2 + \epsilon)\)，强调高能量区域，抑制低能量成分。
  3. 小波能量谱（WES）：使用连续小波变换将信号分解到时频平面，计算各尺度小波系数的平方和（能量谱），得到平滑的能量包络。
- 后处理与峰值检测：对提取的包络应用截止频率为20 Hz的零相位巴特沃斯低通滤波器进行平滑。然后检测局部最大值作为候选心音峰值，并施加最小峰值间距（0.125秒，对应最高心率240 bpm）和最小峰值高度（15%包络最大值）约束以排除噪声。通过分析相邻峰值间隔的规律来区分S1和S2。
- HR计算：根据检测到的S1和S2峰值，计算平均收缩期时长 (\(t_{\text{sys}}\)， S1到S2) 和舒张期时长 (\(t_{\text{dias}}\)， S2到下一S1)，最终HR取自两者的平均：\(\text{HR}_{\text{pcg}} = (\frac{1}{t_{\text{sys}}} + \frac{1}{t_{\text{dias}}}) \times \frac{60}{2}\)。
BP估计模型：
- 特征提取：从每个6秒PCG帧的包络中提取一组时域特征，这些特征旨在反映心脏机械活动的定时特性。特征包括：S1和S2的持续时间（\(t_{\text{s1}}\), \(t_{\text{s2}}\)）、S1和S2的上升时间（\(t_{\text{rs1}}\), \(t_{\text{rd2}}\)）与衰减时间（\(t_{\text{ds1}}\), \(t_{\text{dd2}}\)）、收缩期时长（\(t_{\text{sys}}\)）、舒张期时长（\(t_{\text{dias}}\)）以及上一步计算得到的\(\text{HR}_{\text{pcg}}\)。这些特征在每个受试者的所有帧上取平均，得到每个受试者一组固定的特征向量。
- 半经验回归模型：提出一个多变量回归模型来直接映射上述特征到SBP和DBP。模型包含常数项、线性项、二次项（如\(t_{\text{sys}}^2\), \(t_{\text{s1}}^2\), \(\text{HR}_{\text{pcg}}^2\)）以及交互项（如\(t_{\text{rs1}} \cdot t_{\text{ds1}}\)）。SBP模型的公式为： \[ P_{\text{sys}} = C_1 + \sigma_{\text{sys}} \cdot t_{\text{sys}} + \sigma_{\text{rs1}} \cdot t_{\text{rs1}} + \sigma_{\text{ds1}} \cdot t_{\text{ds1}} + \sigma_{\text{s1}} \cdot t_{\text{s1}} + \sigma_{\text{s,HR}} \cdot \text{HR}_{\text{pcg}} + \sigma_{\text{s,HR}^2} \cdot \text{HR}_{\text{pcg}}^2 + \sigma_{\text{sys}^2} \cdot t_{\text{sys}}^2 + \sigma_{\text{s1}^2} \cdot t_{\text{s1}}^2 + \sigma_{\text{rds1}} \cdot t_{\text{rs1}} \cdot t_{\text{ds1}} \] DBP模型 (\(P_{\text{dias}}\)) 结构类似，但使用舒张期相关的特征和系数（\(\alpha\) 系数）。模型系数通过多元线性回归分析在15个受试者的数据上拟合得到。由于样本量远小于特征维度（10个特征），作者明确指出该模型存在严重的过拟合风险，其系数不稳定，不应被解释为普遍的生理参数，而应视为一个初步的概念验证基线。
- 泛化性评估：为评估模型在未见受试者上的表现，使用了受试者级留一法交叉验证（LOOCV）。每次排除一个受试者，用剩余14个受试者的数据训练模型，然后预测被排除受试者的BP，最后汇总所有被排除受试者的预测误差（RMSE， MAE）。

💡 核心创新点

系统集成与概念验证：提出了PhonoTrack硬件系统原型，集成了定制的低成本PCG传感器和Arduino ECG模块，实现了PCG与ECG的同步采集，为便携式、低成本的多模态心血管监测设备提供了可行的硬件方案。
数据集构建：贡献了一个包含时间对齐的PCG-ECG记录及配对手动血压测量的小型数据集。尽管规模有限，但该数据集为研究PCG信号的特性及其与HR/BP的关系提供了基础材料。
PCG信号处理流程整合：系统性地比较了三种基于包络的HR估计算法（HT, SE, WES）在同一数据集和框架下的性能，并验证了其有效性。
初步的PCG-to-BP建模尝试：探索了一种不依赖ECG或PPG，仅使用PCG信号中可解释的时域特征，通过回归模型估计BP的方法。这在PCG研究领域是一个有挑战性且较少被探索的方向。

📊 实验结果

心率（HR）估计性能：以ECG R-R间期计算的HR为参考，评估了三种PCG包络方法。

定量指标（帧级，15帧/受试者，平均报告）：

方法	平均绝对误差 (MAE, bpm)	均方根误差 (RMSE, bpm)	平均差 (mean ± SD, bpm)	皮尔逊相关系数 (R)
希尔伯特变换 (HT)	1.824	2.467	0.962 ± 1.939	0.965
香农能量 (SE)	1.330	1.688	0.880 ± 1.304	0.973
小波能量谱 (WES)	1.517	1.992	1.069 ± 1.549	0.955

结论：三种方法均表现优异，香农能量（SE）法在误差指标上略占优。Bland-Altman分析显示低系统偏差和紧密一致性（详见Supplementary Fig. S4）。

血压（BP）估计性能：使用15个受试者（每个受试者一组平均特征）拟合半经验回归模型。
- 训练集性能（相关性）：
- 收缩压 (SBP): 皮尔逊相关系数 \(R = 0.891\)
- 舒张压 (DBP): 皮尔逊相关系数 \(R = 0.700\)
- 误差标准差：SBP = 2.10 mmHg， DBP = 3.20 mmHg。
- 泛化性能（受试者级LOOCV）：
  血压类型均方根误差 (RMSE, mmHg) 平均绝对误差 (MAE, mmHg)
  收缩压 (SBP) 9.8871 7.2565
  舒张压 (DBP) 11.0508 8.6295
- Bland-Altman分析 (Fig. 10)： SBP的差异点紧密围绕零线分布，一致性较好；DBP的误差分布更散，包含一些较大的负偏差，解释了其更高的RMSE/MAE。

血压类型	均方根误差 (RMSE, mmHg)	平均绝对误差 (MAE, mmHg)
收缩压 (SBP)	9.8871	7.2565
舒张压 (DBP)	11.0508	8.6295

与现有文献的比较 (Table 3)：

系统名称	样本量	HR估计准确度 (皮尔逊相关R)	BP估计误差 (标准差SD, mmHg)	参考文献
In-ear PPG Sensor	97	0.83	未报告	[1]
PPG wearable sensors	31	0.834	未报告	[17]
胎儿PCG HR估计	未指定	0.90	未报告	[19]
EPHNOGRAM system	68	~0.65	未报告	[38]
Contact-type HR sensor	40	~0.95	未报告	[70]
Wearable cuff‑less watch	21	未报告	SBP SD=4.70, DBP SD=2.70	[28]
PCG+ANN BP Estimation	37	未报告	SBP SD=13.31, DBP SD=9.52	[52]
BP monitoring system	12	未报告	SBP SD=3.139, DBP SD=5.198	[13]
PhonoTrack System	15	0.973	SBP SD=2.10, DBP SD=3.20	本工作

🔬 细节详述

数据验证与信号质量评估：论文不仅进行了性能评估，还对所采集的PCG数据集本身进行了多方面的质量验证，这是其方法论完整性的一部分。

频域分析：对每个受试者的原始PCG信号进行FFT分析，得到的频率范围（如6-267 Hz）与文献报道的PCG典型频段（20-250 Hz）相符，验证了信号的生理相关性。频谱图（STFT）和梅尔频率倒谱系数（MFCC）分析进一步可视化并证实了S1/S2心音在时频域的清晰呈现。
小波能量谱（WES）分析：将WES与原始信号的能量谱（ES）进行对比，生成平滑的包络，清晰显示了S1振幅大于S2的规律。
信号质量定量指标：计算了两种谱表示（WES与ES）之间的归一化均方根误差（NRMSE）以及信噪比（SNR），结果汇总于Table 2。NRMSE值（使用Morlet小波时范围0.733-0.867）表明WES与ES在频谱结构上具有较好的对应关系。平均SNR范围（18.9-32.1 dB）均高于20 dB，表明录音质量良好，满足后续分析需求。

HR估计的细节补充：

帧长度选择： HR计算使用了6秒的帧长度。对于PCG，这是为了与ECG帧保持一致。作者也提到了在外部测试中使用了4秒帧。
鲁棒性初步测试：在Supplementary Table S2中，报告了在PhysioNet 2016数据集和一些自有噪声环境录音上的HR估计误差，表明在中等噪声下方法仍可靠，但存在个别异常帧。

BP模型细节与警告： Table 1详细列出了回归模型中所有的系数值及其单位（\(\text{mmHg} \cdot \text{ms}^{-1}\) 等），这是可复现的关键。文中明确指出，由于样本量（n=15）远小于特征数（模型包含11个系数，包括常数项），该模型“应谨慎解释”，存在“过拟合风险和系数不稳定性”。系数不应被视为“确定性的群体层面生理参数”，模型仅是“初步的概念验证基线”。这种自我批评是严谨的。

⚖️ 评分理由

创新性 (3/3): 在探索仅用PCG信号进行同步HR和BP估计的系统集成和建模方面，具有清晰的新颖性和挑战性。硬件设计、数据集构建和方法整合均有一定创新价值。
技术严谨性 (0.5/1.5): 硬件描述和信号处理流程详��。但核心BP回归模型存在根本性缺陷：严重过拟合风险。在仅15个独立样本（受试者）上拟合一个包含线性、二次及交互项的多变量模型，导致模型缺乏泛化能力（LOOCV的RMSE高达~10-11 mmHg），其系数缺乏统计意义。BP参考值为手动测量取平均，引入了不可忽略的测量误差。ECG采样率（190 Hz）虽够用，但非标准值。
实验充分性 (1.0/1.5): HR评估较为全面（多种方法、帧级误差、LOOCV、Bland-Altman、外部数据初步测试）。BP评估受限于数据集，仅做了相关性分析和LOOCV，但LOOCV结果揭示了模型泛化能力不足，这本身是重要发现。缺乏对特征重要性、模型简化（如降维、正则化）或与简单基线（如仅用HR）比较的消融实验。
清晰度 (0.9/1): 论文结构清晰，方法描述详实，图表丰富，便于理解。对模型局限性的讨论坦诚。
影响力 (1.5/2): 概念验证有潜力推动低成本PCG监测设备的发展，特别是在资源受限地区。但目前的技术成熟度（小样本、特定人群、静止环境）距离临床应用或改变现有实践仍有显著差距。对语音/音乐/音频领域的直接技术借鉴有限。
开源 (0.8/1.5): 提出了一个数据集，但仅“应合理要求提供”，未公开。代码和模型未开源。论文详细描述了算法参数和回归系数，提供了理论上的可复现性，但缺乏实现材料。
可复现性 (0.3/0.5): 论文对信号处理步骤和回归模型的描述足够详细，理论上可根据描述复现核心算法。但缺乏实际的代码和公开数据集，使得完全复现面临障碍。

🚨 局限与问题

样本规模与多样性严重不足： 15名健康男性成人的数据集是最大的局限。这导致：(a) BP回归模型严重过拟合，系数不稳定，无法推广至更广泛人群（不同年龄、性别、BMI、健康状况）；(b) 无法评估系统在病理状态或生理变异下的性能；(c) 统计结论的置信度低。
BP估计方法学缺陷：半经验回归模型本质上是数据拟合，而非基于明确生理机制。特征与BP之间的因果关系未被建立或验证。模型复杂度相对于样本量过高，即使作者承认过拟合，但报告的“好”相关性（R=0.89）具有误导性。LOOCV的高误差（RMSE>10 mmHg）更真实地反映了模型局限。与仅用HR估计BP的简单模型对比缺失。
BP参考值不确定性：使用手动血压计录制前后两次测量的平均值作为“真实值”。动脉血压随时间、情绪、呼吸变化，两次测量的平均值是否真正代表60秒录制窗口内的“平均”血压值得商榷，引入了系统性的参考误差。
实验场景单一：所有实验在受控静息环境下进行。未验证系统在日常活动（如行走、上下楼梯）、不同姿势或轻度运动中的鲁棒性，而这些是便携式监测设备必须面对的实际挑战。
过度解读潜力：论文在结论和讨论中倾向于强调“有前景”、“可行”、“竞争性准确度”，尽管在局限性部分有所提及，但整体上可能给读者（尤其是非该领域读者）造成该技术已接近成熟的错觉。需明确当前仍处于早期概念验证阶段。
领域相关性：本研究核心贡献在于生物医学工程和可穿戴设备领域，而非语音、音乐或通用音频信号处理。因此，对于目标读者（语音/音乐/音频领域）而言，其直接影响力和技术启发性有限。

← 返回 2026-05-25 语音/音乐/音频论文速递

📄 Comprehensive Dataset and Signal Processing Framework for Phonocardiogram-Based Heart Rate and Blood Pressure Estimation#

👥 作者与机构#

💡 毒舌点评#

📌 核心摘要#

🔗 开源详情#

🏗️ 方法概述和架构#

💡 核心创新点#

📊 实验结果#

🔬 细节详述#

⚖️ 评分理由#

🚨 局限与问题#

📎 相关论文