📄 HIDVAS: A Hearing Instrument Dataset in Various Acoustical Scenarios for Algorithm Evaluation and Training
#语音增强 #助听器 #数据集
9/10 | 创新 1/2 | 严谨 1.5/1.5 | 实验 1.5/1.5 | 清晰 1/1 | 影响 1/1.5 | 开源 1/1.5 | 复现 0.5/0.5 | 工程 1.5/1.5
🔥 9/10 | 前25% | #语音增强 | #助听器 | #数据集 | arxiv
👥 作者与机构
作者: Arnout Roebben (共同一作), Giuliano Bernardi (共同一作), Jan Wouters, Toon van Waterschoot, Marc Moonen 机构: KU Leuven (Department of Electrical Engineering, ESAT-STADIUS; Department of Neurosciences, ExpORL) 单位邮箱: {arnout.roebben, giuliano.bernardi, jan.wouters, toon.vanwaterschoot, marc.moonen}@kuleuven.be
💡 毒舌点评
这篇论文的核心贡献是“构建并发布”了一个数据集,而非提出新算法或理论。创新性主要在于将多种已知变量(多麦克风、多扬声器、多耳罩、多混响)在一个助听器场景下系统性地组合并录制,这更像是工程上的整合与整理工作,学术新颖性有限。尽管数据集构建过程详细、校准严谨,但论文对于“为何是这些特定条件”以及“如何确保这些组合的代表性”讨论不足。三个用例分析较为基础,更侧重于验证数据集本身特性的“可观测性”,而非展示其在驱动算法创新上的“可能性”。论文声称数据集是“全面且真实的”,但“真实”性受限于假人头模型,而“全面”性则受限于单一品牌助听器组件和有限的声学场景。对于一篇顶会论文而言,其贡献深度略显单薄。
📌 核心摘要
本文介绍了助听器应用场景音频数据集(HIDVAS)。该数据集旨在为助听器及相关音频信号处理算法的评估和数据驱动训练提供一个全面且真实的基准。数据集使用一个配备耳后式(BTE)助听器外壳(含双麦克风)和接收器在耳道内(RIC)助听器扬声器的假人头,在可控混响的实验室环境中录制。录制内容包括使用扫频正弦波计算的脉冲响应,以及通过八个外部扬声器播放的多种声源(男女语音、语音整形噪声、歌声、弦乐、管乐、打击乐)的同步音频录制。录制覆盖了四种助听器耳罩(开放、半开放、封闭、无RIC)与四种混响条件(\(T_{30}\) = 0.09s, 0.47s, 0.73s, 1.48s)的组合。论文通过三个示例用例(反馈路径、直接与混响声比DRR、泄漏分析)验证了数据集的效用,并发现耳罩类型对反馈和泄漏有显著影响,混响时间对BTE麦克风处的DRR有显著影响。数据集总规模约为157.5小时,51.03 GB,已公开可用。
🔗 开源详情
- 代码:论文提及代码仓库
[roebben_github],包含用于播放、录制以及复现论文第3.2节、第5节和第6节结果的脚本。未直接给出URL,但提供了引用标识。 - 模型权重:未提及。
- 数据集:数据集名为 HIDVAS (Hearing Instrument Dataset in Various Acoustical Scenarios)。
- 主数据集:通过引用标记
[roebben_dataset](figshare) 获取,包含完整音频录制和脉冲响应,或仅包含脉冲响应的经济版本。 - 扩展版本:通过引用标记
[roebben_dataset2](Zenodo) 获取,包含因许���证限制而未包含在主数据集中的 LISTf 和 LISTm 材料及相应的 SSN 录音,并附有许可证合规信息。
- 主数据集:通过引用标记
- Demo:未提及。
- 复现材料:复现所需的代码已包含在上述代码仓库
[roebben_github]中。 - 论文中引用的开源项目:
- IoSR MATLAB Toolbox:用于估计混响时间(T30)和计算直达混响比(DRR)。
- pyloudnorm:一个用于根据 ITU-R BS.1770-4 标准对音频文件进行响度标准化的 Python 工具箱。
🏗️ 方法概述和架构
HIDVAS数据集的构建方法是一个系统化的多维度录制流程,其架构可分为硬件配置、录制流程、校准与验证三个核心部分。
硬件配置与声学环境:
- 核心平台:Cortex MK II假人头,其耳道内设有麦克风(mDHEDL/R)用于模拟耳鼓处信号。假人耳后安装有Cochlear Ltd.的BTE助听器外壳,每个外壳包含两个麦克风(mBTELF/LB/RF/RB)。耳道内插入Sonion Steel Series XP的RIC助听器扬声器(lRICL/R),并通过四种不同的耳罩(开放、半开放、封闭、无RIC)固定。
- 外部声源与参考麦克风:8个Genelec 8030CP外部扬声器(lP000至lP180)呈圆形布置,用于模拟外部声场。两个AKG CK32外部麦克风(mXM1靠近声源,mXM2位于假人头顶部)用于辅助收听设备场景和作为参考。
- 录制环境:实验在两个声学特性不同的房间进行:EAL房间(可通过窗帘调节混响时间,产生\(T_{30}\) = 0.09s, 0.47s, 0.73s)和SAL房间(\(T_{30}\) = 1.48s)。
- 录制链:由iMac控制,通过RME Digiface音频接口、RME M-32 DA数模转换器驱动扬声器播放;通过RME Micstasy前置放大器/转换器采集所有麦克风信号,采样率48kHz,位深16bit。
系统校准与增益调整: 为确保数据可比性,论文实施了详细的四步校准流程:
- 外部扬声器增益校准:使用SPL计,调整每个外部扬声器在假人头中心位置的输出声压级至85 dB SPL(播放语音整形噪声SSN)。
- 麦克风增益校准:通过在房间角落创建扩散声场(使用两个扬声器播放SSN),调整所有麦克风的增益,使得在扩散声场下各麦克风的录音电平一致(容差1.5 dB SPL),并选择RME Micstasy动态范围中点附近的增益值。
- RIC扬声器增益校准:调整RIC扬声器的软件增益,使其在耳鼓麦克风处产生的声压级与从特定外部扬声器(lN090/lP090)直接播放SSN时产生的声压级一致(容差0.5 dB RMS)。
- 硬件延迟补偿:通过校准脉冲信号测量并补偿播放和录制设备的延迟,确保录音中的直达声成分与声波传播时间匹配。
信号录制与数据集构成:
- 脉冲响应(IR)录制:采用指数正弦扫频法。对每对麦克风-扬声器组合,播放8秒扫频信号后跟3秒静音(避免混响干扰),重复两次。录制信号经反卷积后得到IR(32bit存储)。数据集包含所有10个麦克风(4个BTE,2个耳鼓,2个外部,2个RIC扬声器作为声源)与10个扬声器(8个外部,2个RIC)之间的IR。
- 音频录制:为捕捉非线性效应,直接录制音频。通过每个扬声器逐一播放11个声源文件(包括不同语言/性别的语音、SSN、歌唱、弦乐、管乐、打击乐),所有麦克风同步录制。所有音频文件在播放前已按ITU-R BS.1770-4标准响度归一化至-23 LUFS。
- 条件组合:上述IR和音频录制过程,针对4种耳罩条件和4种混响条件(分布在两个房间)进行重复,构成了数据集的多维度变量。
验证与分析: 论文通过分析\(T_{30}\)估计值、计算录制音频与IR卷积结果之间的信号误差比(SER)和线性失真比(LDR),验证了IR模型的有效性和数据集的一致性。进一步通过三个用例(反馈路径分析、DRR分析、泄漏分析)展示了数据集的应用价值。


💡 核心创新点
- 多维度变量的系统集成:首次在助听器数据集中系统性地、同时地集成了多个关键变量:多麦克风配置(BTE、耳鼓、外部)、多扬声器配置(外部声源、RIC助听器扬声器)、多耳罩类型(不同声学阻抗)以及多混响条件(跨房间和可变吸声)。这为模拟“盒中助听器”提供了高度灵活的配置。
- 保留硬件效应的真实录制:与旨在提取纯声学IR的数据集不同,HIDVAS刻意保留了助听器硬件(麦克风、扬声器、前置放大器)在录制链中的效应,旨在提供更贴近真实佩戴场景的“硬件在环”数据,以直接用于算法评估与训练。
- 脉冲响应与音频录制并存:数据集同时包含线性系统的IR表征和能够捕捉非线性失真的直接音频录制,为研究线性近似模型的适用性及其边界提供了材料。
📊 实验结果
- 数据集规模:共计15819个文件,原始音频数据156.39小时,IR数据1.01小时,源音频0.12小时,总时长157.53小时,总存储51.03 GB。
- IR有效性验证:基于VCTK男性语音的SER分析显示,所有考虑的麦克风-扬声器对的平均SER均超过14 dB,表明录制音频与IR卷积结果高度一致。LDR指标也呈现相似趋势,证实了IR作为线性模型的充分性。
- 用例分析结果:
- 反馈路径:开放和半开放式耳罩的反馈路径幅度相似且较大;封闭式耳罩因无通风口,显著衰减了反馈路径幅度。混响时间对反馈路径影响很小,归一化欧氏系统距离(NESD)分析证实了这一点(结果见下表)。
- 直接与混响声比(DRR):靠近声源的外部麦克风mXM1的DRR显著高于BTE助听器麦克风。随着混响时间增加,两者DRR的差值增大,凸显了在混响环境中使用外部辅助麦克风的优势。
- 泄漏分析:开放式和半开放式耳罩的泄漏功率比(\(P_{\text{ratio}}\))接近0 dB,几乎未阻挡外部声音;封闭式耳罩的平均\(P_{\text{ratio}}\)为-33.1 dB,有效阻隔了泄漏。
表2:正常化欧氏系统距离(NESD)(单位:dB)
| \(T_{30}\) | 耳罩类型 | lRICR - mBTERF | lRICL - mBTELF |
|---|---|---|---|
| 0.47 s | 开放 | -12.28 | -20.05 |
| 半开放 | -8.97 | -19.24 | |
| 封闭 | -7.78 | -8.90 | |
| 0.73 s | 开放 | -2.76 | -9.46 |
| 半开放 | -10.54 | -9.02 | |
| 封闭 | -6.98 | -5.06 | |
| 1.48 s | 开放 | -3.93 | -9.19 |
| 半开放 | -11.06 | -9.59 | |
| 封闭 | -7.69 | -1.72 |


⚖️ 评分理由
- 创新性 (1.0/2):主要贡献是数据集的构建与发布,属于资源型工作。创新体现在多维度变量的系统性组合和保留硬件效应的录制理念上,但未提出新的算法、模型或理论框架。新颖性有限。
- 技术严谨性 (2.0/2.5):实验设计非常严谨。详细描述了硬件配置、多步骤校准流程(增益匹配、时延补偿)、信号参数和验证方法(SER, LDR, T30, NESD)。分析过程逻辑清晰,使用了标准指标。扣分点在于数据集构建严重依赖特定商业助听器硬件和实验室环境,其普遍性未在其他设置中验证。
- 实验充分性 (1.5/2.5):提供了大规模的量化数据(157.5小时)和多方面的验证分析(IR一致性、用例研究)。然而,作为数据集论文,未能提供在现有先进算法(如最新的反馈消除、波束成形算法)上的基准测试结果,使得“对算法评估和训练的效用”这一核心主张缺乏直接、有力的证据支持。
- 清晰度 (1.5/2):论文结构清晰,图表丰富且信息量大,写作流畅。方法描述详尽,特别是校准流程。但部分细节(如不同耳罩的具体声学阻抗、假人头模型的详细声学参数)未提供,可能影响他人完全复现或扩展。
- 影响力 (1.0/2):对助听器音频处理社区有明确价值,填补了同时包含多变量和硬件效应的数据集空白。然而,其应用领域相对专门化,主要惠及助听器算法研究者,对更广泛的语音或音频处理社区的直接影响力有限。
- 开源 (1.0/1.5):数据集和代码均公开可用(figshare, Zenodo, GitHub),符合开源精神。但主数据集包含受限材料(LISTf/m),需通过另一个链接获取,增加了使用门槛。
- 可复现性 (1.0/1.5):论文对录制流程、参数和分析代码的描述足以让同行在类似条件下复现数据集构建过程。但完全复现依赖于特定的商业设备(Cochlear BTE/RIC组件、Cortex假人头、Genelec扬声器等)和实验室环境(EAL/SAL房间),这对于大多数实验室而言门槛较高。
- 工程/实践价值 (1.5/1.5):作为数据集构建工作,其实用价值和工程完成度很高。提供了从录制到校准的全套方案,数据集格式规范,文档详尽,可直接用于相关算法的开发和测试,是一份扎实的工程资源。
🚨 局限与问题
- 假人头模型的局限性:数据集基于单一假人头模型,未涵盖人类头相关传递函数(HRTF)的个体差异、头部运动、耳道形变等动态因素。这使得数据集在评估自适应算法或涉及真实佩戴体验的算法时存在局限。
- 声学场景的代表性不足:混响条件的变更主要通过在EAL房间内调整窗帘实现,房间几何结构固定且相对简单。SAL房间也非典型的混响室。这与真实生活场景(如办公室、客厅、街道)的复杂声学环境仍有差距。
- 硬件依赖性与普遍性:数据集构建深度依赖特定的商业BTE/RIC助听器组件和音频录制设备。不同品牌、型号助听器的麦克风/扬声器特性、非线性失真可能不同,这限制了基于此数据集训练的模型在其他硬件平台上的泛化能力。
- 应用验证深度不足:三个示例用例更侧重于分析数据集本身的声学特性(如DRR随距离/混响的变化),而非验证数据集在提升具体算法性能上的有效性。缺乏与现有基准方法的对比实验,未能量化使用该数据集可能带来的算法性能提升。
- 非线性失真分析欠深入:论文虽指出IR模型无法完全捕捉非线性失真并因此录制了音频,但除了通过SER/LDR指标间接验证IR的线性近似程度外,并未对录制设备(尤其是助听器组件)引入的非线性特性进行深入的量化分析(如谐波失真、互调失真)。
- 数据集构成细节不透明:论文提到了声源材料的来源,但未详细说明最终用于录制的每个音频文件的具体选择标准(如为何选择这些特定片段)、时长差异(30.4s - 65.0s)的原因,以及播放顺序是否随机化等可能影响数据平衡性的细节。
📷 论文图片
