HVAC-EAR: Eavesdropping Human Speech Using HVAC Systems

📄 HVAC-EAR: Eavesdropping Human Speech Using HVAC Systems #音频安全 #时频分析 #端到端 #工业应用 #鲁棒性 🔥 8.5/10 | 前25% | #音频安全 | #时频分析 | #端到端 #工业应用 学术质量 6.2/7 | 选题价值 1.8/2 | 复现加成 0.3 | 置信度 高 👥 作者与机构 第一作者:Tarikul Islam Tamiti(George Mason University, 网络安全工程系) 通讯作者:未说明 作者列表:Tarikul Islam Tamiti(George Mason University, 网络安全工程系)、Biraj Joshi(George Mason University, 网络安全工程系)、Rida Hasan(George Mason University, 网络安全工程系)、Anomadarshi Barua(George Mason University, 网络安全工程系) 💡 毒舌点评 亮点:这是一篇视角独特的安全研究论文,揭示了HVAC系统这一庞大基础设施中潜在的、令人意想不到的语音窃听渠道,并给出了从低质量信号中恢复可理解语音的完整技术方案,具有很强的现实警示意义。短板:其威胁模型的通用性值得商榷,评估仅限于特定距离(0.5m训练,1.2m测试)、单一语言(英语)和受控环境,实际复杂场景(如多重噪声、多说话人)下的鲁棒性尚未验证,可能简化了现实世界的攻击难度。 🔗 开源详情 代码:论文中未提及代码链接。 模型权重:未提及。 数据集:论文中提到“The dataset will be made open source after acceptance of the paper.”,即数据集计划在论文被接受后开源。 Demo:未提及。 复现材料:论文在附录或正文中提供了部分训练细节,如模型大小(61.6M)、损失函数的具体设计(复数多分辨率STFT损失,S=3,具体分辨率参数)、硬件(NVIDIA 4090 GPU)。但学习率、优化器、训练轮数等关键训练超参数未在提供的文本中说明。 论文中引用的开源项目:论文引用了多个作为基线的开源工作,包括NU-Wave [22]、AP-BWE [23]、AERO [24] 和 PHASEN [15],但未提及使用了其他特定的开源代码库或工具。 总结:论文有明确的开源数据集计划,并提供了部分复现信息,但整体复现材料(尤其是代码和模型权重)不完整。 📌 核心摘要 本文旨在揭示并解决利用暖通空调(HVAC)系统中的差压传感器(DPS)进行语音窃听的新型隐私威胁。核心方法是提出了HVAC-EAR,一个基于复数域U-Net的语音重建模型,它能将低采样率(0.5-2 kHz)、高噪声的DPS压力数据,重构为采样率高达8 kHz的可理解语音。与之前仅能进行关键词检测或依赖特定振动传感器的工作相比,HVAC-EAR的新颖之处在于:(1)设计了复杂统一注意力模块(CUAB),能够捕捉时频谱图上的全局音素依赖关系;(2)采用复数多分辨率短时傅里叶变换(STFT)损失,联合重建幅度和相位,有效抑制了HVAC系统的瞬态噪声。主要实验结果表明,在真实HVAC设施中,HVAC-EAR在0.5m距离下训练的模型,能在1.2m距离内重构出具有显著可懂度的语音(以STOI、PESQ、NISQA-MOS等指标衡量),性能优于NU-Wave、AERO等基线模型。例如,在0.5 kHz → 8 kHz上采样任务中,其SI-SDR为8.88 dB,显著高于原始压力数据的4.24 dB。这项工作的实际意义是首次实证了HVAC DPS可能被用作窃听工具,对医院、洁净室等敏感环境的语音隐私构成了新威胁。主要局限性是其评估距离有限(超过1.2m性能急剧下降),且仅在英语数据集上进行验证。 ...

2026-04-29

Hybrid Pruning: In-Situ Compression of Self-Supervised Speech Models for Speaker Verification and Anti-Spoofing

📄 Hybrid Pruning: In-Situ Compression of Self-Supervised Speech Models for Speaker Verification and Anti-Spoofing #说话人验证 #语音伪造检测 #自监督学习 #结构化剪枝 #低资源 🔥 8.0/10 | 前25% | #说话人验证 | #自监督学习 | #语音伪造检测 #结构化剪枝 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Junyi Peng (Brno University of Technology, Speech@FIT) 通讯作者:未说明 作者列表:Junyi Peng¹, Lin Zhang², Jiangyu Han¹, Oldřich Plchot¹, Johan Rohdin¹, Themos Stafylakis³,⁴,⁵, Shuai Wang⁶, Jan Černocký¹ (1. Speech@FIT, Brno University of Technology, Czechia; 2. Johns Hopkins University, USA; 3. Athens University of Economics and Business; 4. Omilia; 5. Archimedes/Athena R.C., Greece; 6. Nanjing University, China) 💡 毒舌点评 亮点在于优雅地将模型剪枝与任务微调合并为单阶段训练,省去了复杂的多步流水线,且在多个基准上效果拔群,甚至能充当正则化提升泛化能力;短板在于对“为什么学出的剪枝模式是这样的”这一现象的理论解释稍显薄弱,更多是现象描述而非机理剖析。 ...

2026-04-29

HyFlowSE: Hybrid End-To-End Flow-Matching Speech Enhancement via Generative-Discriminative Learning

📄 HyFlowSE: Hybrid End-To-End Flow-Matching Speech Enhancement via Generative-Discriminative Learning #语音增强 #流匹配 #端到端 #轻量化模型 🔥 8.0/10 | 前25% | #语音增强 | #流匹配 | #端到端 #轻量化模型 学术质量 6.2/7 | 选题价值 1.6/2 | 复现加成 0.3 | 置信度 高 👥 作者与机构 第一作者:Yang Zhang(杭州电子科技大学 通信工程学院) 通讯作者:Wenbin Jiang(杭州电子科技大学 通信工程学院,邮箱:wbjiang@hdu.edu.cn) 作者列表:Yang Zhang(杭州电子科技大学 通信工程学院),Wenbin Jiang(杭州电子科技大学 通信工程学院),Zhen Wang(杭州电子科技大学 通信工程学院),KaiYing Wu(杭州电子科技大学 通信工程学院),Wen Zhang(杭州电子科技大学 通信工程学院),Fei Wen(上海交通大学 信息科学与电子工程学院) 💡 毒舌点评 亮点在于巧妙地利用可微分ODE这一技术“胶水”,将本应用于生成建模的流匹配与用于精细监督的判别损失无缝融合,以端到端方式显著提升了轻量级模型的性能,方案优雅且有效。短板在于其创新主要停留在训练策略的集成上,网络架构本身(NCSN++)并无新意,且论文缺乏对判别损失如何具体指导向量场学习这一内在机制的更深入剖析。 🔗 开源详情 代码:论文中提供了项目主页链接 https://zhangyang77.github.io/HyFlowSE/,可用于访问音频样本等材料。论文中未明确提及代码仓库链接。 模型权重:未提及是否公开预训练模型权重。 数据集:使用了公开数据集(VoiceBank+DEMAND, WSJ0, DEMAND, CHiME3),并说明了部分数据生成方式(使用StoRM开源代码)。未提及是否提供预处理后的数据。 Demo:项目主页提供了音频样本,可作为在线演示。 复现材料:论文给出了模型参数规模、损失函数权重(α, β, w值)、优化器及学习率。但缺少batch size、训练步数/轮数、数据预处理细节、硬件环境等关键复现信息。 论文中引用的开源项目:引用了用于生成WSJ0数据集的 StoRM 开源代码,以及用于可微分ODE求解的 torchdiffeq 库。 总结:论文提供了部分复现信息和展示页面,但未声明开源计划,也未提供完全复现所需的全部细节。 📌 核心摘要 解决的问题:纯生成式的流匹配语音增强模型在追求轻量化(参数少)和高效率(低NFE)时,性能会显著下降,而现有的级联或两阶段解决方案会引入额外的推理步骤,增加计算开销,违背了流匹配高效推理的初衷。 方法核心:提出HyFlowSE框架,其核心是将标准的条件流匹配(CFM)生成损失与一个由L1损失、多分辨率STFT谱收敛损失和对数STFT幅度损失组成的判别性损失相结合。通过利用可微分的神经常微分方程(Neural ODE)求解器,这两个损失可以在一次前向传播中计算,并实现端到端联合优化。 与已有方法的新颖之处:与需要级联多个流模型(如CasFlowSE)或依赖预训练判别模型的方法不同,HyFlowSE在单一模型和单次推理流程中集成了生成与判别目标,不增加推理时的NFE,实现了效率与性能的兼得。 主要实验结果:在VoiceBank+DEMAND数据集上,仅5.2M参数的HyFlowSE(T)模型在PESQ(3.21)上超过了65.6M参数的FlowSE(3.12)。在更具挑战性的WSJ0+CHiME3低信噪比(L)场景下,HyFlowSE(T)(5.2M)的PESQ达到3.09,大幅超越27.8M参数的FlowSE(M)(2.64)和CasFlowSE(2.64)。在混响条件下(WSJ0+Reverb),其PESQ(2.95)也优于FlowSE(M)(2.45)和CasFlowSE(2.80)。 实际意义:为在资源受限设备上部署高性能语音增强系统提供了新路径。它表明通过精心的训练目标设计,可以用更小的模型达到甚至超越大模型的性能,对降低算法落地成本和功耗有直接价值。 主要局限性:网络骨干(NCSN++)并非新颖设计,创新性集中在训练目标上。论文未详细分析混合损失中各项权重的敏感性及其背后的机理。实验未与更多非流匹配的轻量级判别模型(如DCCRN等)进行对比,难以全面评估其在轻量化模型谱系中的绝对位置。 🏗️ 模型架构 HyFlowSE是一个端到端的语音增强框架,其整体架构如图1所示。 ...

2026-04-29

I-DCCRN-VAE: An Improved Deep Representation Learning Framework for Complex VAE-Based Single-Channel Speech Enhancement

📄 I-DCCRN-VAE: An Improved Deep Representation Learning Framework for Complex VAE-Based Single-Channel Speech Enhancement #语音增强 #变分自编码器 #预训练 #鲁棒性 ✅ 7.5/10 | 前25% | #语音增强 | #变分自编码器 | #预训练 #鲁棒性 学术质量 7.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Jiatong Li(Carl von Ossietzky Universität Oldenburg, 医学物理与声学系及 Hearing4all 卓越集群) 通讯作者:未说明(两位作者并列提供邮箱,未明确指定通讯作者) 作者列表:Jiatong Li(Carl von Ossietzky Universität Oldenburg, 医学物理与声学系及 Hearing4all 卓越集群)、Simon Doclo(Carl von Ossietzky Universität Oldenburg, 医学物理与声学系及 Hearing4all 卓越集群) 💡 毒舌点评 本文像一位严谨的工程师,将VAE语音增强系统的“后门”(跳跃连接)焊死,强迫其从潜在空间“真正学习”,并用β-VAE的旋钮精细调节学习内容,结果泛化能力显著提升。然而,改进更多是“修补”与“优化”现有架构,缺乏从根本上改变游戏规则的洞见,且未能与当前生成模型SOTA(如基于扩散模型的方法)同台竞技,使其影响力打了折扣。 ...

2026-04-29

IBPCodec : A Low-Bitrate Lightweight Speech Codec With Inter-Band Prediction

📄 IBPCodec : A Low-Bitrate Lightweight Speech Codec With Inter-Band Prediction #语音编码 #语音合成 #信号处理 #轻量模型 #流式处理 ✅ 7.0/10 | 前25% | #语音编码 | #信号处理 | #语音合成 #轻量模型 学术质量 5.5/7 | 选题价值 1.0/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Peng Zhou(北京理工大学) 通讯作者:Shenghui Zhao*(北京理工大学) 作者列表:Peng Zhou(北京理工大学),Xiaojiao Chen(北京理工大学),Pincheng Lu(北京理工大学),Jing Wang(北京理工大学),Shenghui Zhao*(北京理工大学) 💡 毒舌点评 亮点:论文精准抓住了“低比特率下低频更重要”这一经典信号处理直觉,并将其与神经网络结合,通过一个轻量的带间预测模块(IBPM)在解码端“猜”出高频,以极小的计算代价(0.35 GMACs)实现了有竞争力的性能,这种“巧劲”值得在资源受限场景下借鉴。 短板:IBPM目前的结构(三层逐点卷积)过于简单,其预测能力存在明显天花板(当P=0.5时质量下降),本质上仍是低频信息的线性外推,论文未探讨更强大的生成式预测模型(如扩散模型)的可能性;此外,模型在1 kbps下的绝对质量(PESQ 2.2)距离“可用”仍有距离,创新性更多是工程上的巧妙设计而非原理性突破。 🔗 开源详情 代码:论文中未提及代码链接。 模型权重:论文中未提及。 数据集:使用了LibriTTS和VCTK公开数据集,但论文中未提供具体的数据预处理脚本或说明。 Demo:论文中未提及。 复现材料:论文中提供了详细的训练硬件(单卡RTX 3090)、优化器参数、学习率调度、STFT参数、模型结构配置(层数、通道数、卷积核大小等),复现指导较为充分。 引用的开源项目:论文提到了FunCodec、FocalCodec、Hifi-codec等开源工具或相关工作,但未明确说明IBPCodec的代码是否基于或借鉴了这些项目。 📌 核心摘要 这篇论文针对当前神经语音编解码器计算复杂度过高、难以在边缘设备部署的问题,提出了一种名为IBPCodec的低比特率轻量级语音编解码器。其核心方法是优先对输入语音的低频部分(占比P=75%)进行编码和量化传输,在解码端利用一个轻量的带间预测模块(IBPM)从解码出的低频信息中预测高频成分,从而恢复完整语音。与先前直接丢弃高频或整体编码的方法相比,该创新点在于将频带优先传输与神经预测相结合。实验结果显示,在16 kHz采样率、1-3 kbps比特率下,IBPCodec的计算复杂度仅为0.35 GMACs(远低于DAC的55.66G和SpeechTokenizer的17.09G),其PESQ、SI-SDR等客观指标及MUSHRA主观评分均优于或持平FreqCodec、SpeechTokenizer等基线。该工作的实际意义在于为低功耗设备上的实时语音通信提供了一种高效的编解码方案。其主要局限性在于IBPM的预测能力有限,在更低频带占比(P=0.5)时性能下降,且模型在极低比特率下的绝对语音质量仍有提升空间。 ...

2026-04-29

ICASSP 2026 - 主动噪声控制 论文列表

ICASSP 2026 - 主动噪声控制 共 1 篇论文 ← 返回 ICASSP 2026 总览 排名 论文 评分 分档 🥇 Synchronous Secondary Path Modeling and Kronecker-Factorized 7.0分 前25% 📋 论文详情 🥇 Synchronous Secondary Path Modeling and Kronecker-Factorized Adaptive Algorithm for Multichannel Active Noise Control ✅ 7.0/10 | 前25% | #主动噪声控制 | #Kronecker分解 #信号处理 | #Kronecker分解 #信号处理 👥 作者与机构 第一作者:Siyuan Lian(南京大学现代声学实验室,南京大学-蔚来智能音频实验室) 通讯作者:未说明 作者列表:Siyuan Lian(南京大学现代声学实验室,南京大学-蔚来智能音频实验室)、Lu Bai(南京大学现代声学实验室,南京大学-蔚来智能音频实验室)、Tianyou Li(南京大学现代声学实验室,南京大学-蔚来智能音频实验室)、Kai Chen(南京大学)、Jing Lu(南京大学现代声学实验室,南京大学-蔚来智能音频实验室) 💡 毒舌点评 这篇论文的亮点在于将Kronecker分解(KPD)这一经典工具巧妙地“移植”到多通道ANC的次级路径建模中,利用声学路径天然的低秩特性实现了“又快又准”的同步建模,思路清晰且实验验证扎实。然而,其短板在于对“低秩性”这一核心假设的普适性讨论略显不足,且在实际系统部署中如何动态选择最优秩P值缺乏指导,使得该方法更像是一个针对特定场景(空间相关性强)的优化,而非普适的解决方案。 🔗 开源详情 代码:论文中未提及代码链接。 模型权重:未提及。 数据集:实验数据为自采集,未提及公开。 Demo:未提供在线演示。 复现材料:论文给出了部分关键参数(采样率、滤波器长度、J₁/J₂值、步长),但未提供完整的训练/测试脚本、配置文件或预训练检查点。 论文中引用的开源项目:未提及依赖的开源工具或模型。 总结:论文中未提及开源计划。 📌 核心摘要 ...

2026-04-29

ICASSP 2026 - 主动降噪 论文列表

ICASSP 2026 - 主动降噪 共 1 篇论文 ← 返回 ICASSP 2026 总览 排名 论文 评分 分档 🥇 Joint Estimation of Primary and Secondary Paths for Personal 7.5分 前25% 📋 论文详情 🥇 Joint Estimation of Primary and Secondary Paths for Personalized Hearable Applications ✅ 7.5/10 | 前25% | #主动降噪 | #信号处理 | #自适应滤波器 #实时处理 👥 作者与机构 第一作者:未说明(论文未明确标注) 通讯作者:未说明(论文未明确标注) 作者列表:Sooyeon Park (Samsung Research, Seoul, South Korea), Kyoungbo Min (Samsung Research, Seoul, South Korea), Seungdo Choi (Samsung Research, Seoul, South Korea), Ikchae Jeong (Samsung Research, Seoul, South Korea), Hosang Sung (Samsung Research, Seoul, South Korea) 💡 毒舌点评 ...

2026-04-29

ICASSP 2026 - 主题建模 论文列表

ICASSP 2026 - 主题建模 共 1 篇论文 ← 返回 ICASSP 2026 总览 排名 论文 评分 分档 🥇 ST-HNTM: Joint Speech-Text Neural Topic Modeling on the Hype 7.0分 前25% 📋 论文详情 🥇 ST-HNTM: Joint Speech-Text Neural Topic Modeling on the Hypersphere ✅ 7.0/10 | 前25% | #主题建模 | #多模态模型 | #超球面表示 #语音理解 👥 作者与机构 第一作者:Dayu Guo†(北京师范大学-香港浸会大学联合国际学院,计算机科学系) 通讯作者:Wentao Fan*(北京师范大学-香港浸会大学联合国际学院,计算机科学系) 作者列表:Dayu Guo†(北京师范大学-香港浸会大学联合国际学院,计算机科学系),Zhiwen Luo†(康考迪亚大学,信息系统工程学院),Nizar Bouguila(康考迪亚大学,信息系统工程学院),Wentao Fan*(北京师范大学-香港浸会大学联合国际学院,计算机科学系) 💡 毒舌点评 该论文首次将语音与文本在超球面潜在空间中联合建模,架构设计逻辑清晰,实验结果在多项指标上显示显著提升。然而,其核心任务“主题建模”在当前AI研究中已属相对传统领域,且论文中对比的多数基线模型较为陈旧,对最新多模态或超球面主题建模方法的覆盖有限,这在一定程度上限制了其结论的前沿性和说服力。 🔗 开源详情 代码:论文中未提及代码链接。 模型权重:未提及。 数据集:使用了公开数据集LibriSpeech和TEDLIUM-Release3,但未提供定制的数据集或预处理工具。 Demo:未提供。 复现材料:论文提供了一定的训练细节(优化器、学习率、轮数、超参数初始值等),但缺乏完整的代码和配置文件。 论文中引用的开源项目:依赖预训练词嵌入glove-wiki-gigaword-100和预训练语音模型wav2vec2-base-960h。 总体:论文中未提及开源计划。 📌 核心摘要 ...

2026-04-29

ICASSP 2026 - 信号处理 论文列表

ICASSP 2026 - 信号处理 共 2 篇论文 ← 返回 ICASSP 2026 总览 排名 论文 评分 分档 🥇 Distributed Multichannel Active Noise Control with Asynchron 8.0分 前25% 🥈 A Noniterative Phase Retrieval Considering the Zeros of STFT 7.5分 前25% 📋 论文详情 🥇 Distributed Multichannel Active Noise Control with Asynchronous Communication 🔥 8.0/10 | 前25% | #信号处理 | #分布式算法 | #多通道 #实时处理 👥 作者与机构 第一作者:Junwei Ji(南洋理工大学电气与电子工程学院) 通讯作者:未说明(但根���邮箱和贡献,可能是Woon-Seng Gan) 作者列表: Junwei Ji(南洋理工大学电气与电子工程学院) Dongyuan Shi(西北工业大学海洋科学与技术学院) Boxiang Wang(南洋理工大学电气与电子工程学院) Ziyi Yang(南洋理工大学电气与电子工程学院) Haowen Li(南洋理工大学电气与电子工程学院) Woon-Seng Gan(南洋理工大学电气与电子工程学院) 💡 毒舌点评 ...

2026-04-29

ICASSP 2026 - 关键词检测 论文列表

ICASSP 2026 - 关键词检测 共 2 篇论文 ← 返回 ICASSP 2026 总览 排名 论文 评分 分档 🥇 SynaSpot: A Lightweight, Streaming Multi-modal Framework for 7.5分 前25% 🥈 MT-HuBERT: Self-Supervised Mix-Training for Few-Shot Keyword 7.0分 前25% 📋 论文详情 🥇 SynaSpot: A Lightweight, Streaming Multi-modal Framework for Keyword Spotting with Audio-Text Synergy ✅ 7.5/10 | 前25% | #关键词检测 | #多模态模型 | #流式处理 #对比学习 👥 作者与机构 第一作者:Kewei Li (†等贡献) (阿里巴巴集团,智能互联) 通讯作者:Xiaotao Liang (∗) (阿里巴巴集团,智能互联) 作者列表:Kewei Li†, Yinan Zhong†, Xiaotao Liang∗, Tianchi Dai, Shaofei Xue(所有作者均隶属于:Intelligent Connectivity, Alibaba Group, Hangzhou, China) 💡 毒舌点评 ...

2026-04-29