Distributed Multichannel Active Noise Control with Asynchronous Communication

📄 Distributed Multichannel Active Noise Control with Asynchronous Communication #信号处理 #分布式算法 #多通道 #实时处理 🔥 8.0/10 | 前25% | #信号处理 | #分布式算法 | #多通道 #实时处理 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Junwei Ji(南洋理工大学电气与电子工程学院) 通讯作者:未说明(但根���邮箱和贡献,可能是Woon-Seng Gan) 作者列表: Junwei Ji(南洋理工大学电气与电子工程学院) Dongyuan Shi(西北工业大学海洋科学与技术学院) Boxiang Wang(南洋理工大学电气与电子工程学院) Ziyi Yang(南洋理工大学电气与电子工程学院) Haowen Li(南洋理工大学电气与电子工程学院) Woon-Seng Gan(南洋理工大学电气与电子工程学院) 💡 毒舌点评 论文巧妙地将权重约束与异步触发机制结合,为分布式降噪系统提供了一个通信友好的实用方案,仿真实验也扎实地证明了其在降低通信开销方面的显著效果。然而,其核心创新是工程组合而非理论突破,且实验仅限于仿真环境,未在真实异步、有延迟的网络条件下进行验证,说服力打了折扣。 🔗 开源详情 代码:论文中提供了代码仓库链接:https://github.com/Ji-Junwei/ACDMCANC。代码将在该链接发布。 模型权重:未提及。 数据集:论文中使用的声学路径数据在真实噪声室中测量,未说明是否公开或如何获取。 Demo:未提及。 复现材料:论文给出了关键仿真参数(节点数、滤波器长度、步长、惩罚因子、采样率)和系统设置,但未提供声学路径的具体数据、补偿滤波器的估计方法细节或代码配置文件。复现需要基于这些参数自行搭建仿真环境或获取原始声学测量数据。 论文中引用的开源项目:未明确引用其他依赖的开源工具或模型。 📌 核心摘要 问题:传统的分布式多通道主动噪声控制(DMCANC)方法通常假设节点间同步且频繁地通信,导致通信开销过高,难以适应异构或资源受限的网络环境。 方法核心:提出异步通信DMCANC系统。每个节点独立运行权重约束的FxLMS(WCFxLMS)算法,在通信间隔期间保持稳定。节点根据本地噪声抑制性能的下降情况自主决定是否发起通信请求。响应时,其他节点仅传输其控制滤波器与中心点的权重差(weight difference),并通过混合权重差(MWD)操作融合信息,更新本地控制滤波器和中心点。 新意:与现有同步、每采样点都通信的分布式方法不同,该方法实现了按需、异步通信,大幅减少了通信次数。WCFxLMS确保了非通信期间的稳定性,MWD规则实现了异步信息的有效融合。 实验结果:在6节点系统中进行仿真。图3(a)显示,在抑制100-1000Hz宽带噪声时,ACDMCANC的降噪性能(ANSE)略低于集中式MEFxLMS和同步MGDFxLMS,但显著优于无通信的基准。图3(b)表明节点通信时间点不同,验证了异步性。图4(a)(b)在真实压缩机噪声下,ACDMCANC同样表现出有效的降噪性能,但收敛稍慢。关键数据:在图3(a)中,15秒时ACDMCANC的ANSE约比MEFxLMS差5-8 dB,但实现了“通信实例”的大幅减少(图3(b)显示节点1和2在15秒内仅分别触发通信约4次和2次)。 实际意义:该方法降低了对网络通信带宽和实时性的要求,提升了分布式降噪系统在异构网络中的可部署性、扩展性和鲁棒性。 局限性:由于异步通信和权重约束,其收敛速度和最终降噪性能略逊于完全同步通信的方法。仿真实验未考虑实际网络中的传输延迟和丢包问题。 🏗️ 模型架构 论文提出的ACDMCANC系统是一个分布式自适应信号处理系统,其核心架构由多个功能相同的ANC节点组成。每个节点包含一个参考传感器(共享)、一个次级声源、一个误差传声器和一个负责通信与处理的ANC控制器。图2展示了第k个节点的详细框图。 ...

2026-04-29 · 更新于 2026-05-19 · 2 min · 216 words

Enhancing Automatic Drum Transcription with Online Dynamic Few-Shot Learning

📄 Enhancing Automatic Drum Transcription with Online Dynamic Few-Shot Learning #音乐信息检索 #少样本学习 #领域适应 #实时处理 ✅ 7.0/10 | 前25% | #音乐信息检索 | #少样本学习 | #领域适应 #实时处理 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 -0.5 | 置信度 高 👥 作者与机构 第一作者:Philipp Weyers (Fraunhofer Institute for Integrated Circuits (IIS), Germany) 通讯作者:未说明(论文中作者列表后未明确标注通讯作者) 作者列表:Philipp Weyers (Fraunhofer IIS), Christian Uhle (Fraunhofer IIS & International Audio Laboratories Erlangen), Meinard Müller (Fraunhofer IIS & International Audio Laboratories Erlangen), Matthias Lang (Fraunhofer IIS)。 💡 毒舌点评 亮点是首次在ADT中提出一种无需人工标注、支持流式处理的在线自适应方法,将少样本学习从“学习新类”巧妙地转化为“适配已知类的音色”,思路清晰且工程价值明确。短板在于,消融分析揭示其宣称的“在线自适应”带来的实际性能提升在部分数据集上有限,大部分性能增益其实来自离线训练阶段的优化(如第二阶段训练),这使得在线部分的贡献显得有些“锦上添花”而非核心突破。 ...

2026-04-29 · 更新于 2026-05-19 · 2 min · 245 words

Fast-ULCNet: A Fast and Ultra Low Complexity Network for Single-Channel Speech Enhancement

📄 Fast-ULCNet: A Fast and Ultra Low Complexity Network for Single-Channel Speech Enhancement #语音增强 #循环神经网络 #低资源 #实时处理 ✅ 7.5/10 | 前25% | #语音增强 | #循环神经网络 | #低资源 #实时处理 学术质量 7.5/7 | 选题价值 7.0/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Nicolás Arrieta Larraza (Bang & Olufsen, Allé 1 7600 Struer, Denmark) 通讯作者:未说明 作者列表:Nicolás Arrieta Larraza (Bang & Olufsen), Niels de Koeijer (Bang & Olufsen) 💡 毒舌点评 亮点: 论文敏锐地发现了FastGRNN在长序列推理时的“状态漂移”这一实用陷阱,并受传感器互补滤波启发提出了一个优雅、轻量且可训练的修复方案(Comfi-FastGRNN),体现了从工程实践中发现问题并解决问题的能力。短板: 创新主要是将一个已有的轻量RNN架构(FastGRNN)替换到另一个轻量模型(ULCNet)中,本质是模块替换,在短音频(10秒)标准评测集上并未带来性能提升甚至略有损失,其核心贡献更偏向于“工程优化”而非“算法突破”。 🔗 开源详情 代码:提供了GitHub仓库链接:https://github.com/narrietal/Fast-ULCNet。 模型权重:论文中未提及是否公开预训练模型权重。 数据集:使用公开的Interspeech 2020 DNS Challenge数据集,但未提供额外获取途径说明。 Demo:提供了在线演示链接:https://narrietal.github.io/Fast-ULCNet/。 复现材料:提供了详细的架构实现细节(如网络层配置、损失函数)、训练设置(优化器、学习率、批大小等)和超参数,有助于复现。 依赖的开源项目:论文中未明确列出依赖的其他开源工具/模型。 📌 核心摘要 问题:单通道语音增强算法需要在资源受限的嵌入式设备上运行,要求极低的计算复杂度和延迟。 方法核心:本文提出Fast-ULCNet,将现有低复杂度模型ULCNet中的GRU层替换为更轻量的FastGRNN层,以进一步降低计算开销和延迟。 新发现与创新:研究发现FastGRNN在推理长音频信号(>60秒)时性能会因内部状态漂移而下降。为此,提出了Comfi-FastGRNN,通过一个可训练的互补滤波器模块来抑制状态漂移。 主要实验结果:在DNS Challenge 2020数据集上,Fast-ULCNet在10秒测试集上与原始ULCNet性能相当;在90秒长测试集上,未经改进的FastGRNN性能显著下降,而Comfi-FastGRNN版本则恢复了稳定性,与ULCNet持平。模型参数量减少超过一半(从0.685M降至0.338M),在Raspberry Pi 3 B+上的平均实时因子(RTF)降低约34%(从0.976降至0.657)。 实际意义:该工作使得高性能语音增强模型更容易部署到智能耳机、助听器等低功耗实时设备上。 主要局限性:长序列评估仅通过拼接自身构造,可能不完全反映真实世界的持续流式处理场景;在短序列标准基准上,Fast-ULCNet的PESQ和SI-SDR指标略低于原始ULCNet。 🏗️ 模型架构 Fast-ULCNet的架构基于ULCNet,主要分为两个阶段: ...

2026-04-29 · 更新于 2026-05-19 · 2 min · 265 words

FastEnhancer: Speed-Optimized Streaming Neural Speech Enhancement

📄 FastEnhancer: Speed-Optimized Streaming Neural Speech Enhancement #语音增强 #神经网络 #流式处理 #实时处理 🔥 8.5/10 | 前25% | #语音增强 | #神经网络 | #流式处理 #实时处理 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 1.0 | 置信度 高 👥 作者与机构 第一作者:Sunghwan Ahn(首尔大学电气与计算机工程系,INMC) 通讯作者:未说明(论文中提供了多位作者的邮箱,但未明确指定通讯作者) 作者列表:Sunghwan Ahn(首尔大学电气与计算机工程系,INMC)、Jinmo Han(首尔大学电气与计算机工程系,INMC)、Beom Jun Woo(首尔大学电气与计算机工程系,INMC)、Nam Soo Kim(首尔大学电气与计算机工程系,INMC) 💡 毒舌点评 亮点在于它像一位精明的工程师,将“简单即高效”的哲学贯穿始终,用看似基础的编码器-解码器和精心挑选的RNNFormer模块,在单CPU线程上跑出了碾压一众复杂架构的推理速度,证明了花哨不等于高效。短板则是其架构的核心创新(RNNFormer的特定组合)更像是一个面向工程目标的“最优配置”而非颠覆性理论突破,且论文并未深入探讨模型在极端非平稳噪声或严重混响下的性能边界。 🔗 开源详情 代码:提供代码仓库链接:https://github.com/aask1357/fastenhancer 模型权重:明确提及提供预训练权重(见论文脚注1)。 数据集:使用公开的VCTK-Demand数据集,论文中未提供获取链接,但该数据集��常用公开数据集。 Demo:论文中未提及提供在线演示。 复现材料:提供了详细的模型架构图、所有模型尺寸的配置表(表1)、完整的损失函数公式、训练优化器、学习率调度、批大小等关键超参数,复现信息较为充分。 论文中引用的开源项目:使用了ONNXRuntime进行推理性能评估,使用了torch-pesq计算PESQ损失。 📌 核心摘要 这篇论文针对流式语音增强任务中,现有深度学习模型虽然参数量和MACs减少,但因架构复杂导致在通用硬件(如单CPU线程)上实际推理延迟高的问题,提出了FastEnhancer模型。其方法核心是采用一个简单的编码器-解码器结构,并引入了一种新型的RNNFormer模块,该模块在时间轴使用高效的GRU,在频率轴使用多头自注意力机制(MHSA),以兼顾低延迟流式处理与全局频率关系建模。与先前研究相比,新方法摒弃了复杂的子带分解和分组DPRNN设计,转而追求架构的简洁性和针对速度的优化(如仅使用时间轴卷积核大小为1的卷积、可融合的批归一化层)。主要实验结果在VCTK-Demand数据集上显示,FastEnhancer在多个尺寸配置下均达到了SOTA的语音质量和可懂度指标(例如,FastEnhancer-B在PESQ上达到3.13,STOI达到94.5%),同时实现了所有对比模型中最低的实时因子(RTF),其中FastEnhancer-T在Xeon CPU上的RTF仅为0.012。该工作的实际意义在于为实时、资源受限的设备(如助听器、智能家居)提供了一个高性能且超低延迟的语音增强解决方案。主要局限性是论文的实验主要集中在客观指标和特定硬件上的RTF,未报告主观听感测试或在更多样化的真实噪声场景下的泛化性能,且对模型处理极端复杂声学条件的能力探讨不足。 实验结果表格1:在VCTK-Demand数据集上的性能对比 模型 参数量 (K) MACs RTF (Xeon) RTF (M1) DNSMOS (P.808) SISDR PESQ STOI ESTOI WER GTCRN 24 40M 0.060 0.042 3.43 18.8 2.87 0.940 0.848 3.6 LiSenNet (可流式) 37 56M 0.034 0.028 3.42 18.5 2.98 0.941 0.851 3.4 FSPEN 79 64M 0.046 0.038 3.40 18.4 3.00 0.942 0.850 3.6 BSRNN 334 245M 0.059 0.062 3.44 18.9 3.06 0.942 0.855 3.4 FastEnhancer-T 22 55M 0.012 0.013 3.42 18.6 2.99 0.940 0.850 3.6 FastEnhancer-B 92 262M 0.022 0.026 3.47 19.0 3.13 0.945 0.861 3.2 FastEnhancer-S 195 664M 0.034 0.048 3.49 19.2 3.19 0.947 0.866 3.2 FastEnhancer-M 492 2.9G 0.101 0.173 3.48 19.4 3.24 0.950 0.873 2.8 FastEnhancer-L 1105 11G 0.313 0.632 3.53 19.6 3.26 0.952 0.877 3.1 实验结果表格2:消融研究 ...

2026-04-29 · 更新于 2026-05-19 · 2 min · 421 words

FlashFoley: Fast Interactive Sketch2audio Generation

📄 FlashFoley: Fast Interactive Sketch2audio Generation #音频生成 #流匹配 #对抗训练 #实时处理 ✅ 7.5/10 | 前25% | #音频生成 | #流匹配 | #对抗训练 #实时处理 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度 高 👥 作者与机构 第一作者:Zachary Novack (UC San Diego; Sony Group Corporation, Japan) 通讯作者:Christian Simon† (Sony AI, USA) (论文中标注†为“Project lead”,通常可视为通讯作者) 作者列表:Zachary Novack¹,²,Koichi Saito³,Zhi Zhong²,Takashi Shibuya³,Shuyang Cui²,Julian McAuley¹,Taylor Berg-Kirkpatrick¹,Christian Simon²†,Shusuke Takahashi²,Yuki Mitsufuji²,³ ¹ UC – San Diego ² Sony Group Corporation, Japan ³ Sony AI, USA 💡 毒舌点评 亮点:这篇论文精准地切中了当前交互式音频生成工具的一个核心痛点——“精细控制”与“实时速度”不可兼得,并给出了一个工程上巧妙且相对完整的解决方案,首次将开源加速的草图到音频模型带入实时交互场景。 短板:虽然方法组合很实用,但核心的“创新”更多是已有技术(草图控制、ARC后训练、流式生成)的整合与适配,缺乏根本性的理论突破;另外,文中“开源”的承诺尚未在论文发布时兑现,这削弱了其作为“首个开源”模型的即时影响力。 ...

2026-04-29 · 更新于 2026-05-19 · 2 min · 329 words

H-nnPBFDAF: Hierarchical Neural Network Partitioned Block Frequency Domain Adaptive Filter with Novel Block Activation Probability

📄 H-nnPBFDAF: Hierarchical Neural Network Partitioned Block Frequency Domain Adaptive Filter with Novel Block Activation Probability #语音增强 #信号处理 #时频分析 #实时处理 #低资源 ✅ 7.5/10 | 前25% | #语音增强 | #信号处理 | #时频分析 #实时处理 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度 高 👥 作者与机构 第一作者:Jitao Ma(浙江大华技术股份有限公司)(论文标注为共同第一贡献) 通讯作者:Ruidong Fang(浙江大华技术股份有限公司) 作者列表:Jitao Ma(浙江大华技术股份有限公司),Jingbiao Huang(浙江大华技术股份有限公司),Ruidong Fang(浙江大华技术股份有限公司),Jucai Lin(浙江大华技术股份有限公司),Han Xue(浙江大华技术股份有限公司),Yapeng Mao(浙江大华技术股份有限公司),Jun Yin(浙江大华技术股份有限公司) 💡 毒舌点评 本文亮点在于提出了“块激活概率”这一巧妙机制,用一个紧凑的神经网络同时解决了传统自适应滤波器步长选择和滤波器长度固定两大痛点,且计算开销极低。然而,纯线性框架可能在处理设备扬声器严重非线性失真时存在天花板,而论文中的对比实验(如与Deep Adaptive AEC的比较)也显示在复杂场景下其性能仍不及更重的混合方法,且代码未开源限制了复现价值。 🔗 开源详情 代码:论文中未提及代码链接。 模型权重:未提及公开权重。 数据集:论文中使用的LibriSpeech、DNS Challenge、SLR28、Aachen Impulse Response、AEC Challenge数据集均为公开可获取的。 Demo:未提及在线演示。 复现材料:论文提供了模型架构概述、关键公式和部分训练数据设置,但缺乏详细的训练超参数(优化器、学习率、batch size等)、训练硬件信息以及最终模型的具体配置,复现难度较高。 论文中引用的开源项目: 数据集:LibriSpeech [17], DNS Challenge [18], SLR28 [19], Aachen Impulse Response [20], AEC Challenge Dataset [21]。 工具:AECMOS评估工具包 [23]。 对比方法:公开的NKF Demo [12], Deep Adaptive AEC [10]。 开源计划:论文中未提及开源计划。 📌 核心摘要 问题:在低成本消费设备上部署声学回声消除(AEC)时,传统自适应滤波器(如PBFDAF)面临步长选择困难、滤波器长度需手动固定以适应不同回声路径、以及现有神经网络混合方法计算成本过高的挑战。 方法核心:提出神经网络分块频域自适应滤波器(nnPBFDAF)。核心是一个轻量神经网络,它同时估计频域步长向量(用于替代固定步长)和块激活概率向量(每个分块一个概率值)。块激活概率向量的和可用于间接控制有效滤波器长度,实现自动适应。进一步提出两阶段层次结构(H-nnPBFDAF),第一阶段估计的回声作为第二阶段的参考信号,以提升鲁棒性。 创新点:a) 将神经网络步长估计与PBFDAF深度融合;b) 引入块激活概率向量,首次解决了固定分块数PBFDAF无法自适应不同回声路径长度的难题;c) 设计两阶段级联架构(H-nnPBFDAF),以粗到精的方式提升回声估计精度。 实验结果:在三个测试集上进行评估。如表1所示,在模拟短回声路径(Subset 1)上,H-nnPBFDAF的PESQ为3.12,ERLE为34.57 dB,优于传统PBFDKF(PESQ 2.93, ERLE 25.77 dB)。在AEC Challenge盲测集(Subset 2)上,H-nnPBFDAF在双讲回声评价(DT-E)得分为3.40,略低于Deep Adaptive AEC(4.40),但计算复杂度仅为其约1/26。在真实消费设备数据(Subset 3)上,H-nnPBFDAF的ERLE为21.47 dB,显著优于NKF(7.29 dB)。消融实验(表2)证实,采用块激活概率的nnPBFDAF在不同回声路径长度下的平均PESQ(2.87)优于所有固定分块数模型。 实际意义:该方法在极低计算开销(仅占ARM Cortex-A35单核<9%资源)下实现了高性能AEC,并能自动适应回声路径变化,非常适合资源受限的消费类电子产品(如智能音箱、会议设备)部署,且模型已实际部署。 主要局限性:作为线性AEC框架,对高度非线性失真的回声消除能力可能有限;神经网络部分的具体结构和训练策略细节(如优化器、学习率)未完全公开;代码未开源。 🏗️ 模型架构 模型的核心是nnPBFDAF模块,其整体流程和内部结构如下图所示: ...

2026-04-29 · 更新于 2026-05-19 · 2 min · 405 words

Huí Sù: Co-constructing a Dual Feedback Apparatus

📄 Huí Sù: Co-constructing a Dual Feedback Apparatus #音乐生成 #生成模型 #实时处理 #信号处理 📝 5.5/10 | 后50% | #音乐生成 | #生成模型 | #实时处理 #信号处理 | arxiv 学术质量 5.0/7 | 选题价值 2.0/2 | 复现加成 -1.0 | 置信度 高 👥 作者与机构 第一作者:Yichen Wang(The Australian National University) 通讯作者:未说明(论文未明确指定通讯作者,但提供了两位作者的邮箱) 作者列表:Yichen Wang(The Australian National University, Canberra, ACT, Australia)、Charles Patrick Martin(The Australian National University, Canberra, ACT, Australia) 💡 毒舌点评 论文提出了一个有趣且概念完整的“双反馈”智能乐器二重奏系统,巧妙地将AI在音频潜空间和MIDI控制流中的反馈作用进行对比与融合,为表演艺术提供了新的交互范式。然而,其致命短板在于完全缺乏任何形式的定量评估、对比实验或详细的可复现技术描述,使得整个工作停留在艺术项目展示层面,学术严谨性和可复现性严重不足。 🔗 开源详情 代码:论文中未提及代码链接。 模型权重:未提及公开模型权重。 数据集:未提及。 Demo:提供了表演视频作为在线演示:https://doi.org/10.5281/zenodo.19673150。 复现材料:未提供训练细节、配置、检查点或附录说明。 论文中引用的开源项目:明确提到了使用RAVE模型(具体引用了 rave:caillon2021, ravemodels:acids)。Agentier中的MDRNN架构引用了Martin2019。 总结:论文中未提及开源计划。 📌 核心摘要 这篇论文是NIME‘26的一场艺术表演提案,旨在探索两个智能乐器“溯”(Sù)和“Agentier”通过反馈回路与人类表演者进行二重奏。要解决的问题是如何在音乐表演中实现人与AI更深度的共同创作,而非单向控制。其方法核心是构建两个对比系统:“溯”在音频潜空间(基于RAVE模型)引入潜变量反馈,使音色演变具有时序连续性;“Agentier”在MIDI控制空间(基于MDRNN模型)引入控制信号反馈,使系统能生成和延续演奏手势。与已有方法相比,新在将“反馈”这一概念系统地拆解并实现在音乐生成的两个不同层面(音频与控制),并将其置于协同表演的语境中。主要实验结果未提供定量数据,仅通过一段12分钟的即兴表演视频(链接:https://doi.org/10.5281/zenodo.19673150)进行概念验证,展示了系统在实际演出中的可行性。实际意义在于为智能乐器设计和人机交互艺术实践提供了新的思路和系统原型。主要局限性在于缺乏可量化的性能评估、对比研究以及详细的技术复现信息。 ...

2026-04-29 · 更新于 2026-05-19 · 1 min · 149 words

ICASSP 2026 - 实时处理 论文列表

ICASSP 2026 - 实时处理 共 1 篇论文 ← 返回 ICASSP 2026 总览 排名 论文 评分 分档 🥇 A Personalized Real-Time Proactive Voice Memory Assistant 7.0分 前50% 📋 论文详情 🥇 A Personalized Real-Time Proactive Voice Memory Assistant ✅ 7.0/10 | 前50% | #实时处理 | #大语言模型 | #语音识别 #说话人识别 👥 作者与机构 第一作者:Hao Zhou (Samsung Research America, The Pennsylvania State University) - 根据作者列表顺序和标注“†”判断。 通讯作者:论文中未明确标注通讯作者。 作者列表:Hao Zhou¹²†, Md Mahbubur Rahman¹, Simon A. Lee¹³†, Baiying Lu¹⁴†, Juhyeon Lee¹⁵†, Cyrus Tanade¹, Megha Thukral¹⁶†, Md. Sazzad Hissain Khan⁷, Samsad Ul Islam⁷, Subramaniam Venkatraman¹, Sharanya Arcot Desai¹。 机构信息:¹Samsung Research America, ²The Pennsylvania State University, ³University of California, Los Angeles, ⁴Dartmouth, ⁵University of Massachusetts Amherst, ⁶Georgia Institute of Technology, ⁷Samsung Research Bangladesh。标注“†”表示工作在三星研究美国实习期间完成。 💡 毒舌点评 ...

2026-04-29 · 更新于 2026-05-19 · 1 min · 155 words

Joint Deep Secondary Path Estimation and Adaptive Control for Active Noise Cancellation

📄 Joint Deep Secondary Path Estimation and Adaptive Control for Active Noise Cancellation #语音增强 #端到端 #实时处理 #深度学习 #信号处理 ✅ 7.5/10 | 前25% | #语音增强 | #端到端 | #实时处理 #深度学习 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0 | 置信度 高 👥 作者与机构 第一作者:Fareedha (National Institute of Technology, Warangal, Telangana, India) 通讯作者:未说明 作者列表:Fareedha (National Institute of Technology, Warangal, Telangana, India)、Vasundhara (National Institute of Technology, Warangal, Telangana, India)、Asutosh Kar (Birmingham City University, Birmingham, UK)、Mads Græsbøll Christensen (Aalborg University, Denmark) 💡 毒舌点评 论文将深度学习中的估计与控制模块“缝合”得相当流畅,消融实验做得很扎实,有力地证明了注意力机制和双向LSTM在其中的价值。然而,核心创新更多是工程层面的集成优化,而非方法论的革新;且实验场景(主要是飞机噪声)稍显单一,要宣称在“动态环境”下鲁棒,或许还应挑战更多极端的非平稳声学条件。 ...

2026-04-29 · 更新于 2026-05-19 · 2 min · 368 words

Joint Estimation of Primary and Secondary Paths for Personalized Hearable Applications

📄 Joint Estimation of Primary and Secondary Paths for Personalized Hearable Applications #主动降噪 #信号处理 #自适应滤波器 #实时处理 #鲁棒性 ✅ 7.5/10 | 前25% | #主动降噪 | #信号处理 | #自适应滤波器 #实时处理 学术质量 6.0/7 | 选题价值 2.0/2 | 复现加成 0.0 | 置信度 高 👥 作者与机构 第一作者:未说明(论文未明确标注) 通讯作者:未说明(论文未明确标注) 作者列表:Sooyeon Park (Samsung Research, Seoul, South Korea), Kyoungbo Min (Samsung Research, Seoul, South Korea), Seungdo Choi (Samsung Research, Seoul, South Korea), Ikchae Jeong (Samsung Research, Seoul, South Korea), Hosang Sung (Samsung Research, Seoul, South Korea) 💡 毒舌点评 亮点:该工作巧妙地将一个通常需要额外激励或离线数据的双路径在线估计问题,转化为一个利用现有自适应滤波器系数变化和音乐播放作为“天然激励”的可识别线性系统,并给出了严格的可解性条件,理论框架非常优雅实用。 短板:实验部分“高高举起,轻轻放下”,核心的路径估计精度验证不错,但最终的ANC性能对比(表1)却只和一个“固定滤波器”简单比拼,缺少与文献中其他在线二次路径估计方法的横向对比,削弱了方法优越性的说服力,也暴露了其作为一篇完整研究论文的验证闭环不够完整。 ...

2026-04-29 · 更新于 2026-05-19 · 2 min · 275 words