实时处理 | 语音/音频论文速递

Acoustic Feedback Cancellation in Hearing Aids Exploiting an Inertial Sensor

📄 Acoustic Feedback Cancellation in Hearing Aids Exploiting an Inertial Sensor #音频分类 #信号处理 #实时处理 #多模态模型 #辅助技术 ✅ 7.0/10 | 前25% | #音频分类 | #信号处理 | #实时处理 #多模态模型学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 -0.5 | 置信度高 👥 作者与机构第一作者：Sina Miran（完成主要工作时隶属Starkey Hearing Technologies，现隶属于Apple Inc.）通讯作者：Henning Schepker（Starkey Hearing Technologies，邮箱：henning.schepker@starkey.de）作者列表： Sina Miran（Starkey Hearing Technologies, Eden Prairie, MN, US; 现为 Apple Inc.） Henning Schepker（Starkey Hearing Technologies, Eden Prairie, MN, US） Ivo Merks（现为 Chromatic，完成工作时隶属Starkey Hearing Technologies） Martin McKinney（Starkey Hearing Technologies, Eden Prairie, MN, US） 💡 毒舌点评亮点：巧妙地将惯性传感器（IMU）这一“非听觉”模态引入声反馈消除，利用头部运动与声学路径变化的相关性来动态调整算法参数，在稳态性能上确实优于纯音频基线方法，思路新颖且实用。短板：实验仅在5名受试者和有限的几种日常活动上进行，且最终的端到端AFC性能提升（如图3所示）并非全面碾压所有基线，尤其在外部物体导致路径变化但头部未动时存在检测延迟，其普鲁棒性和泛化能力仍需在更大规模、更复杂的现实场景中验证。 ...

Acoustic Non-Stationarity Objective Assessment with Hard Label Criteria for Supervised Learning Models

📄 Acoustic Non-Stationarity Objective Assessment with Hard Label Criteria for Supervised Learning Models #音频分类 #时频分析 #信号处理 #实时处理 #模型评估 ✅ 7.0/10 | 前25% | #音频分类 | #时频分析 | #信号处理 #实时处理学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0 | 置信度高 👥 作者与机构第一作者：未说明（论文作者列表无排序信息）通讯作者：未说明作者列表：Guilherme Zucatelli, Ricardo Barioni, Gabriela Dantas（SiDi - Intelligence & Innovation Center, S˜ao Paulo, Brazil） 💡 毒舌点评亮点在于巧妙地将复杂、难以实时化的非平稳性统计指标（INS）“蒸馏”成易于学习的二进制标签，并训练出专用轻量模型（NANSA），实现了速度上近4000倍的飞跃。短板则在于，这套方法的“地基”——HLC标签的生成——本身仍然依赖那个被诟病“计算不友好”的原始INS算法，颇有“用更累的方法证明自己可以轻松”的悖论感，且任务场景相对狭窄。 🔗 开源详情代码：论文中未提及代码链接。模型权重：论文未提及公开模型权重。数据集：论文使用了公开的AudioSet、DCASE和FSD50K数据集，但未说明其生成标签的具体数据划分或获取方式。 Demo：未提及在线演示。复现材料：论文给出了一些训练超参数（学习率、优化器、epoch数）和模型结构尺寸，但关于数据预处理、HLC算法具体实现代码、训练脚本等关键复现材料均未提供。论文中引用的开源项目：论文引用了PANNs、AST、PaSST等开源模型作为基线，但未说明是否基于其官方代码进行微调。 📌 核心摘要要解决什么问题？传统的声学非平稳性客观评估方法（如INS）计算复杂度高，需要生成合成参考信号并进行多尺度频谱比较，难以应用于实时处理或资源受限的设备。方法核心是什么？提出硬标签准则（HLC）算法。该算法将INS在不同观测尺度下的值划分为几个区域，通过多数投票为整个信号生成一个二值（平稳/非平稳）标签。利用此标签作为监督信号，训练了专用的声学非平稳性评估网络（NANSA及其轻量版NANSALW）。与已有方法相比新在哪里？首次提出一种客观的、自动化的准则（HLC）将多尺度的INS连续值转化为可用于监督学习的全局标签。基于此，设计了专门针对非平稳性评估的轻量级Transformer模型（NANSA），避免了通用大模型的冗余计算。主要实验结果如何？在AudioSet、DCASE和FSD50K三个数据集上，NANSA模型的分类准确率最高达到94.25%（比最强基线AST高1.8个百分点），EER（等错误率）最低降至2.68%（比最强基线降低49.1%）。最关键的是，NANSA推理速度比传统INS算法快约466倍，NANSALW快约3957倍。关键实验数据表格：模型参数量 (M) MMACs AudioSet Acc (%) AudioSet EER (%) AudioSet F1 DCASE Acc (%) DCASE EER (%) DCASE F1 FSD50K Acc (%) FSD50K EER (%) FSD50K F1 PANNs 81.04 1736 90.82 9.25 0.925 98.27 6.37 0.578 92.52 7.21 0.931 AST 94.04 16785 92.37 7.92 0.938 98.20 5.48 0.594 93.86 6.26 0.943 PaSST 83.35 15021 92.02 8.24 0.936 98.35 5.26 0.612 94.18 5.80 0.948 NANSA 5.50 585 94.25 5.87 0.954 99.01 2.68 0.801 95.41 4.59 0.958 NANSALW 0.66 88 93.27 6.73 0.946 98.89 2.91 0.780 94.93 4.95 0.955 实际意义是什么？为声学信号非平稳性评估提供了一种高效、可部署的替代方案，使其能够应用于实时语音处理、边缘计算设备等场景，支撑基于非平稳性的下游音频任务。主要局限性是什么？ 1) HLC标签生成过程本身仍然依赖计算密集的传统INS方法，只是将计算压力转移到了离线标签生成阶段。2) 方法丢失了INS原本提供的多尺度、连续的平稳性信息，仅输出一个二值标签。3) 论文未提供开源代码或详细复现指南。 🏗️ 模型架构 NANSA模型是一个用于二分类的端到端神经网络，整体架构如图2所示，包含两个核心模块： ...

Ailive Mixer: A Deep Learning Based Zero Latency Automatic Music Mixer for Live Music Performances

📄 Ailive Mixer: A Deep Learning Based Zero Latency Automatic Music Mixer for Live Music Performances #音乐混合 #深度学习 #实时处理 #串音消除 ✅ 7.0/10 | 前25% | #音乐混合 | #深度学习 | #实时处理 #串音消除学术质量 5.5/7 | 选题价值 1.0/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Devansh Zurale（Shure Incorporated）通讯作者：未说明作者列表：Devansh Zurale（Shure Incorporated）、Iris Lorente（Shure Incorporated）、Michael Lester（Shure Incorporated）、Alex Mitchell（Shure Incorporated） 💡 毒舌点评亮点：该工作首次将端到端深度学习应用于实时音乐混合，并通过“多速率处理”和“预测未来帧”的策略巧妙绕过了模型延迟问题，工程思路清晰。短板：尽管实验声称“零延迟”，但评估完全依赖主观听音测试且样本量小，缺乏如频谱图一致性、增益曲线平滑度等客观量化分析，使得“显著优于基线”的结论说服力打了折扣。 🔗 开源详情代码：论文中未提及代码链接。模型权重：未提及公开模型权重。数据集：训练数据基于公开的MedleyDB，但论文中模拟串音的具体脚本或工具未公开。评估使用的内部现场表演数据集未公开。 Demo：提供了音频结果在线演示：https://dzurale.github.io/ailive_mixer_icassp2026/。复现材料：给出了详细的架构描述、训练超参数（学习率、调度、epoch数）、损失函数选择（窗长、FFT大小）、数据增强方法（pyroomacoustics随机模拟）。这些信息对复现研究至关重要。论文中引用的开源项目： VGGish：音频嵌入模型 [12]。 pyroomacoustics：用于模拟房间声学和串音 [17]。 auraloss：用于计算多分辨率STFT损失的PyTorch库 [19]。 Web Audio Evaluation Tool：用于主观听音测试的框架 [21]。总结：论文未提及开源计划，核心系统（ALM）的代码和模型未开源。复现工作主要依赖论文描述和上述开源工具的重新实现。 📌 核心摘要这篇论文提出了一种名为AiLive Mixer（ALM）的深度学习系统，用于解决现场音乐表演中自动混音面临的两大核心挑战：乐器间的声学串音和严格的零延迟要求。其方法核心是采用多速率（Multi-Rate）处理架构，将需要大时域上下文的VGGish音频嵌入模块（975ms帧）与需要快速响应的特征提取（50ms帧）解耦，并引入零延迟训练策略（模型预测下一帧的增益参数）。与已有方法（如DMC）相比，ALM的创新在于增加了RMS条件化、用于学习通道间关系的Transformer编码器、用于学习时序上下文的GRU模块，并专门设计用于处理训练时的模拟串音数据。实验基于主观听音测试（15名参与者，8段现场录音），结果显示多速率模型ALM-MR在感知评分上显著优于单速率模型（ALM-SR）、改进版DMC（DMC-B-0L）、原版DMC（DMC-OG）以及原始混音（RAW），且能更稳定地避免增益突变和削波。该研究的实际意义在于为智能现场扩声、直播等应用提供了自动化混音的可行框架。主要局限性在于仅预测了声道增益这一单一混音参数，且验证集规模较小，缺乏客观评估指标。 ...

AR-BSNet: Towards Ultra-Low Complexity Autoregressive Target Speaker Extraction With Band-Split Modeling

📄 AR-BSNet: Towards Ultra-Low Complexity Autoregressive Target Speaker Extraction With Band-Split Modeling #语音分离 #自回归模型 #时频分析 #实时处理 #基准测试 ✅ 7.0/10 | 前25% | #语音分离 | #自回归模型 | #时频分析 #实时处理学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度高 👥 作者与机构第一作者：Fengyuan Hao（中国科学院声学研究所噪声与音频研究实验室；中国科学院大学）通讯作者：Chengshi Zheng（中国科学院声学研究所噪声与音频研究实验室）作者列表：Fengyuan Hao（中国科学院声学研究所噪声与音频研究实验室；中国科学院大学）、Andong Li（中国科学院声学研究所噪声与音频研究实验室；中国科学院大学）、Xiaodong Li（中国科学院声学研究所噪声与音频研究实验室；中国科学院大学）、Chengshi Zheng（中国科学院声学研究所噪声与音频研究实验室；中国科学院大学） 💡 毒舌点评论文的亮点在于其明确的工程导向，通过一系列精巧的设计（如感知压缩、分带LSTM、自回归连接），将目标说话人提取模型的计算复杂度大幅压缩至适合边缘设备部署的水平（MACs降至0.91 G/s，RTF仅为0.044），同时保持了具有竞争力的性能。短板则在于，其追求极致效率的代价可能是牺牲了一部分模型容量和在非因果、高精度场景下的性能天花板，且论文并未提供代码，对社区复现和基于此工作的后续研究不够友好。 🔗 开源详情代码：论文中未提及代码链接。模型权重：未提及。数据集：使用了公开的WSJ0-2mix和WHAM!数据集，但论文未提供获取方式或数据集本身的链接。 Demo：未提及。复现材料：论文提供了非常详细的训练配置（损失函数、优化器、学习率、超参数等），具有较好的可复现信息基础。但未提供代码、配置文件或检查点。引用的开源项目：论文未提及依赖的开源工具或模型。总结：论文中未提及开源计划。 📌 核心摘要问题：现有的因果目标说话人提取（TSE）方法虽然性能良好，但计算复杂度高，难以部署在资源受限的边缘设备上。方法核心：提出AR-BSNet，一种超低复杂度的时频域自回归TSE模型。核心包括：a) 基于Mel滤波器组的感知压缩下采样；b) 分带循环建模（带内LSTM和带间BLSTM）以捕获时频模式；c) 引入自回归机制，利用前一帧的估计输出作为当前帧的辅助参考信息。创新点：与现有方法相比，AR-BSNet创新性地将自回归框架、基于感知的频率维度压缩以及高效的分带循环处理相结合，在显著降低复杂度的同时，利用帧间依赖增强了提取效果。主要实验结果：在WSJ0-2mix和WHAM!数据集上，AR-BSNet相比SOTA因果方法（如SpEx++， DSINet），在计算复杂度（MACs）上降低了约87.5%（从约7-11 G/s降至0.91 G/s），同时在SI-SDR、PESQ等指标上取得了可比或更优的性能。关键数据见下表：数据集方法域因果参数量(M) MACs(G/s) PESQ eSTOI(%) SDR(dB) SI-SDR(dB) WSJ0-2mix SpEx++ [10] 时域是 33.81 11.44 2.93 83.86 11.9 11.2 DSINet [17] 时频域是 2.94 8.13 3.35 90.56 16.2 15.7 AR-BSNet 时频域是 0.32 0.91 3.13 87.09 13.8 13.3 WHAM! SpEx+ [9] 时域是 11.14 3.76 2.04 60.01 6.1 5.2 AR-BSNet 时频域是 0.32 0.91 2.26 57.74 5.7 4.9 -> w/ 60s enroll. 时频域是 0.32 0.91 2.30 58.71 6.1 5.4 图4：在WSJ0-2mix测试集上，因果SpEx+与AR-BSNet的SI-SDRi改善值分布。AR-BSNet（蓝线）整体分布更靠右，表明其平均性能更好，且在高相似度说话人区域（红点）的错误更少。 ...

ASAP: An Azimuth-Priority Strip-Based Search Approach to Planar Microphone Array DOA Estimation in 3D

📄 ASAP: An Azimuth-Priority Strip-Based Search Approach to Planar Microphone Array DOA Estimation in 3D #声源定位 #信号处理 #麦克风阵列 #实时处理 ✅ 7.5/10 | 前25% | #声源定位 | #信号处理 #麦克风阵列 | #信号处理 #麦克风阵列 | arxiv 学术质量 7.5/7 | 选题价值 7.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Ming Huang（未说明具体机构，仅从作者列表推测与Shuting Xu等同属一单位）通讯作者：He Kong（南方科技大学）作者列表：Ming Huang（未说明），Shuting Xu（未说明），Leying Yang（未说明），Huanzhang Hu（未说明），Yujie Zhang（未说明），Jiang Wang（未说明），Yu Liu（未说明），Hao Zhao（未说明），He Kong（南方科技大学）。注：论文明确说明Xu，Yang，Hu为南方科技大学的访问学生，但未明确其他作者的具体所属机构。 💡 毒舌点评该论文针对平面麦克风阵列3D DOA估计的计算瓶颈，提出了一个结构清晰、实用性强的两阶段搜索算法（ASAP），实验充分且开源代码，是工程上一次扎实的改进。然而，其核心创新（将3D搜索拆解为方位角优先的条带搜索+仰角一维细化）本质上是对现有CFRC和SRP-PHAT的巧妙组合与定制，缺乏理论层面的突破，对平面阵列仰角模糊性的根本解决也显得有些保守。 🔗 开源详情代码：论文明确提供了开源代码仓库链接：https://github.com/AISLAB-sustech/ASAP/tree/main 模型权重：未提及。该方法为传统信号处理算法，无需训练模型权重。数据集：未提及公开数据集。实验使用了自采集的仿真数据和办公室环境下的真实语音录音。 Demo：未提及在线演示。复现材料：论文提供了详细的实验设置参数（阵列半径、麦克风数、信号采样率、STFT参数等）和算法伪代码（Algorithm 1, 2），基本满足复现需求。超参数的具体值（如条带宽度）未在论文中给出，可能需要参考开源代码。论文中引用的开源项目：未明确提及依赖的其他开源工具或模型。 📌 核心摘要要解决什么问题：传统的三维空间声源方向估计（DOA）方法（如SRP-PHAT）计算复杂度高，难以在资源受限的机器人平台上实时运行。对于结构简单的平面阵列，仰角估计精度通常低于方位角，进一步加剧了三维搜索的挑战。方法核心是什么：提出ASAP（方位角优先条带搜索法），采用两阶段策略。第一阶段，在预定义的方位角条带内进行由粗到精（CFRC）的搜索，并利用球帽过滤技术锁定可能的方位角候选区域。第二阶段，针对第一阶段锁定的一个或两个最佳候选方向，采用一维搜索策略（沿子午线或沿大圆弧）精细估计仰角。与已有方法相比新在哪里：与全网格搜索（SRP-PHAT）相比，ASAP避免了遍历所有方向；与通用的CFRC相比，ASAP显式利用了平面阵列方位角更可靠的特性，通过条带化搜索将三维问题降维，引入了结构化的搜索引导，提高了搜索效率。主要实验结果如何：仿真：在3751个测试点，Level 5网格下，ASAP（BP变体）运行时间（73.31秒）比CFRC（92.81秒）快约21%，RMSE（2.73°）比CFRC（3.16°）低约13.6%，并且优于全网格SRP-PHAT（RMSE 2.79°，运行时间3987.86秒）。真实实验：对523段语音录音，Level 5网格下，ASAP（BP变体）运行时间（28.58秒）比CFRC（36.23秒）快约21.1%，RMSE（8.83°）比CFRC（9.23°）低约4.3%，同时优于SRP-PHAT（RMSE 8.90°，运行时间1556.55秒）。实际意义是什么：显著降低了平面麦克风阵列进行三维声源定位的计算开销，同时保持甚至提升了定位精度，使其更适合在计算资源有限的嵌入式设备或移动机器人平台上实时应用。主要局限性是什么：方法的性能依赖于几个关键参数（如条带宽度、球帽半径、细化窗口）的先验设定，需要根据具体场景进行调整。论文假设平面阵列且方位角估计更可靠，该方法对其他阵列形式或方位角不可靠的场景适用性未做探讨。 🏗️ 模型架构 ASAP是一个基于传统信号处理的两阶段DOA估计框架，其整体架构如图1所示。 ...

Atomic Norm Minimization Revisited: Progressive Atom Identification And Refinement

📄 Atomic Norm Minimization Revisited: Progressive Atom Identification And Refinement #声源定位 #信号处理 #麦克风阵列 #实时处理 ✅ 7.5/10 | 前25% | #声源定位 | #信号处理 | #麦克风阵列 #实时处理学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度高 👥 作者与机构第一作者：Xiaozhi Liu（北航数学科学学院）通讯作者：Yong Xia（北航数学科学学院）作者列表：Xiaozhi Liu（北航数学科学学院）、Jinjiang Wei（北航数学科学学院）、Yong Xia†（北航数学科学学院） 💡 毒舌点评这篇论文理论功底扎实，通过极限重写了原子范数公式，巧妙地绕开了计算昂贵的SDP，并顺手搭了一座连接贝叶斯估计的桥，理论上有新意；其提出的PAIR算法在无噪声仿真中也展示了惊人的速度和精度提升。然而，论文对噪声场景的处理轻描淡写地用一句“留作未来研究”带过，这对于一个信号处理领域的实际应用算法而言是严重的短板，大大削弱了其实用性和说服力。 🔗 开源详情代码：论文中未提及代码链接。模型权重：未提及。数据集：未提及。实验数据为随机生成。 Demo：未提供。复现材料：提供了算法描述（PAIR流程）和关键参数设置（β序列，γ=8），但缺乏完整的伪代码和实现细节。引用的开源项目：论文中未提及引用或依赖其他开源项目。开源计划：论文中未提及开源计划。 📌 核心摘要要解决什么问题：原子范数最小化（ANM）是解决线谱估计（如到达方向估计）问题的强力工具，但传统方法依赖于半定规划（SDP），导致计算复杂度过高，限制了实时应用。方法核心是什么：本文提出了一种基于极限的原子范数新公式（定理1-3），避免了SDP。该公式揭示了原子范数与贝叶斯估计目标函数之间的联系。基于此，提出了名为PAIR的低复杂度算法，通过序列化的原子识别与准牛顿法细化来求解。与已有方法相比新在哪里：1）提出了一种不依赖SDP的原子范数等价极限公式，并可推广至一般原子集；2）从理论上桥接了ANM与贝叶斯线谱估计方法；3）设计的PAIR算法是网格无关的，计算效率远高于基于SDP的网格无关方法（如SDP-ANM, EMaC），且能自动估计信号源数量。主要实验结果如何：在无噪声、5个正弦分量的仿真实验中（n=64）：成功率：在采样数m较低时（如m=10），PAIR的成功率显著高于SDP-ANM和EMaC，与SRCS接近（见图1a）。运行时间：在所有m值下，PAIR的运行时间比SDP-ANM和EMaC快两个数量级以上，也比SRCS快一个数量级（见图1b）。频率估计误差：PAIR的估计误差δ(f, ̂f)的均值和方差均小于对比方法（见图1c）。关键数据：论文未提供具体数值，结论基于图表。实际意义是什么：该工作为高精度、低延迟的线谱估计提供了一种新的高效算法框架，尤其适用于对实时性要求高的场景，如实时波束成形和动态频谱感知。主要局限性是什么：论文的核心局限性在于其分析和实验几乎完全基于无噪声场景，而实际应用必然面临噪声干扰。对于噪声下的性能、算法稳定性以及参数选择（如β序列）的鲁棒性缺乏分析。此外，实验仅验证了一维线谱估计场景。 🏗️ 模型架构本文的核心贡献在于理论推导和算法设计，而非传统意义上的“模型架构”。PAIR是一个迭代优化算法，其流程可概括如下： ...

Audio Deepfake Detection at the First Greeting: "Hi!"

📄 Audio Deepfake Detection at the First Greeting: “Hi!” #音频深度伪造检测 #时频分析 #端到端 #鲁棒性 #实时处理 ✅ 7.5/10 | 前25% | #音频深度伪造检测 | #时频分析 | #端到端 #鲁棒性学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Haohan Shi（拉夫堡大学伦敦分校数字技术研究所）通讯作者：Yunxiao Zhang（埃克塞特大学计算机科学系）作者列表：Haohan Shi（拉夫堡大学伦敦分校数字技术研究所）、Xiyu Shi（拉夫堡大学伦敦分校数字技术研究所）、Safak Dogan（拉夫堡大学伦敦分校数字技术研究所）、Tianjin Huang（埃克塞特大学计算机科学系）、Yunxiao Zhang（埃克塞特大学计算机科学系） 💡 毒舌点评这篇论文精准地切入了音频伪造检测中一个极具现实意义的细分场景——“第一句话”检测，并为此设计了针对性的轻量化框架，实验对比充分且结果显著，工程化考量（效率、部署）也值得肯定。不过，其核心模块（PCEM， FCEM）的命名虽显“豪华”，但内部算子（如卷积、池化、GELU）的组合更像是一个精心调优的“乐高”拼装，原创的理论洞察稍显薄弱，更像是一个扎实的工程优化案例。 🔗 开源详情代码：论文在结论部分声明“Codes are available.”，表明代码已公开，但未在文中提供具体的仓库链接（如GitHub URL）。模型权重：未提及是否公开预训练模型权重。数据集：训练数据集Dcom由多个公开数据集构建，论文未提供独立的下载链接，但指明了来源语料库。评测数据集ADD-C也已公开使用。 Demo：未提供在线演示。复现材料：提供了较为详细的训练配置信息（损失函数、优化器、调度策略、Batch Size、早停设置等），以及模型架构的主要组件和关键超参数。未提及是否提供配置文件、环境依赖或更详细的附录。论文中引用的开源项目：提到了依赖的基线模型实现（LCNN， RawNet2， AASIST等）和数据集（Fake-or-Real， Wavefake， ASVspoof等）。论文中未提及开源计划：除了声明代码可用外，未提及是否在特定平台维护、是否持续更新或提供issue支持等详细开源计划。 📌 核心摘要本文旨在解决在真实世界通信降质（如编解码、丢包）条件下，对超短音频（0.5-2秒）进行深度伪造检测的挑战，典型场景是通话开头的“Hi”。作者提出了S-MGAA框架，这是对MGAA的轻量化扩展。其核心方法包括两个新模块：像素-通道增强模块（PCEM）和频率补偿增强模块（FCEM），前者从时频像素和通道维度增强伪造线索的显著性，后者通过多尺度频率分析来补偿时间信息的不足。与已有方法相比，本文首次联合关注了超短输入和通信降质鲁棒性两个方面，并设计了轻量高效的模型。主要实验结果表明：在ADD-C测试集上，S-MGAA-MFCC在0.5秒输入下的平均等错误率（EER）为3.44%，相比次优基线（RawGAT-ST）的4.52%降低了23.89%；在所有时长和降质条件下均取得最优或次优性能；同时，模型在实时因子（RTF）、浮点运算量（GFLOPs）和训练时间上展现出显著优势。该研究为实时部署在资源受限设备（如智能手机）上的早期语音欺骗检测提供了可行方案。主要局限性在于，实验评估均在合成降质数据集上进行，未在真实部署的实时通信系统中验证其端到端性能。 ...

Constraint Optimized Multichannel Mixer-Limiter Design

📄 Constraint Optimized Multichannel Mixer-Limiter Design #多通道 #信号处理 #音频生成 #实时处理 ✅ 7.0/10 | 前25% | #多通道 | #信号处理 | #音频生成 #实时处理学术质量 7.0/7 | 选题价值 1.5/2 | 复现加成 0 | 置信度高 👥 作者与机构第一作者：Yuancheng Luo (Amazon.com) 通讯作者：未说明作者列表：Yuancheng Luo (Amazon.com), Dmitriy Yamkovoy (Amazon.com), Guillermo Garcia (Amazon.com) 💡 毒舌点评亮点：将混音和限幅问题统一建模为线性约束二次规划（QP）是一个优雅且理论扎实的框架，特别是提出的“遮挡剔除”约束缩减算法，能有效降低QP求解复杂度，为实时处理提供了理论可能。短板：实验部分仅使用人工合成的调幅信号进行验证，缺乏真实音乐或语音内容的主观听感评估和客观指标对比（如LUFS、动态范围），结论的工程实践说服力不足。 🔗 开源详情论文中未提及任何开源计划，未提供代码链接、模型权重、公开数据集或在线Demo。文中引用了OSQP [22] 作为QP求解器的一个参考，但未明确在实验中使用。 📌 核心摘要问题：在消费级扬声器阵列中，传统的多通道混音器（负责分配动态余量）与限幅器（保护扬声器）是分开设计的，这会导致音频失真、通道平衡破坏和指向性间歇性改变。方法核心：提出一种耦合设计，将混音与限幅问题表述为一个高效的线性约束二次规划（QP）问题。其目标是在满足每样本混合信号不超阈值的线性约束下，最小化一个基于通道增益衰减的失真目标函数。新意：与传统解耦方法相比，新方法实现了跨通道、跨时间的联合优化。论文创新了：设计了一种支持攻击、保持、释放动态的不对称恒定重叠添加（COLA）窗函数，用于构建平滑的增益包络。推导了可直接用于QP求解的失真目标二次近似函数，并分析了其凸性条件。提出了“预混缩减变量”和“遮挡剔除缩减约束”两种高效降低QP问题规模的方法，以满足实时性要求。实验结果：论文使用合成的多频带、多内容调幅信号进行评估。结果显示：相比单通道限幅器、多频带/多内容限幅器及拼接预混器，完整的耦合混音-限幅器的失真目标值最低（均值0.16±0.18）。约束缩减算法效果显著，如将6通道输入的约束数量从约1636个（预处理后）平均降至381.5个（非遮挡集），接近凸包支持面的数量（202.8）。实际意义：为低功耗、资源受限的消费音频设备（如智能音箱、Soundbar）提供了一种在保证响度的同时，能更自适应、更保真地进行多声道混音与保护的算法框架。主要局限：实验仅限于合成信号，未在真实音频内容上验证其普适性与听感；论文未提供代码或详细实现指南，复现门槛高。 🏗️ 模型架构本文并非传统的神经网络模型，而是一个基于优化理论的信号处理算法框架。其核心是一个序列化的二次规划（QP）求解器，结合窗函数包络构建模块。 ...

Deep Learning-Based Joint Optimization of Adaptive Feedback Cancellation and Residual Feedback Suppression for Hearing Aids

📄 Deep Learning-Based Joint Optimization of Adaptive Feedback Cancellation and Residual Feedback Suppression for Hearing Aids #语音增强 #信号处理 #深度学习 #实时处理 🔥 8.0/10 | 前25% | #语音增强 | #深度学习 | #信号处理 #实时处理学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 1.0 | 置信度高 👥 作者与机构第一作者：Xiaofan Zhan (1,2) 通讯作者：Chengshi Zheng (1,2) 作者列表： Xiaofan Zhan (中国科学院声学研究所噪声与音频研究实验室；中国科学院大学) Brian C. J. Moore (剑桥大学心理学系剑桥听力组) Xiaodong Li (中国科学院声学研究所噪声与音频研究实验室；中国科学院大学) Chengshi Zheng (中国科学院声学研究所噪声与音频研究实验室；中国科学院大学) 💡 毒舌点评亮点是它成功地将信号处理领域的经典思路（先线性对消，再非线性抑制）与深度学习巧妙结合，设计了两阶段框架和针对性的三步训练法，在实验上也确实做到了“1+1>2”的效果。短板在于，论文对闭环训练中两个网络如何具体协调、误差如何反向传播等“脏活累活”的细节描述略显含糊，只给出了宏观步骤，让想复现的人可能卡在调参的细节里；另外，只用了客观指标，缺乏真实的听感测试或临床数据支持，说服力打了点折扣。 🔗 开源详情代码：论文中未提及代码链接。模型权重：未提及。数据集：使用了公开的LibriSpeech和DNS Challenge数据集进行训练，测试集来自另一篇文献的公开测量数据。论文未提供自有数据集的下载链接。 Demo：未提及。复现材料：论文提供了极其详细的训练细节、模型结构、超参数配置（见第3、4节），足以作为复现指南。论文中引用的开源项目：引用了LibriSpeech数据集、DNS Challenge数据集，以及[21]（FSB网络）和[23]（重叠相加方法）的工作，但这些是作为方法或数据来源引用，而非本论文依赖的开源工具包。开源计划：论文中未提及开源计划。 📌 核心摘要解决的问题：助听器中固有的声反馈问题（麦克风重拾放大的声音导致啸叫和失真），严重限制了可用增益，尤其在现代小型、开放式设计中更为突出。现有基于深度学习的方法（DeepAFS和DeepAFC）各有局限：前者计算复杂且高增益效果有限，后者在反馈路径快速变化时性能下降。方法核心：提出JointDFC，一个两阶段深度学习框架。第一阶段使用LFCNet（集成预测误差方法的深度自适应反馈取消网络）进行线性反馈对消；第二阶段使用RFSNet（带全局因果时频注意力机制的全子带递归网络）抑制残余反馈和噪声。设计了“单独预训练 -> 数据生成 -> 端到端微调”的三步训练策略以解决闭环系统训练难题。与已有方法相比新在哪里：这是首次将深度学习框架用于整合反馈取消与残余反馈抑制的联合优化，融合了DeepAFC（侧重建模反馈路径）和DeepAFS（侧重直接信号分离）的优势。网络设计上引入了全局时频注意力以精准定位残余反馈，训练策略上专门设计了适配闭环系统的三步法。主要实验结果：在模拟用户内（Set A）和用户间（Set B）反馈路径变化的测试集上，JointDFC在多种高增益（5-11dB）条件下全面优于两个基线（DeepPEM-AFC， DeepAFS）。例如，在Set A的11dB增益条件下，JointDFC的WB-PESQ为4.12，eSTOI为98.01%，SI-SDR为16.14 dB，显著高于DeepPEM-AFC（PESQ 3.11, eSTOI 90.87%, SI-SDR -1.85 dB）和DeepAFS（PESQ 3.53, eSTOI 93.86%, SI-SDR 11.39 dB）。消融实验表明，移除全局注意力或联合训练均会导致性能下降。方法参数量(M) 计算量(G/s) WB-PESQ (5/7/9/11dB) eSTOI(%) (5/7/9/11dB) SI-SDR(dB) (5/7/9/11dB) Set A DeepPEM-AFC 0.240 0.060 4.32/4.23/3.71/3.11 99.24/98.84/93.64/90.87 19.03/17.79/9.80/-1.85 DeepAFS 0.302 0.319 4.28/4.18/3.90/3.53 98.45/97.90/96.11/93.86 17.62/16.22/14.13/11.39 JointDFC (ours) 0.396 0.227 4.30/4.26/4.21/4.12 98.87/98.68/98.40/98.01 18.71/17.95/17.16/16.14 w/o Global cTFA 0.391 0.224 4.23/4.19/4.13/4.02 98.47/98.27/97.90/97.32 17.74/17.07/16.27/14.98 w/o joint training 0.396 0.227 4.17/4.13/4.09/4.09 97.80/97.72/97.58/97.51 13.98/13.28/13.03/13.10 Set B DeepPEM-AFC 0.240 0.060 4.15/4.04/3.85/3.54 98.62/98.36/97.50/96.00 16.01/14.78/11.53/6.71 DeepAFS 0.302 0.319 4.23/4.13/3.93/3.63 98.36/97.81/96.42/93.97 17.33/15.88/13.83/10.86 JointDFC (ours) 0.396 0.227 4.21/4.16/4.11/4.07 98.59/98.39/98.11/97.92 16.91/15.99/15.25/14.66 w/o Global cTFA 0.391 0.224 4.13/4.07/4.02/3.95 98.13/97.90/97.59/97.12 16.19/15.22/14.47/13.18 w/o joint training 0.396 0.227 4.12/4.07/4.01/3.95 97.68/97.50/97.21/96.92 13.96/13.16/12.28/11.67 实际意义：该方法有望显著提升助听器在复杂动态环境下的稳定工作增益，改善中重度听力损失用户的听力补偿效果，同时保持了适合实时助听器芯片部署的计算复杂度（0.227 G MACs/s）。主要局限性：研究主要基于客观指标（PESQ, eSTOI, SI-SDR）评估，未提供主观听感测试或真实用户佩戴实验数据；模型在反馈路径剧变时的瞬态性能有待进一步探究；实际硬件部署的功耗、内存占用等未讨论。 🏗️ 模型架构本文提出的JointDFC系统是一个两阶段的深度学习框架，整体流程如图1(b)所示。 ...

Differentiable Grouped Feedback Delay Networks for Learning Direction and Position-Dependent Late Reverberation

📄 Differentiable Grouped Feedback Delay Networks for Learning Direction and Position-Dependent Late Reverberation #空间音频 #可微分渲染 #深度学习 #信号处理 #实时处理 ✅ 7.5/10 | 前25% | #空间音频 | #可微分渲染 | #深度学习 #信号处理学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Orchisama Das（Kings College London, Dept. of Engineering, United Kingdom）通讯作者：未说明（论文未明确指定）作者列表： Orchisama Das（Kings College London, Dept. of Engineering, United Kingdom） Sebastian J. Schlecht（Friedrich-Alexander Universit¨at Erlangen-N¨urnberg, Multimedia Comms. and Signal Process., Germany） Gloria Dal Santo（Aalto University, Acoustics Lab, Dept. of Info. and Comms. Engineering., Finland） Zoran Cvetkovi´c（Kings College London, Dept. of Engineering, United Kingdom） 💡 毒舌点评亮点在于巧妙地将传统可变声场渲染模型（FDN）与神经网络结合，在保持结构先验的同时实现了端到端学习和高效的多位置渲染，计算复杂度优势明显。短板则是其精度略逊于最强基线（NAF），且在房间过渡区域误差有可见增加，表明其建模复杂空间动态的能力仍有提升空间。 ...