Icassp-2026

DSSR: Decoupling Salient and Subtle Representations Under Missing Modalities for Multimodal Emotion Recognition

📄 DSSR: Decoupling Salient and Subtle Representations Under Missing Modalities for Multimodal Emotion Recognition #多模态模型 #情感识别 #对比学习 #鲁棒性 ✅ 7.5/10 | 前25% | #情感识别 | #对比学习 | #多模态模型 #鲁棒性学术质量 7.5/7 | 选题价值 2.0/2 | 复现加成 0.0 | 置信度高 👥 作者与机构第一作者：Huan Zhao（湖南大学计算机科学与电子工程学院）通讯作者：Yingxue Gao*（湖南大学计算机科学与电子工程学院）作者列表：Huan Zhao（湖南大学计算机科学与电子工程学院）、Zhijie Yu（未说明）、Yong Wei（未说明）、Bo Li（未说明）、Yingxue Gao（湖南大学计算机科学与电子工程学院） 💡 毒舌点评这篇论文最大的亮点在于其问题洞察和框架设计——将模糊的“模态缺失鲁棒性”问题，转化为对“显著”与“细微”情感表征的显式解耦与利用，MHDW机制对此提供了巧妙的工程实现。短板在于，其生成模块（GM）采用简单的1D卷积聚合可用模态信息来“补全”缺失模态，这一假设（缺失模态信息可由其他模态线性合成）可能过于理想，在更极端或语义不一致的缺失场景下其有效性值得怀疑，论文对此缺乏深入分析。 🔗 开源详情代码：论文中提供了代码仓库链接：https://github.com/YYYYuZJ/DSSR.git。模型权重：论文中未提及是否公开预训练模型权重。数据集：使用的是公开的标准基准数据集（CMU-MOSI, CMU-MOSEI, IEMOCAP），如何获取未在论文中说明，通常需遵循各数据集官方协议。 Demo：论文中未提及提供在线演示。复现材料：论文中提供了一些实现细节（优化器、学习率、批大小、Dropout率），但缺乏训练轮数、具体硬件、关键超参数（如MHDW的头数h）的详细说明，也未提及是否提供训练好的检查点、详细配置文件或附录说明。论文中引用的开源项目：论文未明确列出其代码依赖的具体开源工具或模型。根据架构图推测，可能使用了预训练的wav2vec、DeBERTa、MA-Net作为各模态的特征提取器，但未在文中引用。 📌 核心摘要问题：多模态情感识别（MER）在实际部署中常面临模态缺失问题（如传感器故障），导致关键情感信号（尤其是微妙线索）丢失或模糊。现有注意力方法易受主导但无关信号干扰，难以捕获细微但有辨别力的线索。方法核心：提出DSSR（解耦显著与细微表征）两阶段框架。第一阶段，通过动态对比学习在完整模态数据上训练通用编码器，提取跨模态不变的“显著”情感表征。第二阶段，针对缺失模态场景，先利用轻量生成模块补全缺失模态特征；然后，将显著表征作为自适应提示，通过多头动态加权（MHDW）机制，在多个子空间中评估并选择性地增强各模态的“细微”情感表征。创新点：相较于现有直接融合或恢复缺失模态的方法，DSSR首次将情感表征显式分解为“显著”和“细微”两部分，并设计了针对性的学习机制（动态对比学习提取显著表征，MHDW增强细微表征）来分别处理，框架设计新颖。主要实验结果：在CMU-MOSI、CMU-MOSEI和IEMOCAP三个基准数据集的多种模态缺失场景（如仅声学、仅文本、缺两模态等）下，DSSR整体性能达到了SOTA。例如，在CMU-MOSI上，平均准确率/F1为75.86%/75.05%，优于次优方法P-RMF（76.71%/未提供）。消融实验证实，去除MHDW模块导致性能下降最大（如CMU-MOSI平均准确率下降2.82%）。实际意义：该方法提高了MER系统在传感器故障、数据传输不完整等现实挑战下的可靠性，增强了其在人机交互、情感计算等应用中的实用性。主要局限性：生成模块（GM）的补全能力依赖于其他模态的“线性聚合”假设，其对于复杂或语义冲突的缺失情况可能效果有限，论文未对此进行深入探讨和验证。 🏗️ 模型架构 DSSR是一个两阶段框架，其整体架构如图1所示。 ...

Dual Contrastive Learning for Semi-Supervised Domain Adaptation in Bi-Modal Depression Recognition

📄 Dual Contrastive Learning for Semi-Supervised Domain Adaptation in Bi-Modal Depression Recognition #语音生物标志物 #对比学习 #领域适应 #多模态模型 ✅ 7.0/10 | 前25% | #语音生物标志物 | #对比学习 | #领域适应 #多模态模型学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 -0.5 | 置信度中 👥 作者与机构第一作者：Lei Jin（东南大学计算机科学与工程学院）通讯作者：Chunfeng Yang（东南大学计算机科学与工程学院）， Wentao Xiang（南京医科大学生物医学工程与信息学院）作者列表：Lei Jin（东南大学计算机科学与工程学院）， Zhuochang Xu（未说明）， Yudong Zhang（未说明）， Shijie Wang（未说明）， Chunfeng Yang（东南大学计算机科学与工程学院）， Wentao Xiang（南京医科大学生物医学工程与信息学院） 💡 毒舌点评亮点：针对抑郁症识别中数据稀缺和领域偏移的核心痛点，提出了一个结构清晰、技术整合度高的双对比学习框架，将无监督跨模态对齐与有监督伪标签优化有机结合，逻辑自洽。短板：虽然方法有效，但核心组件（对比学习、伪标签）均非全新，更像是现有技术的精巧组合与适配；且论文未提供代码或训练细节，对于一篇发表在ICASSP（信号处理会议）上的工作，其音频/语音处理深度和可复现性细节略显不足。 🔗 开源详情代码：论文中未提及代码链接。模型权重：未提及。数据集：论文使用了三个公开数据集（AVEC 2014, CMDC, DAIC-WOZ），但未说明其获取方式或预处理脚本。 Demo：未提及。复现材料：论文未提供训练超参数、模型配置、检查点或附录说明。论文中引用的开源项目：论文未明确列出所依赖的开源工具或模型代码库。总结：论文中未提及任何开源计划或具体材料。 📌 核心摘要这篇论文旨在解决双模态（音频与视频）抑郁症识别任务中标注数据稀缺以及跨数据集（跨语言、设备、人群）存在领域偏移的问题。为此，作者提出了一个名为DuCL的双对比学习半监督领域适应框架。该框架的核心是两个模块：1) 语义一致性加权无监督对比学习（SCW-UCL），利用样本间的语义相似度来抑制假负例，增强音频与视频模态间的通用表征对齐；2) 联合伪标签加权有监督对比学习（JPW-SCL），通过融合分类器预测和样本相似性信息生成更可靠的伪标签，并利用置信度加权来降低噪声和缓解领域偏移。与已有方法相比，其创新点在于将两种互补的对比学习策略系统性地整合，以更充分、可靠地利用大量无标签数据。实验在三个公开数据集（AVEC 2014, CMDC, DAIC-WOZ）上进行，结果表明该方法在准确率��F1分数等指标上一致性地优于DANN、MME、CDAC、CLDA等基线方法，特别是在跨语言迁移（如DAIC-WOZ到AVEC2014）任务中取得了最佳的F1分数（0.52）。该研究的实际意义在于提升了自动化抑郁识别模型在真实临床场景下的鲁棒性和适用性。主要局限性是框架的性能可能高度依赖于伪标签的质量和相似度建模的准确性，且实验未探讨模型在更极端或更复杂的领域偏移下的表现。 ...

Dual Data Scaling for Robust Two-Stage User-Defined Keyword Spotting

📄 Dual Data Scaling for Robust Two-Stage User-Defined Keyword Spotting #语音活动检测 #多任务学习 #对比学习 #零样本 ✅ 7.5/10 | 前25% | #语音活动检测 | #多任务学习 | #对比学习 #零样本学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Zhiqi Ai（上海大学）通讯作者：Yongjin Zhou（上海大学）、Shugong Xu（西安交通大学利物浦大学）作者列表：Zhiqi Ai（上海大学），Han Cheng（上海大学），Yuxin Wang（上海大学），Shiyi Mu（上海大学），Yongjin Zhou（上海大学），Shugong Xu（西安交通大学利物浦大学） 💡 毒舌点评亮点：提出了一种清晰的两阶段（检测+验证）框架，并创新性地将“双数据扩展”策略应用于两阶段模型的不同部分（声学模型和匹配器），在LibriPhrase-Hard子集上取得了显著优于现有方法的性能。短板：论文第二阶段中“轻量级注册模块”（nn.Embedding）与“跨模态对齐”的具体实现和有效性论证略显简略，且训练策略、超参数等关键复现信息缺失，降低了其作为完整工作发表的说服力。 🔗 开源详情代码：提供了代码仓库链接：https://github.com/aizhiqi-work/DMA-KWS。模型权重：论文中未提及公开模型权重。数据集：所使用的LibriSpeech、GigaSpeech、LibriPhrase、Hey-Snips均为公开或可构建的基准数据集，论文中未提供新数据集。 Demo：未提及在线演示。复现材料：提供了模型参数量、网络结构描述，但缺乏详细的学习率、优化器、批次大小、训练轮次、数据预处理脚本等复现所必需的信息。论文中引用的开源项目：引用并可能基于WeNet工具包[5]进行第一阶段训练。音频编码器基于Conformer架构[22]。 📌 核心摘要要解决的问题：在用户自定义关键词检测任务中，现有基于零样本或微调的方法在区分易混淆词和处理边界不精确、误报率高的问题上存在不足。方法核心：提出DS-KWS，一个两阶段框架。第一阶段：使用基于CTC的声学模型和流式音素搜索模块定位候选片段。第二阶段：使用基于查询文本（QbyT）的音素匹配器在音素级和话语级进行验证。新在哪里（创新）：1) 提出“双数据扩展”策略：将第一阶段声学模型的训练数据从460小时扩展到1460小时，并将第二阶段匹配器的训练锚点类别从约78k扩展到155k，以分别增强模型的鲁棒性和区分力。2) 设计了轻量级的音素匹配器架构，采用简单的nn.Embedding进行文本注册，降低了复杂度。主要实验结果：在LibriPhrase-Hard数据集上，DS-KWS-M2取得6.13% EER和97.85% AUC，显著优于对比方法。在Hey-Snips数据集上，实现零样本性能，召回率达99.80%（在1次/小时误报率下）。关键实验数据见表1、表2、表3和表4。 ...

Dual-Perspective Multimodal Sentiment Analysis with MoE Fusion: Representation Learning via Semantic Resonance and Divergence

📄 Dual-Perspective Multimodal Sentiment Analysis with MoE Fusion: Representation Learning via Semantic Resonance and Divergence #多模态情感分析 #多模态模型 #对比学习 #混合专家 #情感计算 ✅ 7.0/10 | 前50% | #多模态情感分析 | #多模态模型 | #对比学习 #混合专家学术质量 6.0/7 | 选题价值 1.3/2 | 复现加成 -0.5 | 置信度中 👥 作者与机构第一作者：Kaiwei Sun（重庆邮电大学数据工程与可视化计算重点实验室）通讯作者：未说明作者列表：Kaiwei Sun（重庆邮电大学数据工程与可视化计算重点实验室）、Yixian Guo（同前）、Jin Wang（同前）、Xin Deng（同前） 💡 毒舌点评亮点在于将“共振”与“分歧”这一对哲学概念巧妙地映射到多模态表示学习中，并借助MoE机制实现了灵活的上下文感知融合，框架设计新颖且具有较好的可解释性潜力。然而，论文的“厚度”不足：训练细节披露不全（如GPU型号、具体训练时长）、消融实验过于“标准”而缺乏更深层的机制探索（如门控网络权重可视化），且对MoE中“专家”的具体结构描述简略，让扎实的创新打了折扣。 🔗 开源详情代码：论文中未提及代码链接。模型权重：未提及。数据集：使用的是公开基准数据集（MOSI, MOSEI, CH-SIMS），但论文未说明是否提供处理好的数据或获取指引。 Demo：未提及。复现材料：提供了部分超参数（学习率、batch size、训练轮数、损失权重），但缺失模型架构具体参数（如层数、维度）、训练硬件、优化器类型等关键信息。论文中引用的开源项目：提到了使用BERT作为文本编码器，但未说明具体是哪个版本或实现。论文中未提及开源计划。 📌 核心摘要要解决什么问题：现有基于表示学习或融合学习的多模态情感分析方法，面临模态间冗余噪声干扰以及融合策略静态、不灵活的挑战。方法核心是什么：提出DPMSA-MoE框架。首先分别提取文本、音频、视觉的单模态特征；然后将每个特征投影到“语义共振”和“语义分歧”两个子空间，共形成六个视角的表征，并通过对比学习进行约束；最后，设计一个基于混合专家（MoE）的“语义中介”模块，利用门控网络动态加权融合这六个专家（每个子空间对应一个专家）的输出，生成最终的多模态表征。与已有方法相比新在哪里：1）首次在多模态情感分析中显式建模“共振”（模态一致情感）与“分歧”（模态冲突情感）的双重视角。2）将MoE机制引入多模态融合，实现了根据输入上下文自适应地选择和组合不同语义来源的动态融合，而非固定的加权拼接或注意力机制。主要实验结果如何：在三个基准数据集上，DPMSA-MoE均取得优异性能。在MOSI数据集上，7分类准确率（Acc-7）达到45.77%，相比次优模型CGGM提升2.56个百分点；在MOSEI上，5分类准确率（Acc-5）达到54.28%，相比基线有显著提升；在CH-SIMS上，3分类准确率（Acc-3）达到71.12%，相比ALMT提升2.19个百分点。消融实验表明，移除分歧建模、共振建模或MoE融合模块都会导致性能显著下降，其中MoE模块的移除影响最大。实际意义是什么：该框架为处理复杂、冲突的多模态情感信号提供了一种新的范式，其动态融合机制增强了模型在真实世界多变场景下的鲁棒性和适应性，可应用于更精细的社交情绪理解、人机交互反馈等场景。主要局限性是什么：论文未公开代码、模型和详细复现实验的硬件环境，降低了可复现性。消融实验未能深入探究MoE中专家数量、门控网络设计等关键超参数的影响。此外，双视角投影层的具体设计（如Tanh激活的作用）缺乏更深入的理论或实验分析。 🏗️ 模型架构论文提出的DPMSA-MoE框架（如图1所示）主要由三个阶段组成： ...

Dual-Strategy-Enhanced Conbimamba for Neural Speaker Diarization

📄 Dual-Strategy-Enhanced Conbimamba for Neural Speaker Diarization #说话人分离 #多任务学习 #端到端 #边界增强 🔥 8.0/10 | 前25% | #说话人分离 | #多任务学习 | #端到端 #边界增强学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.8 | 置信度高 👥 作者与机构第一作者：Zhen Liao（华中科技大学电子信息与通信学院，智能互联网技术湖北省重点实验室）通讯作者：Wei Xu（华中科技大学电子信息与通信学院，智能互联网技术湖北省重点实验室）作者列表：Zhen Liao（华中科技大学电子信息与通信学院）、Gaole Dai（华中科技大学电子信息与通信学院）、Mengqiao Chen（华中科技大学电子信息与通信学院）、Wenqing Cheng（华中科技大学电子信息与通信学院）、Wei Xu（华中科技大学电子信息与通信学院） 💡 毒舌点评亮点：该工作系统性地解决了基于Pyannote流水线中说话人日志模型的两个实际痛点——利用ConBiMamba平衡局部建模与长程效率，并通过设计边界增强损失和层次特征聚合直接优化了模型在“说话人切换点”和“多层特征利用”上的弱点，实现了有据可查的性能提升。短板：其核心组件ConBiMamba是对他人已有架构的直接应用和微调，原创性略显不足；同时，实验部分主要沿用冻结的预训练特征提取器（WavLM），并未深入探索与现代端到端微调范式（如Diarizen中的做法）的结合潜力，限制了系统性能的天花板。 🔗 开源详情代码：是，论文中提供了代码仓库链接：https://github.com/lz-hust/DSE-CBM。模型权重：未提及是否公开。数据集：论文中使用的六个数据集均为公开数据集，但论文本身未提供或托管新数据集。 Demo：未提及。复现材料：论文中提供了详细的训练设置（两阶段训练、优化器、学习率策略、批大小等）、推理设置（模型平均、嵌入提取、聚类与优化）以及关键超参数，复现细节较为充分。论文中引用的开源项目：特征提取器：WavLM (https://huggingface.co/microsoft/wavlm-base-plus) 说话人嵌入提取：ECAPA-TDNN from SpeechBrain (https://speechbrain.github.io/) 优化工具：scikit-optimize (用于聚类超参数搜索) 基线模型：Pyannote.audio (https://github.com/pyannote/pyannote-audio) 📌 核心摘要问题：现有端到端神经说话人日志方法（如基于Pyannote的）在建模长音频序列时面临计算效率与记忆开销问题，且在说话人切换边界处的预测不稳定，导致迪亚化错误率（DER）升高。Conformer模型在长序列上存在计算瓶颈，Mamba模型则可能牺牲局部细节。方法核心：提出“双重策略增强的ConBiMamba神经说话人日志系统”。核心是采用ConBiMamba架构作为局部EEND模块，它结合了Conformer的卷积模块（增强局部特征）和ExtBiMamba（高效建模长程依赖）。在此基础上，引入两个策略：边界增强过渡损失（作为辅助任务显式建模说话人状态变化）和层次特征聚合（自适应加权融合编码器多层输出）。创新点：架构创新：首次将ConBiMamba成功应用于说话人日志任务。损失函数创新：设计边界增强过渡损失，通过辅助的说话人变化点检测任务，显式强化模型对边界区域的敏感度。表示学习创新：提出基于掩码的层次特征聚合方法，有效利用编码器的多层特征。主要实验结果：在六个基准数据集（AISHELL-4, MagicData-RAMC, VoxConverse, MSDWild, AMI, AliMeeting）上进行评估。在AISHELL-4 (9.8%), RAMC (10.9%), VoxConverse (8.6%), MSDWild (19.2%)四个数据集上取得了截至2025年8月的SOTA性能。消融实验证实了层次特征聚合（聚合最后3层最优）和边界增强过渡损失的有效性。与最强基线相比，系统在边界检测指标（误报率、漏检率）上优势明显。实际意义：为基于Pyannote流水线的说话人日志系统提供了一个高性能的骨干模型和两个即插即用的增强策略，可直接提升会议转录、语音助手等应用中“谁在何时说话”的识别准确度。主要局限性：系统性能部分受限于固定的预训练特征提取器（WavLM），未探索联合优化带来的潜在收益；对于高重叠语音场景（如AliMeeting）的处理能力仍有提升空间。 🏗️ 模型架构本文提出的“双重策略增强的ConBiMamba说话人日志系统”遵循Pyannote流水线，其核心是替换其中的局部EEND（端到端神经迪亚化）模块。整体架构如图1所示。 ...

Dynamic Balanced Cross-Modal Attention with Gated Sequence Restoration: Towards Robust Multimodal Sentiment Analysis

📄 Dynamic Balanced Cross-Modal Attention with Gated Sequence Restoration: Towards Robust Multimodal Sentiment Analysis #跨模态 #语音情感识别 #多任务学习 #鲁棒性 ✅ 7.5/10 | 前25% | #跨模态 | #多任务学习 | #语音情感识别 #鲁棒性学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度中 👥 作者与机构第一作者：Rong Geng†（† 西安理工大学网络计算与安全陕西省重点实验室）通讯作者：Qindong Sun‡（‡ 西安交通大学网络科学与工程学院；带⋆符号）作者列表： Rong Geng†（西安理工大学网络计算与安全陕西省重点实验室） Qindong Sun†,‡,⋆（†西安理工大学网络计算与安全陕西省重点实验室；‡西安交通大学网络科学与工程学院） Han Cao†（西安理工大学网络计算与安全陕西省重点实验室） Xiaoxiong Wang†（西安理工大学网络计算与安全陕西省重点实验室） 💡 毒舌点评亮点：论文针对MSA领域实际部署中的两大“拦路虎”——模态缺失与模态不平衡——给出了清晰、模块化的解决方案（GSR + DBCA），并在广泛实验中证明了其有效性，特别是在不完整模态下的性能提升显著。短板：技术方法的创新深度有限，核心模块（如GSR的门控融合、DBCA的熵正则化）在动机和设计上略显直觉化，缺乏更深刻的理论分析或与其他更强大生成式修复方法的深入对比。 🔗 开源详情代码：论文中未提及代码链接。模型权重：未提及。数据集：使用的是公开基准数据集CMU-MOSI和CMU-MOSEI，但未说明获取方式。 Demo：未提及。复现材料：提供了部分实现细节（优化器、学习率、批量大小、损失权重、早停策略），但缺少完整的训练脚本、配置文件、预处理代码和检查点。论文中引用的开源项目：引用了BERT（用于文本特征提取）。总结：论文中未提及开源计划。虽然提供了部分超参数，但要完整复现该研究，仍需较多自行探索。 📌 核心摘要本文旨在解决多模态情感分析（MSA）在实际应用中因模态不完整（如图像模糊、语音噪声）和模态不平衡（模型过度依赖主导模态）而导致的性能下降问题。为此，作者提出了DBCA-GSR框架，其核心由两部分构成：1）门控序列恢复（GSR）模块，它利用全局上下文注意力从其他可用模态中重建缺失模态的特征序列，并通过门控机制动态融合重建特征与原始不完整特征；2）动态平衡跨模态注意力（DBCA）模块，它通过一个三模态注意力架构促进特征级的跨模态交互，并引入基于熵的软正则化损失来最小化注意力分布与均匀分布之间的KL散度，从而防止模型过度关注主导模态。与以往使用静态映射的生成模型或依赖固定规则/复杂级联网络的平衡方法相比，本工作将动态恢复与显式注意力平衡相结合。在CMU-MOSI和CMU-MOSEI基准数据集上的实验表明，DBCA-GSR在完整和不完整模态设置下均优于或匹配现有最先进方法。特别是在平均缺失率从0.0到0.9的不完整设置下，DBCA-GSR在多项指标上取得了最佳性能，例如在CMU-MOSI上，7分类准确率（Acc-7）比最强基线高出2.3%。该工作的实际意义在于提高了MSA模型在真实世界噪声环境下的鲁棒性和可靠性。主要局限性在于模块设计相对直接，且实验仅限于两个情感分析数据集，其泛化到其他多模态任务的能力有待验证。 ...

Dynamic Noise-Aware Multi Lora Framework Towards Real-World Audio Deepfake Detection

📄 Dynamic Noise-Aware Multi Lora Framework Towards Real-World Audio Deepfake Detection #音频深度伪造检测 #领域适应 #鲁棒性 🔥 8.0/10 | 前25% | #音频深度伪造检测 | #领域适应 | #鲁棒性学术质量 6.0/7 | 选题价值 1.8/2 | 复现加成 0.0 | 置信度高 👥 作者与机构第一作者：Woongjae Lee (Soongsil University, Seoul, Republic of Korea) 通讯作者：Souhwan Jung* (Soongsil University, Seoul, Republic of Korea) 作者列表：Woongjae Lee (松石大学), Hung Dinh-Xuan (松石大学), Thien-Phuc Doan (松石大学), Souhwan Jung* (松石大学) 💡 毒舌点评这篇论文的亮点在于巧妙地将LoRA从语言模型“移植”并动态化应用于音频安全领域，通过“感知-路由-适应”的范式平衡了模型适应新噪声域与防止灾难性遗忘的矛盾，工程思路清晰。但短板在于其“动态”选择的噪声分类器本身是一个额外的误差源，且论文并未在包含未知/混合噪声的更真实场景中验证其端到端效果，离“完全鲁棒”尚有距离。 🔗 开源详情代码：论文中未提及代码仓库链接。模型权重：未提及公开预训练的骨干模型、噪声分类器或LoRA适配器权重。数据集：论文描述了如何基于公开数据集（LibriSpeech, VCTK, TIMIT, ASVspoof 2019/2021）构建噪声增强数据集，但并未提供构建好的数据集本身或下载链接。 Demo：未提及。复现材料：未提供训练超参数（如学习率、batch size）、优化器、硬件环境等关键复现信息。论文中引用的开源项目：论文中提到了依赖的开源工具/模型，如RawBoost [6]、librosa（用于音高/时间变换）、torchaudio/sox（用于滤波）、wav2vec 2.0 [28]、SSAST [29]等，但未提供具体使用版本或配置。总结：论文中未提及任何开源计划。 📌 核心摘要问题：现有的音频深度伪造检测（ADD）模型在干净环境下性能优越，但在真实世界的复杂噪声和语音操纵下性能严重下降，而传统的数据增强和微调方法存在泛化性差或导致灾难性遗忘的问题。方法核心：提出一个动态噪声感知多LoRA（DNA Multi LoRA）框架。该框架首先通过一个轻量级的噪声分类模块识别输入音频的噪声类型，然后根据分类结果动态选择一个预先训练好的、专门针对该噪声类型的LoRA适配器，将其集成到冻结的ADD模型骨干网络中进行检测。创新点：相比于现有方法，本文创新性地结合了噪声感知与参数高效微调（LoRA）。1）实现了“一个骨干网络 + 多个轻量LoRA适配器”的模块化设计，扩展新噪声域无需重训整个模型；2）通过动态适配机制避免了顺序微调中的灾难性遗忘问题。主要实验结果：在多个基准数据集（包括构建的噪声增强数据集和真实世界数据集）上，DNA Multi LoRA框架相比基线模型实现了平均41.4%的等错误率（EER）降低。在池化EER上，该方法（AASIST-SSL: 7.93%, ConformerTCM: 7.55%）接近全量微调的效果（约8.1%），但参数量仅为全量微调的约8.5%，并有效避免了灾难性遗忘（如图2所示，顺序微调会导致EER从约0.2%飙升至约5%）。每个噪声特定LoRA适配器在其目标域上均显著优于基线（表4），例如在D4（回声）域，AASIST-SSL的EER从10.42%降至0.92%。实际意义：提供了一种高效、可扩展且可部署的解决方案，使ADD系统能够在不进行全面重训的情况下，动态适应多种现实世界噪声环境，提升了模型的实用性和鲁棒性。主要局限性：框架的性能依赖于噪声分类器的准确性，且目前仅在预定义的10种噪声类别上进行了验证；对于完全未知的噪声类型或复杂混合噪声，框架的适应能力和鲁棒性尚待进一步研究。 🏗️ 模型架构如图1（![图1: Dynamic Noise-Aware Multi LoRA framework architecture](https://nanless.github.io/audio-paper-digest-images/icassp-2026/2026-04-29/11463424-0.png))所示，DNA Multi LoRA框架是一个三阶段系统： ...

Dynamic Spectrogram Analysis with Local-Aware Graph Networks for Audio Anti-Spoofing

📄 Dynamic Spectrogram Analysis with Local-Aware Graph Networks for Audio Anti-Spoofing #音频深度伪造检测 #图神经网络 #自监督学习 #动态卷积 🔥 8.5/10 | 前10% | #音频深度伪造检测 | #图神经网络 | #自监督学习 #动态卷积学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Yingdong Li（中山大学计算机学院）通讯作者：Kun Zeng（中山大学计算机学院， zengkun2@mail.sysu.edu.cn）作者列表：Yingdong Li（中山大学计算机学院）、Chengxin Chen（中国移动互联网公司，中国移动通信集团公司）、Dong Chen（中山大学计算机学院）、Nanli Zeng（中国移动互联网公司，中国移动通信集团公司）、Kun Zeng（中山大学计算机学院） 💡 毒舌点评亮点在于将动态卷积与物理视角的多视图频谱分析相结合，并为强大的AASIST图网络框架增加了巧妙的局部信息聚合机制（LVM和SRM），技术融合顺畅且针对性强。短板是双分支前端（SSL + 频谱）不可避免地带来了计算开销，论文未对模型效率（如参数量、推理速度）进行分析或讨论，这在实际部署中可能是一个考量点。 🔗 开源详情代码：论文中提供了代码仓库链接：https://github.com/lydsera/LocalSpoofDetect。模型权重：论文中未提及是否公开模型权重。数据集：使用的是公开数据集（ASVspoof 2019 LA， CFSD），论文未提及自行发布新数据集。 Demo：论文中未提及提供在线演示。复现材料：论文中提供了详尽的实现细节（见3.2节），包括音频采样率、频谱图参数、SSL模型处理方式、训练优化器、学习率、批大小、损失函数、数据增强方法（RawBoost）以及训练硬件（A100 GPU），为复现提供了充分信息。引用的开源项目： wav2vec 2.0 (XLS-R模型) RawNet2 AASIST (原始架构) RawBoost (数据增强方法) 📌 核心摘要问题：针对日益多样的语音深度伪造技术，现有音频反欺骗方法在模型复杂度和鲁棒性之间难以取得平衡，且固定的特征提取方式难以自适应地捕获不同尺度的伪造痕迹。方法核心：提出一个双分支前端与增强图网络后端相结合的模型。前端包含自监督（SSL）分支和新设计的频谱分析分支。频谱分支采用“对称性引导内核选择（SKS）”块，通过物理视角（时间/频谱对称性）分析生成上下文图，动态加权不同尺度的卷积核。后端在AASIST框架上新增了“局部变化主节点（LVM）”和“稀疏残差主节点（SRM）”，以建模精细的局部伪造模式。创新点：(i) 利用频谱对称性指导动态卷积，自适应捕获多尺度伪造伪影；(ii) 采用残差式快捷连接简化前端特征融合，无需复杂融合模块；(iii) 增强图神经网络后端，引入LVM和SRM节点以聚合局部判别信息。实验结果：在ASVspoof 2019 LA和中文伪造语音数据集（CFSD）上取得了当前最优性能，EER分别为0.08%和0.10%，min t-DCF为0.0024。消融实验证实了每个提出组件的有效性。实际意义：该模型能有效、鲁棒地检测合成与伪造语音，可增强语音生物识别等系统的安全性，对抵御日益逼真的语音伪造攻击具有重要价值。主要局限性：未分析模型的计算效率（参数量、FLOPs、推理延迟），可能限制其在资源受限场景的应用；双分支架构对SSL预训练模型的依赖性较强。 🏗️ 模型架构模型整体架构为双分支前端 + 增强图网络后端，具体流程如下： ...

Dynamically Slimmable Speech Enhancement Network with Metric-Guided Training

📄 Dynamically Slimmable Speech Enhancement Network with Metric-Guided Training #语音增强 #动态网络 #指标引导训练 #轻量模型 ✅ 7.5/10 | 前25% | #语音增强 | #动态网络 | #指标引导训练 #轻量模型学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度高 👥 作者与机构第一作者：未说明（论文中三位作者顺序未明确标注为第一作者）通讯作者：未说明作者列表：Haixin Zhao（IDLab, Ghent University - imec），Kaixuan Yang（IDLab, Ghent University - imec），Nilesh Madhu（IDLab, Ghent University - imec） 💡 毒舌点评亮点：这篇论文将“动态网络”从单一组件（如仅卷积层）推广到了语音增强中常见的各类组件（GRU、MHA、Conv、FC），且设计的指标引导训练（MGT）逻辑清晰，让模型学会“看人下菜碟”，实验上也确实验证了其资源分配的智能性。短板：创新性虽然扎实，但核心是工程化整合与训练技巧的改进，理论深度有限；且其声称的“架构无关性”目前仅在一个具体基线（FTF-Net）上验证，说服力稍显不足。 📌 核心摘要解决的问题：为解决静态轻量级语音增强模型对不同质量输入“一视同仁”导致的计算资源分配不优问题，需要一种能根据输入质量动态调整计算量的架构。方法核心：提出动态可瘦身网络（DSN），将基线模型（FTF-Net）中常见的组件（卷积、GRU、MHA）改造为静态/动态并行路径。引入策略模块生成逐帧门控向量，控制动态路径的激活。进一步提出指标引导训练（MGT），利用输入语音的DNS-MOS OVRL分数作为目标，显式引导策略模块学习评估输入质量。新意：与现有仅针对单一组件或依赖隐式学习的方法相比，DSN扩展了动态机制的适用范围；MGT则首次利用外部语音质量评估指标（如DNS-MOS）作为训练信号，显式、直接地指导模型进行资源分配。主要实验结果：在DNS3数据集上，MGT-DSN（平均50%激活率）在ESTOI, SI-SDR, PESQ等指标上达到与静态SOTA基线（FTF-Net）相当的性能，但平均计算量仅为后者的73%（221M MACs/s vs. 301M MACs/s）。在Voicebank+Demand测试集上，MGT-DSN与FTF-Net和CCFNet+等基线性能持平，但计算量仅为它们的73%和15%。关键对比图表：图5对比了三种模型在不同SNR下的六项指标得分。图6展示了标准动态模型与MGT动态模型的激活比例随SNR和OVRL分数的变化趋势，MGT模型的激活比例与输入质量呈现明确的负相关。实际意义：使语音增强模型能够根据实际语音的损坏程度自适应地分配计算资源，在保证增强质量的同时降低平均功耗，更适合资源受限的实时边缘设备部署。主要局限性：动态框架的普适性仅在FTF-Net上验证，是否在其他架构上同样有效需进一步证明。 MGT训练依赖外部的DNS-MOS分数，其准确性与泛化能力会影响引导效果。尽管平均计算量降低，但峰值计算量并未减少（激活比例为1时），对于硬件峰值功耗有严格要求的场景可能仍需考虑。 🏗️ 模型架构 DSN整体架构图1：动态可瘦身网络（DSN）整体架构图。模型基于三层U-Net结构。前两层卷积是静态的。从第三层卷积开始，引入动态组件。策略模块位于早期卷积层之后，接收特征，输出逐帧门控向量g，该向量全局控制所有动态模块（图中虚线路径与盒状“G”）的开启（1）或关闭（0）。动态GRU模块图2：频率Transformer中的动态GRU模块。四个双向GRU组被分为两组静态、两组动态。后接的线性层也被设计为动态结构。静态组的输出始终传递，动态组的输出通过门控与静态输出结合，形成动态路径。动态GRU单元图3：时间Transformer动态GRU组中的GRU单元。与频率Transformer不同，这里仅将当前帧的“输入到隐藏”路径设置为可动态剪枝，而隐藏状态更新始终保留，以维持时间连续性。动态MHA模块图4：动态多头注意力（MHA）模块。一半注意力头为静态，一半为动态。在Q、K、V的线性投影以及输出投影中，均采用了与GRU块类似的动态线性块结构。 ...

E2E-AEC: Implementing An End-To-End Neural Network Learning Approach for Acoustic Echo Cancellation

📄 E2E-AEC: Implementing An End-To-End Neural Network Learning Approach for Acoustic Echo Cancellation #语音增强 #端到端 #迁移学习 #声学回声消除 #多任务学习 ✅ 7.5/10 | 前25% | #语音增强 | #端到端 | #迁移学习 #声学回声消除学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度高 👥 作者与机构第一作者：Yiheng Jiang（阿里巴巴通义实验室）通讯作者：未说明作者列表：Yiheng Jiang（阿里巴巴通义实验室）、Biao Tian（阿里巴巴通义实验室）、Haoxu Wang（阿里巴巴通义实验室）、Shengkui Zhao（阿里巴巴通义实验室）、Bin Ma（阿里巴巴通义实验室）、Daren Chen（阿里巴巴通义实验室）、Xiangang Li（阿里巴巴通义实验室） 💡 毒舌点评本文最大亮点在于用扎实的消融实验证明了从传统LAEC模型迁移知识到纯神经网络E2E-AEC的可行性，为简化AEC系统流水线提供了有力证据。但短板也很明显：模型本身（1.2M参数的GRU网络）创新有限，更像是多个成熟技巧（渐进学习、注意力对齐、VAD掩码）的工程化组合，且论文未提供任何代码或模型，对于追求可复现的读者而言，其技术细节的透明度打了折扣。 🔗 开源详情代码：论文中未提及代码链接。模型权重：未提及公开权重。数据集：训练数据来自公开数据集（DNS Challenge， AEC Challenge），但论文未提供处理后的专用数据集。 Demo：未提及在线演示。复现材料：给出了模型结构（RNN块设计、层数、维度）、输入特征规格（STFT帧长/移）、损失函数组成和权重、以及部分超参数（模型总参数1.2M）。但未提供完整的训练脚本、优化器设置、学习率策略、数据增强细节等关键复现信息。引用的开源项目：提及使用了gpuRIR [25]生成房间脉冲响应，WebRTC-VAD生成VAD标签。总体开源计划：论文中未提及开源计划。 📌 核心摘要问题：传统声学回声消除（AEC）依赖线性自适应滤波器和时延估计，在非线性、时变回声路径下性能下降；现有混合系统复杂，而纯端到端方法在大时延场景下性能不佳。方法核心：提出E2E-AEC，一个完全基于神经网络的端到端AEC模型。其核心创新在于：采用渐进式学习分阶段消除回声与噪声；通过知识迁移，用预训练的混合系统模型初始化网络，以继承其先验知识；设计带监督损失的注意力机制实现精确的信号时间对齐；并引入语音活动检测预测与掩码策略在推理时进一步抑制远端回声。与已有方法相比：新在完全摆脱了传统信号处理流水线（TDE/LAEC），并通过上述策略的组合，解决了端到端模型在时间对齐和初始回声抑制上的难题，使其性能超越或媲美复杂的混合系统及已有的端到端方法（如DeepVQE）。主要实验结果：在AEC Challenge 2023/2022盲测集上，完整模型（Exp 6）取得最优成绩。关键数据见表1：方法 (AEC Challenge 2023) MOSavg ERLE (dB) DeepVQE (E2E, SOTA) 4.40 65.7 E2E-AEC (本文, Exp 6) 4.51 78.69 消融实验（表2）证明了“注意力+损失函数”对时间对齐的有效性。表3显示从第五层提取VAD预测并掩码效果最佳。实际意义：展示了端到端方法在AEC任务上达到甚至超越工业级混合系统的潜力，有望简化部署并提升全双工通话质量。主要局限性：VAD掩码导致的超高ERLE（78.69dB）可能过度抑制，在真实复杂场景（如持续双讲、非平稳噪声）下的泛化能力和鲁棒性有待更全面评估。论文未公开模型与代码。 🏗️ 模型架构模型整体为基于时频掩蔽的端到端神经网络，输入为带混响、回声和噪声的麦克风信号的STFT特征，输出为纯净近端语音的STFT频谱估计（中间阶段为回声抑制后的语音+噪声频谱）。 ...