Dual Contrastive Learning for Semi-Supervised Domain Adaptation in Bi-Modal Depression Recognition

📄 Dual Contrastive Learning for Semi-Supervised Domain Adaptation in Bi-Modal Depression Recognition #语音生物标志物 #对比学习 #领域适应 #多模态模型 ✅ 7.0/10 | 前25% | #语音生物标志物 | #对比学习 | #领域适应 #多模态模型 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 -0.5 | 置信度 中 👥 作者与机构 第一作者:Lei Jin(东南大学计算机科学与工程学院) 通讯作者:Chunfeng Yang(东南大学计算机科学与工程学院), Wentao Xiang(南京医科大学生物医学工程与信息学院) 作者列表:Lei Jin(东南大学计算机科学与工程学院), Zhuochang Xu(未说明), Yudong Zhang(未说明), Shijie Wang(未说明), Chunfeng Yang(东南大学计算机科学与工程学院), Wentao Xiang(南京医科大学生物医学工程与信息学院) 💡 毒舌点评 亮点:针对抑郁症识别中数据稀缺和领域偏移的核心痛点,提出了一个结构清晰、技术整合度高的双对比学习框架,将无监督跨模态对齐与有监督伪标签优化有机结合,逻辑自洽。短板:虽然方法有效,但核心组件(对比学习、伪标签)均非全新,更像是现有技术的精巧组合与适配;且论文未提供代码或训练细节,对于一篇发表在ICASSP(信号处理会议)上的工作,其音频/语音处理深度和可复现性细节略显不足。 📌 核心摘要 这篇论文旨在解决双模态(音频与视频)抑郁症识别任务中标注数据稀缺以及跨数据集(跨语言、设备、人群)存在领域偏移的问题。为此,作者提出了一个名为DuCL的双对比学习半监督领域适应框架。该框架的核心是两个模块:1) 语义一致性加权无监督对比学习(SCW-UCL),利用样本间的语义相似度来抑制假负例,增强音频与视频模态间的通用表征对齐;2) 联合伪标签加权有监督对比学习(JPW-SCL),通过融合分类器预测和样本相似性信息生成更可靠的伪标签,并利用置信度加权来降低噪声和缓解领域偏移。与已有方法相比,其创新点在于将两种互补的对比学习策略系统性地整合,以更充分、可靠地利用大量无标签数据。实验在三个公开数据集(AVEC 2014, CMDC, DAIC-WOZ)上进行,结果表明该方法在准确率���F1分数等指标上一致性地优于DANN、MME、CDAC、CLDA等基线方法,特别是在跨语言迁移(如DAIC-WOZ到AVEC2014)任务中取得了最佳的F1分数(0.52)。该研究的实际意义在于提升了自动化抑郁识别模型在真实临床场景下的鲁棒性和适用性。主要局限性是框架的性能可能高度依赖于伪标签的质量和相似度建模的准确性,且实验未探讨模型在更极端或更复杂的领域偏移下的表现。 🏗️ 模型架构 本文提出的DuCL(双对比学习)框架整体架构如图1所示。 模型以双模态数据作为输入:音频特征X(a)(来自log-Mel频谱图)和视频特征X(v)(来自二维人脸关键点)。架构主要由四个部分组成: ...

2026-04-29

Dual Data Scaling for Robust Two-Stage User-Defined Keyword Spotting

📄 Dual Data Scaling for Robust Two-Stage User-Defined Keyword Spotting #语音活动检测 #多任务学习 #对比学习 #零样本 ✅ 7.5/10 | 前25% | #语音活动检测 | #多任务学习 | #对比学习 #零样本 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Zhiqi Ai(上海大学) 通讯作者:Yongjin Zhou(上海大学)、Shugong Xu(西安交通大学利物浦大学) 作者列表:Zhiqi Ai(上海大学),Han Cheng(上海大学),Yuxin Wang(上海大学),Shiyi Mu(上海大学),Yongjin Zhou(上海大学),Shugong Xu(西安交通大学利物浦大学) 💡 毒舌点评 亮点:提出了一种清晰的两阶段(检测+验证)框架,并创新性地将“双数据扩展”策略应用于两阶段模型的不同部分(声学模型和匹配器),在LibriPhrase-Hard子集上取得了显著优于现有方法的性能。短板:论文第二阶段中“轻量级注册模块”(nn.Embedding)与“跨模态对齐”的具体实现和有效性论证略显简略,且训练策略、超参数等关键复现信息缺失,降低了其作为完整工作发表的说服力。 📌 核心摘要 要解决的问题:在用户自定义关键词检测任务中,现有基于零样本或微调的方法在区分易混淆词和处理边界不精确、误报率高的问题上存在不足。 方法核心:提出DS-KWS,一个两阶段框架。第一阶段:使用基于CTC的声学模型和流式音素搜索模块定位候选片段。第二阶段:使用基于查询文本(QbyT)的音素匹配器在音素级和话语级进行验证。 新在哪里(创新):1) 提出“双数据扩展”策略:将第一阶段声学模型的训练数据从460小时扩展到1460小时,并将第二阶段匹配器的训练锚点类别从约78k扩展到155k,以分别增强模型的鲁棒性和区分力。2) 设计了轻量级的音素匹配器架构,采用简单的nn.Embedding进行文本注册,降低了复杂度。 主要实验结果:在LibriPhrase-Hard数据集上,DS-KWS-M2取得6.13% EER和97.85% AUC,显著优于对比方法。在Hey-Snips数据集上,实现零样本性能,召回率达99.80%(在1次/小时误报率下)。关键实验数据见表1、表2、表3和表4。 表1:LibriPhrase数据集对比实验结果 方法 参数量 AUC (%) ↑ EER (%) ↓ LPH LPE LPH LPE CMCD [1] 0.7M 73.58 96.70 32.90 8.42 EMKWS [16] 3.7M 84.21 97.83 23.36 7.36 CED [17] 3.6M 92.70 99.84 14.40 1.70 SLiCK [19] 0.6M 94.90 99.82 11.10 1.78 MM-KWS-T [3] 3.9M 95.36 99.94 10.41 0.82 MM-KWS-AT [3] 3.9M 96.25 99.95 9.30 0.68 DS-KWS-M2 4.1M 97.85 99.98 6.13 0.45 表2:双数据扩展实验结果 ...

2026-04-29

Dual-Perspective Multimodal Sentiment Analysis with MoE Fusion: Representation Learning via Semantic Resonance and Divergence

📄 Dual-Perspective Multimodal Sentiment Analysis with MoE Fusion: Representation Learning via Semantic Resonance and Divergence #多模态情感分析 #多模态模型 #对比学习 #混合专家 #情感计算 ✅ 7.0/10 | 前50% | #多模态情感分析 | #多模态模型 | #对比学习 #混合专家 学术质量 6.0/7 | 选题价值 1.3/2 | 复现加成 -0.5 | 置信度 中 👥 作者与机构 第一作者:Kaiwei Sun(重庆邮电大学 数据工程与可视化计算重点实验室) 通讯作者:未说明 作者列表:Kaiwei Sun(重庆邮电大学 数据工程与可视化计算重点实验室)、Yixian Guo(同前)、Jin Wang(同前)、Xin Deng(同前) 💡 毒舌点评 亮点在于将“共振”与“分歧”这一对哲学概念巧妙地映射到多模态表示学习中,并借助MoE机制实现了灵活的上下文感知融合,框架设计新颖且具有较好的可解释性潜力。然而,论文的“厚度”不足:训练细节披露不全(如GPU型号、具体训练时长)、消融实验过于“标准”而缺乏更深层的机制探索(如门控网络权重可视化),且对MoE中“专家”的具体结构描述简略,让扎实的创新打了折扣。 📌 核心摘要 要解决什么问题:现有基于表示学习或融合学习的多模态情感分析方法,面临模态间冗余噪声干扰以及融合策略静态、不灵活的挑战。 方法核心是什么:提出DPMSA-MoE框架。首先分别提取文本、音频、视觉的单模态特征;然后将每个特征投影到“语义共振”和“语义分歧”两个子空间,共形成六个视角的表征,并通过对比学习进行约束;最后,设计一个基于混合专家(MoE)的“语义中介”模块,利用门控网络动态加权融合这六个专家(每个子空间对应一个专家)的输出,生成最终的多模态表征。 与已有方法相比新在哪里:1)首次在多模态情感分析中显式建模“共振”(模态一致情感)与“分歧”(模态冲突情感)的双重视角。2)将MoE机制引入多模态融合,实现了根据输入上下文自适应地选择和组合不同语义来源的动态融合,而非固定的加权拼接或注意力机制。 主要实验结果如何:在三个基准数据集上,DPMSA-MoE均取得优异性能。在MOSI数据集上,7分类准确率(Acc-7)达到45.77%,相比次优模型CGGM提升2.56个百分点;在MOSEI上,5分类准确率(Acc-5)达到54.28%,相比基线有显著提升;在CH-SIMS上,3分类准确率(Acc-3)达到71.12%,相比ALMT提升2.19个百分点。消融实验表明,移除分歧建模、共振建模或MoE融合模块都会导致性能显著下降,其中MoE模块的移除影响最大。 实际意义是什么:该框架为处理复杂、冲突的多模态情感信号提供了一种新的范式,其动态融合机制增强了模型在真实世界多变场景下的鲁棒性和适应性,可应用于更精细的社交情绪理解、人机交互反馈等场景。 主要局限性是什么:论文未公开代码、模型和详细复现实验的硬件环境,降低了可复现性。消融实验未能深入探究MoE中专家数量、门控网络设计等关键超参数的影响。此外,双视角投影层的具体设计(如Tanh激活的作用)缺乏更深入的理论或实验分析。 🏗️ 模型架构 论文提出的DPMSA-MoE框架(如图1所示)主要由三个阶段组成: 单模态特征提取: 输入:文本(T)、音频(A)、视觉(V)三种模态的原始数据。 处理:使用BERT提取文本的[CLS] token表示作为文本特征 x_t;使用两个独立的、基于Transformer的编码器分别提取视觉特征 x_v 和音频特征 x_a。 输出:三个单模态特征向量。 双视角语义建模: ...

2026-04-29

Dual-Strategy-Enhanced Conbimamba for Neural Speaker Diarization

📄 Dual-Strategy-Enhanced Conbimamba for Neural Speaker Diarization #说话人分离 #多任务学习 #端到端 #边界增强 🔥 8.0/10 | 前25% | #说话人分离 | #多任务学习 | #端到端 #边界增强 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.8 | 置信度 高 👥 作者与机构 第一作者:Zhen Liao(华中科技大学电子信息与通信学院,智能互联网技术湖北省重点实验室) 通讯作者:Wei Xu(华中科技大学电子信息与通信学院,智能互联网技术湖北省重点实验室) 作者列表:Zhen Liao(华中科技大学电子信息与通信学院)、Gaole Dai(华中科技大学电子信息与通信学院)、Mengqiao Chen(华中科技大学电子信息与通信学院)、Wenqing Cheng(华中科技大学电子信息与通信学院)、Wei Xu(华中科技大学电子信息与通信学院) 💡 毒舌点评 亮点:该工作系统性地解决了基于Pyannote流水线中说话人日志模型的两个实际痛点——利用ConBiMamba平衡局部建模与长程效率,并通过设计边界增强损失和层次特征聚合直接优化了模型在“说话人切换点”和“多层特征利用”上的弱点,实现了有据可查的性能提升。 短板:其核心组件ConBiMamba是对他人已有架构的直接应用和微调,原创性略显不足;同时,实验部分主要沿用冻结的预训练特征提取器(WavLM),并未深入探索与现代端到端微调范式(如Diarizen中的做法)的结合潜力,限制了系统性能的天花板。 📌 核心摘要 问题:现有端到端神经说话人日志方法(如基于Pyannote的)在建模长音频序列时面临计算效率与记忆开销问题,且在说话人切换边界处的预测不稳定,导致迪亚化错误率(DER)升高。Conformer模型在长序列上存在计算瓶颈,Mamba模型则可能牺牲局部细节。 方法核心:提出“双重策略增强的ConBiMamba神经说话人日志系统”。核心是采用ConBiMamba架构作为局部EEND模块,它结合了Conformer的卷积模块(增强局部特征)和ExtBiMamba(高效建模长程依赖)。在此基础上,引入两个策略:边界增强过渡损失(作为辅助任务显式建模说话人状态变化)和层次特征聚合(自适应加权融合编码器多层输出)。 创新点: 架构创新:首次将ConBiMamba成功应用于说话人日志任务。 损失函数创新:设计边界增强过渡损失,通过辅助的说话人变化点检测任务,显式强化模型对边界区域的敏感度。 表示学习创新:提出基于掩码的层次特征聚合方法,有效利用编码器的多层特征。 主要实验结果:在六个基准数据集(AISHELL-4, MagicData-RAMC, VoxConverse, MSDWild, AMI, AliMeeting)上进行评估。在AISHELL-4 (9.8%), RAMC (10.9%), VoxConverse (8.6%), MSDWild (19.2%)四个数据集上取得了截至2025年8月的SOTA性能。消融实验证实了层次特征聚合(聚合最后3层最优)和边界增强过渡损失的有效性。与最强基线相比,系统在边界检测指标(误报率、漏检率)上优势明显。 实际意义:为基于Pyannote流水线的说话人日志系统提供了一个高性能的骨干模型和两个即插即用的增强策略,可直接提升会议转录、语音助手等应用中“谁在何时说话”的识别准确度。 主要局限性:系统性能部分受限于固定的预训练特征提取器(WavLM),未探索联合优化带来的潜在收益;对于高重叠语音场景(如AliMeeting)的处理能力仍有提升空间。 🏗️ 模型架构 本文提出的“双重策略增强的ConBiMamba说话人日志系统”遵循Pyannote流水线,其核心是替换其中的局部EEND(端到端神经迪亚化)模块。整体架构如图1所示。 ...

2026-04-29

Dynamic Balanced Cross-Modal Attention with Gated Sequence Restoration: Towards Robust Multimodal Sentiment Analysis

📄 Dynamic Balanced Cross-Modal Attention with Gated Sequence Restoration: Towards Robust Multimodal Sentiment Analysis #跨模态 #语音情感识别 #多任务学习 #鲁棒性 ✅ 7.5/10 | 前25% | #跨模态 | #多任务学习 | #语音情感识别 #鲁棒性 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度 中 👥 作者与机构 第一作者:Rong Geng†(† 西安理工大学网络计算与安全陕西省重点实验室) 通讯作者:Qindong Sun‡(‡ 西安交通大学网络科学与工程学院;带⋆符号) 作者列表: Rong Geng†(西安理工大学网络计算与安全陕西省重点实验室) Qindong Sun†,‡,⋆(†西安理工大学网络计算与安全陕西省重点实验室;‡西安交通大学网络科学与工程学院) Han Cao†(西安理工大学网络计算与安全陕西省重点实验室) Xiaoxiong Wang†(西安理工大学网络计算与安全陕西省重点实验室) 💡 毒舌点评 亮点:论文针对MSA领域实际部署中的两大“拦路虎”——模态缺失与模态不平衡——给出了清晰、模块化的解决方案(GSR + DBCA),并在广泛实验中证明了其有效性,特别是在不完整模态下的性能提升显著。 短板:技术方法的创新深度有限,核心模块(如GSR的门控融合、DBCA的熵正则化)在动机和设计上略显直觉化,缺乏更深刻的理论分析或与其他更强大生成式修复方法的深入对比。 📌 核心摘要 本文旨在解决多模态情感分析(MSA)在实际应用中因模态不完整(如图像模糊、语音噪声)和模态不平衡(模型过度依赖主导模态)而导致的性能下降问题。为此,作者提出了DBCA-GSR框架,其核心由两部分构成:1)门控序列恢复(GSR)模块,它利用全局上下文注意力从其他可用模态中重建缺失模态的特征序列,并通过门控机制动态融合重建特征与原始不完整特征;2)动态平衡跨模态注意力(DBCA)模块,它通过一个三模态注意力架构促进特征级的跨模态交互,并引入基于熵的软正则化损失来最小化注意力分布与均匀分布之间的KL散度,从而防止模型过度关注主导模态。与以往使用静态映射的生成模型或依赖固定规则/复杂级联网络的平衡方法相比,本工作将动态恢复与显式注意力平衡相结合。在CMU-MOSI和CMU-MOSEI基准数据集上的实验表明,DBCA-GSR在完整和不完整模态设置下均优于或匹配现有最先进方法。特别是在平均缺失率从0.0到0.9的不完整设置下,DBCA-GSR在多项指标上取得了最佳性能,例如在CMU-MOSI上,7分类准确率(Acc-7)比最强基线高出2.3%。该工作的实际意义在于提高了MSA模型在真实世界噪声环境下的鲁棒性和可靠性。主要局限性在于模块设计相对直接,且实验仅限于两个情感分析数据集,其泛化到其他多模态任务的能力有待验证。 🏗️ 模型架构 模型整体处理流程如图1所示,包含三个模态输入(视觉V、听觉A、文本T)、两个核心模块(GSR和DBCA)以及预测输出。 图1:DBCA-GSR整体架构图] 整体流程: ...

2026-04-29

Dynamic Noise-Aware Multi Lora Framework Towards Real-World Audio Deepfake Detection

📄 Dynamic Noise-Aware Multi Lora Framework Towards Real-World Audio Deepfake Detection #音频深度伪造检测 #领域适应 #鲁棒性 🔥 8.0/10 | 前25% | #音频深度伪造检测 | #领域适应 | #鲁棒性 学术质量 6.0/7 | 选题价值 1.8/2 | 复现加成 0.0 | 置信度 高 👥 作者与机构 第一作者:Woongjae Lee (Soongsil University, Seoul, Republic of Korea) 通讯作者:Souhwan Jung* (Soongsil University, Seoul, Republic of Korea) 作者列表:Woongjae Lee (松石大学), Hung Dinh-Xuan (松石大学), Thien-Phuc Doan (松石大学), Souhwan Jung* (松石大学) 💡 毒舌点评 这篇论文的亮点在于巧妙地将LoRA从语言模型“移植”并动态化应用于音频安全领域,通过“感知-路由-适应”的范式平衡了模型适应新噪声域与防止灾难性遗忘的矛盾,工程思路清晰。但短板在于其“动态”选择的噪声分类器本身是一个额外的误差源,且论文并未在包含未知/混合噪声的更真实场景中验证其端到端效果,离“完全鲁棒”尚有距离。 📌 核心摘要 问题:现有的音频深度伪造检测(ADD)模型在干净环境下性能优越,但在真实世界的复杂噪声和语音操纵下性能严重下降,而传统的数据增强和微调方法存在泛化性差或导致灾难性遗忘的问题。 方法核心:提出一个动态噪声感知多LoRA(DNA Multi LoRA)框架。该框架首先通过一个轻量级的噪声分类模块识别输入音频的噪声类型,然后根据分类结果动态选择一个预先训练好的、专门针对该噪声类型的LoRA适配器,将其集成到冻结的ADD模型骨干网络中进行检测。 创新点:相比于现有方法,本文创新性地结合了噪声感知与参数高效微调(LoRA)。1)实现了“一个骨干网络 + 多个轻量LoRA适配器”的模块化设计,扩展新噪声域无需重训整个模型;2)通过动态适配机制避免了顺序微调中的灾难性遗忘问题。 主要实验结果:在多个基准数据集(包括构建的噪声增强数据集和真实世界数据集)上,DNA Multi LoRA框架相比基线模型实现了平均41.4%的等错误率(EER)降低。在池化EER上,该方法(AASIST-SSL: 7.93%, ConformerTCM: 7.55%)接近全量微调的效果(约8.1%),但参数量仅为全量微调的约8.5%,并有效避免了灾难性遗忘(如图2所示,顺序微调会导致EER从约0.2%飙升至约5%)。每个噪声特定LoRA适配器在其目标域上均显著优于基线(表4),例如在D4(回声)域,AASIST-SSL的EER从10.42%降至0.92%。 实际意义:提供了一种高效、可扩展且可部署的解决方案,使ADD系统能够在不进行全面重训的情况下,动态适应多种现实世界噪声环境,提升了模型的实用性和鲁棒性。 主要局限性:框架的性能依赖于噪声分类器的准确性,且目前仅在预定义的10种噪声类别上进行了验证;对于完全未知的噪声类型或复杂混合噪声,框架的适应能力和鲁棒性尚待进一步研究。 🏗️ 模型架构 如图1(![图1: Dynamic Noise-Aware Multi LoRA framework architecture](http://teb0hdrpn.hd-bkt.clouddn.com/icassp-2026/2026-04-29/11463424-0.png))所示,DNA Multi LoRA框架是一个三阶段系统: ...

2026-04-29

Dynamic Spectrogram Analysis with Local-Aware Graph Networks for Audio Anti-Spoofing

📄 Dynamic Spectrogram Analysis with Local-Aware Graph Networks for Audio Anti-Spoofing #音频深度伪造检测 #图神经网络 #自监督学习 #动态卷积 🔥 8.5/10 | 前10% | #音频深度伪造检测 | #图神经网络 | #自监督学习 #动态卷积 学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Yingdong Li(中山大学计算机学院) 通讯作者:Kun Zeng(中山大学计算机学院, zengkun2@mail.sysu.edu.cn) 作者列表:Yingdong Li(中山大学计算机学院)、Chengxin Chen(中国移动互联网公司,中国移动通信集团公司)、Dong Chen(中山大学计算机学院)、Nanli Zeng(中国移动互联网公司,中国移动通信集团公司)、Kun Zeng(中山大学计算机学院) 💡 毒舌点评 亮点在于将动态卷积与物理视角的多视图频谱分析相结合,并为强大的AASIST图网络框架增加了巧妙的局部信息聚合机制(LVM和SRM),技术融合顺畅且针对性强。短板是双分支前端(SSL + 频谱)不可避免地带来了计算开销,论文未对模型效率(如参数量、推理速度)进行分析或讨论,这在实际部署中可能是一个考量点。 📌 核心摘要 问题:针对日益多样的语音深度伪造技术,现有音频反欺骗方法在模型复杂度和鲁棒性之间难以取得平衡,且固定的特征提取方式难以自适应地捕获不同尺度的伪造痕迹。 方法核心:提出一个双分支前端与增强图网络后端相结合的模型。前端包含自监督(SSL)分支和新设计的频谱分析分支。频谱分支采用“对称性引导内核选择(SKS)”块,通过物理视角(时间/频谱对称性)分析生成上下文图,动态加权不同尺度的卷积核。后端在AASIST框架上新增了“局部变化主节点(LVM)”和“稀疏残差主节点(SRM)”,以建模精细的局部伪造模式。 创新点:(i) 利用频谱对称性指导动态卷积,自适应捕获多尺度伪造伪影;(ii) 采用残差式快捷连接简化前端特征融合,无需复杂融合模块;(iii) 增强图神经网络后端,引入LVM和SRM节点以聚合局部判别信息。 实验结果:在ASVspoof 2019 LA和中文伪造语音数据集(CFSD)上取得了当前最优性能,EER分别为0.08%和0.10%,min t-DCF为0.0024。消融实验证实了每个提出组件的有效性。 实际意义:该模型能有效、鲁棒地检测合成与伪造语音,可增强语音生物识别等系统的安全性,对抵御日益逼真的语音伪造攻击具有重要价值。 主要局限性:未分析模型的计算效率(参数量、FLOPs、推理延迟),可能限制其在资源受限场景的应用;双分支架构对SSL预训练模型的依赖性较强。 🏗️ 模型架构 模型整体架构为双分支前端 + 增强图网络后端,具体流程如下: ...

2026-04-29

Dynamically Slimmable Speech Enhancement Network with Metric-Guided Training

📄 Dynamically Slimmable Speech Enhancement Network with Metric-Guided Training #语音增强 #动态网络 #指标引导训练 #轻量模型 ✅ 7.5/10 | 前25% | #语音增强 | #动态网络 | #指标引导训练 #轻量模型 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度 高 👥 作者与机构 第一作者:未说明(论文中三位作者顺序未明确标注为第一作者) 通讯作者:未说明 作者列表:Haixin Zhao(IDLab, Ghent University - imec),Kaixuan Yang(IDLab, Ghent University - imec),Nilesh Madhu(IDLab, Ghent University - imec) 💡 毒舌点评 亮点:这篇论文将“动态网络”从单一组件(如仅卷积层)推广到了语音增强中常见的各类组件(GRU、MHA、Conv、FC),且设计的指标引导训练(MGT)逻辑清晰,让模型学会“看人下菜碟”,实验上也确实验证了其资源分配的智能性。短板:创新性虽然扎实,但核心是工程化整合与训练技巧的改进,理论深度有限;且其声称的“架构无关性”目前仅在一个具体基线(FTF-Net)上验证,说服力稍显不足。 📌 核心摘要 解决的问题:为解决静态轻量级语音增强模型对不同质量输入“一视同仁”导致的计算资源分配不优问题,需要一种能根据输入质量动态调整计算量的架构。 方法核心:提出动态可瘦身网络(DSN),将基线模型(FTF-Net)中常见的组件(卷积、GRU、MHA)改造为静态/动态并行路径。引入策略模块生成逐帧门控向量,控制动态路径的激活。进一步提出指标引导训练(MGT),利用输入语音的DNS-MOS OVRL分数作为目标,显式引导策略模块学习评估输入质量。 新意:与现有仅针对单一组件或依赖隐式学习的方法相比,DSN扩展了动态机制的适用范围;MGT则首次利用外部语音质量评估指标(如DNS-MOS)作为训练信号,显式、直接地指导模型进行资源分配。 主要实验结果: 在DNS3数据集上,MGT-DSN(平均50%激活率)在ESTOI, SI-SDR, PESQ等指标上达到与静态SOTA基线(FTF-Net)相当的性能,但平均计算量仅为后者的73%(221M MACs/s vs. 301M MACs/s)。 在Voicebank+Demand测试集上,MGT-DSN与FTF-Net和CCFNet+等基线性能持平,但计算量仅为它们的73%和15%。 关键对比图表:图5对比了三种模型在不同SNR下的六项指标得分。图6展示了标准动态模型与MGT动态模型的激活比例随SNR和OVRL分数的变化趋势,MGT模型的激活比例与输入质量呈现明确的负相关。 实际意义:使语音增强模型能够根据实际语音的损坏程度自适应地分配计算资源,在保证增强质量的同时降低平均功耗,更适合资源受限的实时边缘设备部署。 主要局限性: 动态框架的普适性仅在FTF-Net上验证,是否在其他架构上同样有效需进一步证明。 MGT训练依赖外部的DNS-MOS分数,其准确性与泛化能力会影响引导效果。 尽管平均计算量降低,但峰值计算量并未减少(激活比例为1时),对于硬件峰值功耗有严格要求的场景可能仍需考虑。 🏗️ 模型架构 DSN整体架构 图1:动态可瘦身网络(DSN)整体架构图。 模型基于三层U-Net结构。前两层卷积是静态的。从第三层卷积开始,引入动态组件。策略模块位于早期卷积层之后,接收特征,输出逐帧门控向量g,该向量全局控制所有动态模块(图中虚线路径与盒状“G”)的开启(1)或关闭(0)。 动态GRU模块 图2:频率Transformer中的动态GRU模块。 四个双向GRU组被分为两组静态、两组动态。后接的线性层也被设计为动态结构。静态组的输出始终传递,动态组的输出通过门控与静态输出结合,形成动态路径。 动态GRU单元 图3:时间Transformer动态GRU组中的GRU单元。 与频率Transformer不同,这里仅将当前帧的“输入到隐藏”路径设置为可动态剪枝,而隐藏状态更新始终保留,以维持时间连续性。 动态MHA模块 图4:动态多头注意力(MHA)模块。 一半注意力头为静态,一半为动态。在Q、K、V的线性投影以及输出投影中,均采用了与GRU块类似的动态线性块结构。 ...

2026-04-29

E2E-AEC: Implementing An End-To-End Neural Network Learning Approach for Acoustic Echo Cancellation

📄 E2E-AEC: Implementing An End-To-End Neural Network Learning Approach for Acoustic Echo Cancellation #语音增强 #端到端 #迁移学习 #声学回声消除 #多任务学习 ✅ 7.5/10 | 前25% | #语音增强 | #端到端 | #迁移学习 #声学回声消除 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度 高 👥 作者与机构 第一作者:Yiheng Jiang(阿里巴巴通义实验室) 通讯作者:未说明 作者列表:Yiheng Jiang(阿里巴巴通义实验室)、Biao Tian(阿里巴巴通义实验室)、Haoxu Wang(阿里巴巴通义实验室)、Shengkui Zhao(阿里巴巴通义实验室)、Bin Ma(阿里巴巴通义实验室)、Daren Chen(阿里巴巴通义实验室)、Xiangang Li(阿里巴巴通义实验室) 💡 毒舌点评 本文最大亮点在于用扎实的消融实验证明了从传统LAEC模型迁移知识到纯神经网络E2E-AEC的可行性,为简化AEC系统流水线提供了有力证据。但短板也很明显:模型本身(1.2M参数的GRU网络)创新有限,更像是多个成熟技巧(渐进学习、注意力对齐、VAD掩码)的工程化组合,且论文未提供任何代码或模型,对于追求可复现的读者而言,其技术细节的透明度打了折扣。 📌 核心摘要 问题:传统声学回声消除(AEC)依赖线性自适应滤波器和时延估计,在非线性、时变回声路径下性能下降;现有混合系统复杂,而纯端到端方法在大时延场景下性能不佳。 方法核心:提出E2E-AEC,一个完全基于神经网络的端到端AEC模型。其核心创新在于:采用渐进式学习分阶段消除回声与噪声;通过知识迁移,用预训练的混合系统模型初始化网络,以继承其先验知识;设计带监督损失的注意力机制实现精确的信号时间对齐;并引入语音活动检测预测与掩码策略在推理时进一步抑制远端回声。 与已有方法相比:新在完全摆脱了传统信号处理流水线(TDE/LAEC),并通过上述策略的组合,解决了端到端模型在时间对齐和初始回声抑制上的难题,使其性能超越或媲美复杂的混合系统及已有的端到端方法(如DeepVQE)。 主要实验结果:在AEC Challenge 2023/2022盲测集上,完整模型(Exp 6)取得最优成绩。关键数据见表1: 方法 (AEC Challenge 2023) MOSavg ERLE (dB) DeepVQE (E2E, SOTA) 4.40 65.7 E2E-AEC (本文, Exp 6) 4.51 78.69 消融实验(表2)证明了“注意力+损失函数”对时间对齐的有效性。 表3显示从第五层提取VAD预测并掩码效果最佳。 实际意义:展示了端到端方法在AEC任务上达到甚至超越工业级混合系统的潜力,有望简化部署并提升全双工通话质量。 主要局限性:VAD掩码导致的超高ERLE(78.69dB)可能过度抑制,在真实复杂场景(如持续双讲、非平稳噪声)下的泛化能力和鲁棒性有待更全面评估。论文未公开模型与代码。 🏗️ 模型架构 模型整体为基于时频掩蔽的端到端神经网络,输入为带混响、回声和噪声的麦克风信号的STFT特征,输出为纯净近端语音的STFT频谱估计(中间阶段为回声抑制后的语音+噪声频谱)。 ...

2026-04-29

Easy Turn: Integrating Acoustic and Linguistic Modalities for Robust Turn-Taking in Full-Duplex Spoken Dialogue Systems

📄 Easy Turn: Integrating Acoustic and Linguistic Modalities for Robust Turn-Taking in Full-Duplex Spoken Dialogue Systems #语音对话系统 #多模态模型 #大语言模型 #数据集 #预训练 ✅ 7.0/10 | 前25% | #语音对话系统 | #多模态模型 | #大语言模型 #数据集 学术质量 6.5/7 | 选题价值 2.0/2 | 复现加成 1.0 | 置信度 高 👥 作者与机构 第一作者:Guojian Li(西北工业大学计算机学院,音频、语音与语言处理组) 通讯作者:Zhonghua Fu(西北工业大学计算机学院),Lei Xie(西北工业大学计算机学院) 作者列表: Guojian Li,Chengyou Wang,Hongfei Xue,Shuiyuan Wang,Dehui Gao,Zhonghua Fu,Lei Xie(西北工业大学计算机学院,音频、语音与语言处理组) Zihan Zhang,Yuke Lin,Wenjie Li,Longshuai Xiao(华为技术有限公司) 💡 毒舌点评 亮点:论文直击全双工对话系统中轮次检测“缺乏开源、数据稀缺”的痛点,不仅提出了一个性能优越的开源模型,还配套发布了超千小时的专项训练集,堪称“送数据送模型”的良心之作,对社区的实用价值很高。短板:模型架构本质上是Whisper和轻量LLM的常规组合,创新更多体现在工程化整合与ASR+检测的串联范式,理论突破有限;合成数据流程复杂,其与真实用户交互数据的分布差异可能影响模型在极端情况下的鲁棒性。 📌 核心摘要 问题:在全双工语音对话系统中,需要一个鲁棒的轮次检测模块来判断用户何时说完、未说完、在回应或要求暂停,但现有开源方案或受限于单模态、或模型过大、或需要大量稀缺的全双工数据。 方法:提出Easy Turn,一个开源的模块化双模态(声学+语言学)轮次检测模型。它采用“ASR+轮次检测”范式,以Whisper为音频编码器,通过适配器连接轻量级的Qwen2.5-0.5B LLM,先生成语音转录文本,再融合声学与文本特征预测四种对话状态。同时发布了Easy Turn trainset,一个1145小时、覆盖四种状态的大规模训练数据集。 创新:主要创新在于:(1) 开源了首个支持四种对话状态、性能领先的轮次检测模型和配套数据集,填补了领域空白;(2) 采用“ASR+检测”范式有效融合声学与语言信息,避免了单模态的局限;(3) 通过模块化设计和轻量级LLM,在性能和效率间取得了平衡。 实验结果:在自建的Easy Turn测试集上,Easy Turn在四种状态(完整、不完整、回应、等待)上的准确率(96.33%, 97.67%, 91%, 98%)均显著优于现有开源模型TEN Turn Detection和Smart Turn V2。同时,模型参数量(850MB)、延迟(263ms)和内存占用(2559MB)处于可接受范围。消融实验表明,双模态融合及“ASR+检测”范式对性能提升至关重要(平均准确率从单模态的~86%提升至95.75%)。 模型 参数量(MB) ↓ 延迟(ms) 内存(MB) 完整(%) ↑ 不完整(%) 回应(%) 等待(%) Paraformer + TEN Turn Detection 7220 204 15419 86.67 89.3 - 91 Smart Turn V2 95 27 370 78.67 62 - - Easy Turn (Proposed) 850 263 2559 96.33 97.67 91 98 实际意义:为全双工语音对话研究提供了即插即用的开源工具和高质量数据,显著降低了研究门槛,有望加速相关技术从实验室走向产品应用。 主要局限性:模型在极端真实环境(如极高噪声、多人同时说话)下的鲁棒性尚未充分验证;训练数据中的合成部分可能无法完全覆盖所有自然交互场景;“ASR+检测”的串联设计可能带来一定延迟,且在ASR错误时可能影响检测性能。 🏗️ 模型架构 (注:此为论文描述的架构图,但无法确认其原始URL。上图链接来自论文引用的GitHub仓库,推测为论文中的图2) ...

2026-04-29