Conformer

ICASSP 2026 语音/音频论文详细分析

ICASSP 2026 语音/音频论文详细分析共分析 898 篇 ICASSP 2026 论文 🎯 任务分类点击任务标签查看该方向所有论文：语音识别（102篇）语音增强（75篇）语音合成（63篇）语音情感识别（49篇）音频分类（39篇）音频生成（39篇）音乐生成（31篇）空间音频（31篇）音频深度伪造检测（29篇）音乐信息检索（26篇）语音分离（25篇）语音生物标志物（24篇）音频事件检测（21篇）模型评估（16篇）声源定位（15篇）音频问答（15篇）生物声学（12篇）音频安全（11篇）音频检索（11篇）音乐理解（11篇）语音对话系统（10篇）语音匿名化（10篇）说话人验证（10篇）说话人分离（9篇）语音转换（9篇）语音质量评估（8篇）语音翻译（8篇）语音伪造检测（8篇）多模态模型（6篇）音视频（6篇）语音编码（5篇）基准测试（5篇）语音评估（5篇）语音活动检测（5篇）歌唱语音合成（5篇）语音克隆（4篇）语音问答（3篇）情感分析（3篇）音频场景理解（3篇）音频增强（3篇）语音识别 #语音翻译（3篇）数据集（3篇）音乐检索（3篇）语音大模型（3篇）歌唱语音转换（3篇）视觉语音识别（2篇）多模态情感识别（2篇）信号处理（2篇）语音理解（2篇）领域适应（2篇）听觉注意力解码（2篇）多模态情感分析（2篇）情感识别（2篇）跨模态（2篇）音频压缩（2篇）音乐源分离（2篇）关键词检测（2篇）说话人日志（2篇）跨模态检索（2篇）水下声学目标识别（2篇）视频生成（2篇）听觉注意解码（1篇）视频高光检测（1篇）多音高估计 #音符跟踪（1篇）歌唱语音转录（1篇）异常声音检测（1篇）脑机接口（1篇）脑信号编码（1篇）实体消歧（1篇）音频检索 #音频分类（1篇）目标说话人提取（1篇）语音转换 #语音增强（1篇）音频超分辨率（1篇）基频估计（1篇）语音发现（1篇）语音表示学习（1篇）数据集对齐（1篇）预训练（1篇）医疗AI（1篇）语音解码（1篇）说话人合成（1篇）说话人脸生成（1篇）说话人检测（1篇）多模态对话意图识别（1篇）视频理解（1篇）音乐推荐（1篇）视频设备识别（1篇）说话人识别（1篇）房间脉冲响应去噪（1篇）音频质量评估（1篇）主动降噪（1篇）舞蹈生成（1篇）歌唱旋律提取（1篇）声场估计（1篇）语音编码器（1篇）音频编辑（1篇）零样本关键词检测（1篇）音频分离（1篇）音频无损编码（1篇）语音增强 #对抗防御（1篇）音视频实例分割（1篇）视频到音频生成（1篇）语音摘要（1篇）音频水印（1篇）说话人日志 #语音分离（1篇）联邦学习（1篇）音乐混合（1篇）视频片段检索（1篇）神经解码（1篇）视频检索（1篇）语音驱动动作生成（1篇）视频问答（1篇）音频分类 #零样本学习（1篇）主题建模（1篇）说话人生成（1篇）对抗样本（1篇）音频描述（1篇）主动噪声控制（1篇）音乐分离（1篇）音乐源提取（1篇）音乐转录（1篇）房间脉冲响应（1篇）语音识别 #语音合成（1篇）音频场景分类（1篇）多通道（1篇）音频效果估计（1篇）音频信号处理（1篇）回声消除（1篇）语音生成（1篇）实时处理（1篇）音频大模型（1篇）声学建模（1篇）迁移学习（1篇）课堂阶段分割（1篇）噪声控制（1篇）音频字幕生成（1篇）轻度认知障碍检测（1篇）音乐分类（1篇）槽填充（1篇）多模态学习（1篇） ⚡ 今日概览 📥 898 篇 → 🔬 深度分析完成 ...

AURA: A Stegaformer-Based Scalable Deep Audio Watermark with Extreme Robustness

📄 AURA: A Stegaformer-Based Scalable Deep Audio Watermark with Extreme Robustness #音频水印 #音频安全 #Conformer #条件模型 #鲁棒性 ✅ 7.5/10 | 前25% | #音频水印 | #条件生成 | #音频安全 #Conformer 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0 | 置信度高 👥 作者与机构第一作者：Linxi Li（University of Warwick， OfSpectrum, Inc.）通讯作者：未说明作者列表：Linxi Li（University of Warwick， OfSpectrum, Inc.）、Liwei Jin（OfSpectrum, Inc.）、Yechen Wang（OfSpectrum, Inc.）、Houmin Sun（Duke Kunshan University）、Zi Hu（Duke Kunshan University）、Carsten Maple（University of Warwick） 💡 毒舌点评亮点：论文直面了现有音频水印方法在应对“极端”攻击（如剧烈变速、高损压缩、录音回放）时崩溃的痛点，并用一套设计周密的实验（包括真实环境下的手机录音回放）令人信服地展示了AURA模型在这些极端场景下近乎完美的鲁棒性，其性能提升是数量级的。短板：论文引以为傲的“首个缩放定律研究”，其核心结论（如“宽深”模型最优）缺乏足够的理论支撑和普适性验证，目前更像是一次基于小规模网格搜索的经验性观察。此外，人类评估仅用24人测试40个样本，其统计显著性和代表性存疑，难以为“水印不可感知”的结论提供强有力背书。 ...

Fine-Grained Frame Modeling in Multi-Head Self-Attention for Speech Deepfake Detection

📄 Fine-Grained Frame Modeling in Multi-Head Self-Attention for Speech Deepfake Detection #语音伪造检测 #自监督学习 #模型评估 #Conformer 🔥 8.0/10 | 前25% | #语音伪造检测 | #自监督学习 | #模型评估 #Conformer 学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度高 👥 作者与机构第一作者：Phuong Tuan Dat (河内科技大学信息与通信技术学院) 通讯作者：Nguyen Thi Thu Trang (河内科技大学信息与通信技术学院) 作者列表：Phuong Tuan Dat (河内科技大学信息与通信技术学院)， Duc-Tuan Truong (南洋理工大学计算与数据科学学院)， Long-Vu Hoang (河内科技大学信息与通信技术学院)， Nguyen Thi Thu Trang (河内科技大学信息与通信技术学院) 💡 毒舌点评亮点：论文将细粒度视觉分类的“投票选择”思想巧妙移植到语音领域，通过显式建模注意力头的“专长”并选择性聚合关键帧，有效解决了标准MHSA可能忽略局部伪造伪影的问题，方法新颖且有效。短板：高斯核增强的卷积核是固定的（[1, 2, 3, 4, 3, 2, 1]），缺乏理论依据或可学习性分析；且所选关键帧数量v需人工调优，在不同音频长度或任务下可能不具备普适性。 ...

Noise-Robust Contrastive Learning with an MFCC-Conformer for Coronary Artery Disease Detection

📄 Noise-Robust Contrastive Learning with an MFCC-Conformer for Coronary Artery Disease Detection #音频分类 #对比学习 #Conformer #鲁棒性 #医疗AI ✅ 7.0/10 | 前50% | #音频分类 | #对比学习 | #Conformer #鲁棒性学术质量 6.5/7 | 选题价值 2.0/2 | 复现加成 1.0 | 置信度高 👥 作者与机构第一作者：Milan Marocchi, Matthew Fynn（*表示贡献相等）通讯作者：未说明作者列表：Milan Marocchi（Curtin University），Matthew Fynn（Curtin University），Yue Rong（Curtin University）机构：Curtin University, Bentley 6102, WA, Australia（未说明具体学院或实验室） 💡 毒舌点评论文的亮点在于将相对复杂的Conformer架构成功应用于心音信号，并设计了一个实用的多通道噪声段拒绝流程，在真实噪声数据集上验证了其有效性。短板是，其噪声拒绝核心算法（能量阈值）的创新性较为有限，且消融实验部分缺失，使得我们难以精确评估各个组件（如对比学习、中心损失、噪声拒绝）的具体贡献。 🔗 开源详情代码：提供了完整的代码仓库链接：https://github.com/MilanMarocchi/noise-robust-cad-conformer。模型权重：论文中未提及是否公开预训练模型权重。数据集：数据集来自特定医院的采集，论文中未提及公开该数据集。 Demo：未提供在线演示。复现材料：论文提供了详细的超参数配置（表1）、训练策略、硬件环境、评估指标定义等，有利于复现。代码仓库的提供是最大的复现支持。论文中引用的开源项目：提到了使用的开源工具包括PyTorch、Optuna（用于超参优化）、AdamW优化器（参考文献[14]）。 📌 核心摘要要解决什么问题：在真实临床噪声环境下，提高基于心音图（PCG）信号的冠状动脉疾病（CAD）检测的鲁棒性和准确性。方法核心是什么：提出一个包含噪声感知预处理和深度学习分类的端到端流程。核心包括：(1) 一种基于能量的多通道噪声段拒绝算法，利用听诊器内置的心声麦克风（HM）和噪声参考麦克风（NM）识别并剔除受非平稳噪声污染严重的信号段；(2) 一个将梅尔频率倒谱系数（MFCC）作为输入的Conformer编码器，并结合监督混合对比学习（包含对比损失、分类损失和中心损失）进行训练。与已有方法相比新在哪里：首次将Conformer模型应用于心音分类任务；提出了一种联合利用HM和NM能量信息的噪声段拒绝方法；在同一个框架内集成了多通道MFCC特征提取、Conformer建模和混合对比学习，以应对真实世界噪声数据。主要实验结果如何：在297名受试者的数据集上，所提出的方法（带噪声拒绝）在受试者级别取得了78.4%的准确率和78.2%的平衡准确率（UAR），相比不进行噪声拒绝的基线模型，准确率和UAR分别提升了4.1%和4.3%。与之前基于Wav2Vec 2.0的方法相比，准确率和UAR分别提升了1.3%和3.9%。具体实验数据如下表所示（仅列受试者级别关键指标）：方法准确率 (Acc) 平衡准确率 (UAR) 真阳性率 (TPR) 真阴性率 (TNR) MCC 不带噪声拒绝的MFCC-Conformer 74.3±0.09% 73.9±0.10% 80.9±0.11% 66.9±0.30% 0.490±0.019 本文方法（带噪声拒绝的MFCC-Conformer） 78.4±0.29% 78.2±0.32% 81.9±0.49% 74.5±0.97% 0.570±0.058 Noisy Wav2Vec 2.0 [13] 77.1±1.50% 74.3±1.73% 86.5±1.30% 62.0±2.76% 0.510±0.035 实际意义是什么：为在真实世界噪声条件下（如嘈杂的医院环境）进行无创、低成本的CAD预筛查提供了更鲁棒的深度学习解决方案，有助于推动基于可穿戴设备的心脏病早期预警技术。主要局限性是什么：实验仅在一个来源的特定数据集上进行验证；噪声拒绝算法的阈值（2.5倍中值）是固定的，缺乏自适应性讨论；论文未提供充分的消融实验以区分各技术组件（噪声拒绝、Conformer、对比学习等）的独立贡献。 🏗️ 模型架构论文提出的模型是一个基于Conformer的编码器，用于处理从多通道PCG信号中提取的MFCC特征序列，以实现二分类（CAD vs. 正常）。 ...

Non-Line-of-Sight Vehicle Detection via Audio-Visual Fusion

📄 Non-Line-of-Sight Vehicle Detection via Audio-Visual Fusion #音频分类 #多模态模型 #时频分析 #Conformer #声源定位 🔥 8.0/10 | 前25% | #音频分类 | #多模态模型 | #时频分析 #Conformer 学术质量 6.2/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度中 👥 作者与机构第一作者：Huaxuan Wang（北京理工大学机械工程学院）通讯作者：Huilong Yu（北京理工大学机械工程学院）；Wei Zhou（Cardiff University, School of Computer Science and Informatics）作者列表：Huaxuan Wang（北京理工大学机械工程学院），Huilong Yu（北京理工大学机械工程学院），Ruizeng Zhang（北京理工大学机械工程学院），Wei Zhou（Cardiff University, School of Computer Science and Informatics），Junqiang Xi（北京理工大学机械工程学院） 💡 毒舌点评亮点：论文思路清晰，将“看不见的场景结构”（通过BEV图像表示）与“听得见的目标线索”（音频多域特征）显式融合，逻辑上自洽，实验也证明在特定场景下性能提升有效。短板：融合方式相对直接（拼接向量），且BEV生成依赖于已有地图和人工标注，限制了该框架在完全未知环境中的泛用性；验证仅限于公开数据集上的T型路口，现实复杂路况的鲁棒性存疑。 🔗 开源详情代码：论文中未提及代码链接。模型权重：未提及。数据集：使用了公开数据集OVAD和AOVD，但论文未提供额外数据或获取指南。 Demo：未提及。复现材料：论文给出了一些训练超参数（学习率、batch size、epoch数、优化器），但未提供完整的配置文件、训练脚本或模型检查点。BEV生成的具体算法细节（如特征提取和LoS分析）描述较粗略。论文中引用的开源项目：未明确提及依赖的具体开源工具/模型库（如PyTorch是框架，未特指某开源实现）。 📌 核心摘要问题：自动驾驶车辆在交通盲区（如T型路口）无法直接感知突然出现的障碍物，现有感知手段（摄像头、雷达）受限于视距，而传统音频感知方法忽略了场景结构对声波传播的决定性影响。方法核心：提出一个场景感知的音视频融合网络。核心是引入鸟瞰图（BEV）来显式表征场景空间结构，并从车载麦克风阵列音频中提取时频谱图和DOA能量谱图。网络采用三分支结构处理这些特征，其中音频分支创新性地结合了LSTM、CNN和Conformer模块，以建模音频信号的时序依赖与全局局部特征。新颖性：相较于之前仅依赖音频或未考虑场景结构的方法，本工作的主要创新在于：a) 显式构建并利用BEV图像融入场景结构先验；b) 在音频特征处理中引入Conformer模块，增强了模型对复杂声学特征的建模能力。实验结果：在OVAD和AOVD两个真实世界数据集上，该方法的整体准确率分别达到94.1%和97.0%（移除BEV分支），显著优于SVM（88.2%， 90.8%）和pCRNN（92.6%， 95.4%）等基线方法。消融实验验证了BEV分支和Conformer模块的有效性。实际意义：为智能车辆在交叉路口等视距受限场景提供了新的、更可靠的早期碰撞预警方案，提升了自动驾驶的安全性。主要局限性：系统性能高度依赖于先验的BEV地图生成（需要卫星图像和手动标注），限制了部署的灵活性；研究聚焦于T型路口这一特定场景，未在更复杂或未知环境中验证其泛化能力。 🏗️ 模型架构论文提出的整体框架如图1 (pdf-image-page2-idx0) 所示，是一个用于遮挡车辆分类的音视频融合网络。系统处理流程如下： ...