Icassp-2026

ICASSP 2026 - 说话人检测论文列表

ICASSP 2026 - 说话人检测共 1 篇论文 ← 返回 ICASSP 2026 总览排名论文评分分档 🥇 Audio-Guided Multimodal Approach for Fine-Grained Alignment 7.5分前25% 📋 论文详情 🥇 Audio-Guided Multimodal Approach for Fine-Grained Alignment and Boundary Modeling in Active Speaker Detection ✅ 7.5/10 | 前25% | #说话人检测 | #多模态模型 | #对比学习 #预训练 👥 作者与机构第一作者：Yongkang Yin（北京大学深圳研究生院，广东省超高沉浸感媒体技术重点实验室；ADSPLAB，北京大学电子与计算机工程学院）通讯作者：Yuexian Zou（北京大学深圳研究生院，广东省超高沉浸感媒体技术重点实验室；ADSPLAB，北京大学电子与计算机工程学院）作者列表：Yongkang Yin（同上），Yukun Zhuang（同上），Zeyu Xie（同上；腾讯AI Lab），Chenxing Li（腾讯AI Lab），Le Xu（腾讯AI Lab），Yuexian Zou（同上） 💡 毒舌点评 ...

ICASSP 2026 - 说话人生成论文列表

ICASSP 2026 - 说话人生成共 1 篇论文 ← 返回 ICASSP 2026 总览排名论文评分分档 🥇 DepthTalk: Few-Shot Talking Head Generation with Depth-Aware 7.0分前25% 📋 论文详情 🥇 DepthTalk: Few-Shot Talking Head Generation with Depth-Aware 3D Gaussian Field Motion ✅ 7.0/10 | 前25% | #说话人生成 | #3D高斯溅射 | #少样本学习 #音视频 👥 作者与机构第一作者：Shucheng Ji（澳门理工大学应用科学学院）通讯作者：Xiaochen Yuan（澳门理工大学应用科学学院）作者列表：Shucheng Ji（澳门理工大学应用科学学院）、Junqing Huang（澳门理工大学应用科学学院）、Yang Lian（澳门理工大学应用科学学院）、Xiaochen Yuan（澳门理工大学应用科学学院） 💡 毒舌点评亮点在于其“深度梯度损失”设计很巧妙，通过监督深度图的梯度而非绝对值来防止尺度不一致导致的深度崩塌，这是一个对实际工程问题有深刻洞察的解决方案。短板是其整体框架建立在强大的预训练深度先验模型（Sapiens）之上，这在一定程度上限制了方法的通用性和在无此类先验场景下的可用性，且论文未提供代码，复现门槛较高。 🔗 开源详情代码：论文中未提及代码链接。模型权重：未提及公开模型权重。数据集：使用了HDTF和公开数据集，但未说明这些数据集是否在本工作专属发布或如何获取。 Demo：未提及在线演示。复现材料：提供了训练时长（预训练2小时）、优化器、学习率、损失权重等关键超参数，但缺乏batch size、数据预处理细节等，复现信息不够充分。论文中引用的开源项目：引用了InsTaG（[2]）、SyncTalk（[10]）、GeneFace（[14]）、MimicTalk（[15]）等开源工作作为基线或技术参考。总体：论文中未提及开源计划。 📌 核心摘要 ...

ICASSP 2026 - 说话人脸生成论文列表

ICASSP 2026 - 说话人脸生成共 1 篇论文 ← 返回 ICASSP 2026 总览排名论文评分分档 🥇 Assessing Identity Leakage in Talking Face Generation: Metri 7.5分前25% 📋 论文详情 🥇 Assessing Identity Leakage in Talking Face Generation: Metrics and Evaluation Framework ✅ 7.5/10 | 前25% | #说话人脸生成 | #模型评估 | #基准测试 #音视频 👥 作者与机构第一作者：Dogucan Yaman（Karlsruhe Institute of Technology, KIT Campus Transfer GmbH (KCT)）通讯作者：未说明（根据惯例和贡献推测，Alexander Waibel 可能为通讯作者，但论文未明确标注）作者列表：Dogucan Yaman (Karlsruhe Institute of Technology, KCT)、Fevziye Irem Eyiokur (Karlsruhe Institute of Technology, KCT)、Hazım Kemal Ekenel (Istanbul Technical University)、Alexander Waibel (Karlsruhe Institute of Technology, KCT, Carnegie Mellon University) 💡 毒舌点评 ...

ICASSP 2026 - 说话人识别论文列表

ICASSP 2026 - 说话人识别共 1 篇论文 ← 返回 ICASSP 2026 总览排名论文评分分档 🥇 DPO-Regularized Regression for Age Prediction 7.5分前25% 📋 论文详情 🥇 DPO-Regularized Regression for Age Prediction ✅ 7.5/10 | 前25% | #说话人识别 | #回归模型 | #偏好学习 #DPO 👥 作者与机构第一作者：Mahsa Zamani（卡内基梅隆大学语言技术研究所）通讯作者：Bhiksha Raj（卡内基梅隆大学语言技术研究所）作者列表：Mahsa Zamani（卡内基梅隆大学语言技术研究所）、Rita Singh（卡内基梅隆大学语言技术研究所）、Bhiksha Raj（卡内基梅隆大学语言技术研究所） 💡 毒舌点评亮点：将偏好优化（DPO）从语言模型对齐巧妙迁移到连续值回归问题，作为序数损失的监督信号，思路新颖且理论上有说服力，为传统MSE回归提供了有价值的补充。短板：实验仅在TIMIT（630人，20-58岁）这一个相对较小且年龄范围受限的数据集上验证，说服力有限；且未开源代码和模型，对于声称的“state-of-the-art”缺乏与同期最先进方法的直接横向对比。 🔗 开源详情代码：论文中未提及代码链接。模型权重：未提及。论文使用了预训练的TitaNet-Large，但未提供针对此任务微调后的模型权重。数据集：使用的是公开的TIMIT数据集，但未在论文中给出具体的获取链接或预处理脚本。 Demo：未提及。复现材料：论文提供了较为详细的训练配置（如图1、算法1、第4节实验设置），包括超参数（学习率、批量大小、训练轮数、MLP结构、损失权重、桶数、偏好对数量等），但未提供完整的训练脚本、数据划分或检查点。论文中引用的开源项目：明确依赖并使用了TitaNet-Large [27]作为特征提取器。 📌 核心摘要本文针对说话人年龄估计这一回归任务中，均方误差（MSE）损失无法有效建模年龄序数关系的问题，提出了一种结合MSE与直接偏好优化（DPO）的混合训练方法。方法的核心是将连续年龄目标离散化为分位数桶，并为每个样本构建偏好对（预测更接近真实年龄的桶为“偏好”，更远的为“非偏好”），通过DPO损失鼓励模型学习这种序数偏好。这不同于传统MSE对误差分布的假设，也不同于简单的分类方法。主要实验在TIMIT数据集上进行，结果表明，结合MSE和DPO的回归+DPO（RD）配置，使用12个桶和30个偏好对时，取得了最佳的平均绝对误差（MAE）3.98，优于仅使用MSE的基线（4.05）和纯分类方法，并接近该数据集上报告的最优水平（3.97）。该方法的意义在于首次将DPO应用于非分类的回归任务，为需要利用序数信息的连续值预测问题提供了一种新思路。主要局限性是实验数据集规模较小、年龄范围不包含青少年和老年，且未与更多现代方法进行对比验证。表1：不同损失配置在TIMIT数据集上的MAE对比（关键结果）损失配置 MAE 桶数量偏好对数量 RO (仅回归/MSE) 4.0543 - - RD (回归+DPO) 4.0737 6 6 RD (回归+DPO) 4.0454 8 8 RD (回归+DPO) 3.9801 12 30 RD (回归+DPO) 4.0892 12 40 RCD (回归+分类+DPO) 4.0326 8 30

ICASSP 2026 - 说话人验证论文列表

ICASSP 2026 - 说话人验证共 10 篇论文 ← 返回 ICASSP 2026 总览排名论文评分分档 🥇 Cross-Domain Contrastive Learning with Dynamic Threshold Cal 8.0分前25% 🥈 Hybrid Pruning: In-Situ Compression of Self-Supervised Speec 8.0分前25% 🥉 Distilling Attention Knowledge for Speaker Verification 8.0分前25% 4. Cross-Architecture Knowledge Distillation of WavLM for Light 8.0分前25% 5. Triage Knowledge Distillation for Speaker Verification 7.5分前25% 6. Enhancing Speaker Verification with w2v-BERT 2.0 and Knowled 7.5分前25% 7. Face-Voice Association with Inductive Bias for Maximum Class 7.0分前25% 8. Impact of Phonetics on Speaker Identity in Adversarial Voice 7.0分前50% 9. Curriculum Learning with Contrastive Loss for Lightweight Sp 6.5分前25% 10. Connecting Layer-Wise Representation of Wavlm with Spectro-T 6.0分前50% 📋 论文详情 🥇 Cross-Domain Contrastive Learning with Dynamic Threshold Calibration for Source Speaker Tracing 🔥 8.0/10 | 前25% | #说话人验证 | #对比学习 | #音频安全 #跨领域 ...

ICASSP 2026 - 课堂阶段分割论文列表

ICASSP 2026 - 课堂阶段分割共 1 篇论文 ← 返回 ICASSP 2026 总览排名论文评分分档 🥇 A New Method and Dataset for Classroom Teaching Stage Segmen 6.5分前25% 📋 论文详情 🥇 A New Method and Dataset for Classroom Teaching Stage Segmentation ✅ 6.5/10 | 前25% | #课堂阶段分割 | #多模态融合 | #教育技术 #数据集 👥 作者与机构第一作者：Shihao Yang（东北师范大学信息科学学院）通讯作者：Shuhua Liu（东北师范大学信息科学学院，邮箱：liush129@nenu.edu.cn）作者列表：Shihao Yang（东北师范大学信息科学学院）、Nan Zhang（东北师范大学信息科学学院）、Yue Jiang（东北师范大学信息科学学院）、Ziyi Zhang（东北师范大学信息科学学院）、Shuhua Liu（东北师范大学信息科学学院） 💡 毒舌点评本文最大亮点是首次明确定义了“课堂教学阶段分割”这一任务并构建了首个大规模多模态数据集，为教育过程分析提供了重要的基准和基础设施。然而，其提出的“多模态聚类-分离损失”与“熵权动态加权”方法在技术原创性上略显保守，更多是已有技巧在特定任务上的组合应用，动态加权策略带来的性能提升（如表2中从63.17到66.85）虽显著但幅度有限。 🔗 开源详情代码：论文中未提及代码链接。模型权重：未提及。数据集：论文构建并介绍了TSS数据集，包含1,928节课和详细划分，但未提及数据集的具体公开或获取方式。 Demo：未提及。复现材料：提供了训练的主要超参数（学习率、batch size、epoch数、损失权重）和硬件配置，但部分细节（如优化器、数据预处理代码）未说明。论文中引用的开源项目：提到了使用的预训练模型（Bart, Longformer, TimeSformer, wav2vec2）和工具（讯飞语音转写API）。 📌 核心摘要 ...

ICASSP 2026 - 跨模态论文列表

ICASSP 2026 - 跨模态共 2 篇论文 ← 返回 ICASSP 2026 总览排名论文评分分档 🥇 Dynamic Balanced Cross-Modal Attention with Gated Sequence R 7.5分前25% 🥈 UVT-LM: Unifying Visual and Tactile Perception with Language 7.0分前25% 📋 论文详情 🥇 Dynamic Balanced Cross-Modal Attention with Gated Sequence Restoration: Towards Robust Multimodal Sentiment Analysis ✅ 7.5/10 | 前25% | #跨模态 | #多任务学习 | #语音情感识别 #鲁棒性 👥 作者与机构第一作者：Rong Geng†（† 西安理工大学网络计算与安全陕西省重点实验室）通讯作者：Qindong Sun‡（‡ 西安交通大学网络科学与工程学院；带⋆符号）作者列表： Rong Geng†（西安理工大学网络计算与安全陕西省重点实验室） Qindong Sun†,‡,⋆（†西安理工大学网络计算与安全陕西省重点实验室；‡西安交通大学网络科学与工程学院） Han Cao†（西安理工大学网络计算与安全陕西省重点实验室） Xiaoxiong Wang†（西安理工大学网络计算与安全陕西省重点实验室） 💡 毒舌点评 ...

ICASSP 2026 - 跨模态检索论文列表

ICASSP 2026 - 跨模态检索共 2 篇论文 ← 返回 ICASSP 2026 总览排名论文评分分档 🥇 Auto-MatchCut: An Audio-Visual Retrieval Framework for Seaml 7.0分前50% 🥈 CoVA: Text-Guided Composed Video Retrieval for Audio-Visual 6.5分前25% 📋 论文详情 🥇 Auto-MatchCut: An Audio-Visual Retrieval Framework for Seamless Match Cutting ✅ 7.0/10 | 前50% | #跨模态检索 | #音频检索 | #视频检索 #跨模态 👥 作者与机构第一作者：Hongjie Chen (Dolby Laboratories) 通讯作者：未说明作者列表：Hongjie Chen (Dolby Laboratories), Hanyu Meng (The University of New South Wales), Gautam Bhattacharya (Dolby Laboratories), Lie Lu (Dolby Laboratories), Josh Kimball (Dolby Laboratories), Ryan Rossi (未说明) 💡 毒舌点评 ...

ICASSP 2026 - 轻度认知障碍检测论文列表

ICASSP 2026 - 轻度认知障碍检测共 1 篇论文 ← 返回 ICASSP 2026 总览排名论文评分分档 🥇 MCI-OTFusion: A Multimodal Model for MCI Detection and Cogni 6.5分前50% 📋 论文详情 🥇 MCI-OTFusion: A Multimodal Model for MCI Detection and Cognitive Score Prediction ✅ 6.5/10 | 前50% | #轻度认知障碍检测 | #多模态融合 | #最优传输 #双向交叉注意力 👥 作者与机构第一作者：Yuqin Lin（福州大学计算机与数据科学学院）通讯作者：Jianwu Dang（中国科学院深圳先进技术研究院）作者列表：Yuqin Lin（福州大学计算机与数据科学学院）、Jinsong Zhang（福州大学计算机与数据科学学院）、Xiao Wei（中国科学院深圳先进技术研究院、天津大学智能与计算学院认知计算与应用天津市重点实验室）、Kai Li（中国科学院深圳先进技术研究院）、Bin Wen（天津大学智能与计算学院认知计算与应用天津市重点实验室）、Mingyang Gu（中国科学院深圳先进技术研究院、天津大学智能与计算学院认知计算与应用天津市重点实验室）、Jianwu Dang（中国科学院深圳先进技术研究院） 💡 毒舌点评这篇论文的亮点在于其方法设计的“物理意义”——用OT来捕捉语音和文本在分布层面的全局对齐，而非仅停留在浅层特征拼接，这在方法论上是一个清晰且合理的改进。然而，其短板同样明显：整个研究都建立在TAUKADIAL这一个较小的、特定挑战赛的数据集上，这极大地限制了其结论的泛化说服力，让人怀疑该模型是否在真实世界、更多样化的人群和语音条件下依然有效。 ...

ICASSP 2026 - 迁移学习论文列表

ICASSP 2026 - 迁移学习共 1 篇论文 ← 返回 ICASSP 2026 总览排名论文评分分档 🥇 GLUE: Gradient-free Learning to Unify Experts 6.5分前50% 📋 论文详情 🥇 GLUE: Gradient-free Learning to Unify Experts ✅ 6.5/10 | 前50% | #迁移学习 | #预训练 | #知识蒸馏 #多任务学习 👥 作者与机构第一作者：Jong-Ik Park (卡内基梅隆大学电气与计算机工程系) 通讯作者：未说明 (论文中未明确指定通讯作者) 作者列表：Jong-Ik Park (卡内基梅隆大学电气与计算机工程系)、Shreyas Chaudhari (卡内基梅隆大学电气与计算机工程系)、Srinivasa Pranav* (卡内基梅隆大学电气与计算机工程系)、Carlee Joe-Wong (卡内基梅隆大学电气与计算机工程系)、Jos´e M. F. Moura (卡内基梅隆大学电气与计算机工程系) *作者贡献相同。 💡 毒舌点评亮点：该研究提出了一种巧妙的“偷懒”方法——用无需反向传播的无梯度优化（SPSA）来学习多专家模型的混合系数，将计算成本从全网络反向传播降至仅需两次前向传播，在保持与全梯度优化方法相当性能的同时，显著提升了效率。短板：论文的实验验证场景较为理想化（使用同构模型在简单CV数据集上的混合），缺乏对真实世界复杂场景（如模型架构不同、训练数据量巨大、或需要在线学习）的验证，且未提供任何代码或复现细节，大大削弱了其实用价值和说服力。 🔗 开源详情 ...