ICASSP 2026 - 说话人识别 论文列表

ICASSP 2026 - 说话人识别 共 1 篇论文 ← 返回 ICASSP 2026 总览 排名 论文 评分 分档 🥇 DPO-Regularized Regression for Age Prediction 7.5分 前25% 📋 论文详情 🥇 DPO-Regularized Regression for Age Prediction ✅ 7.5/10 | 前25% | #说话人识别 | #回归模型 | #偏好学习 #DPO 👥 作者与机构 第一作者:Mahsa Zamani(卡内基梅隆大学语言技术研究所) 通讯作者:Bhiksha Raj(卡内基梅隆大学语言技术研究所) 作者列表:Mahsa Zamani(卡内基梅隆大学语言技术研究所)、Rita Singh(卡内基梅隆大学语言技术研究所)、Bhiksha Raj(卡内基梅隆大学语言技术研究所) 💡 毒舌点评 亮点:将偏好优化(DPO)从语言模型对齐巧妙迁移到连续值回归问题,作为序数损失的监督信号,思路新颖且理论上有说服力,为传统MSE回归提供了有价值的补充。短板:实验仅在TIMIT(630人,20-58岁)这一个相对较小且年龄范围受限的数据集上验证,说服力有限;且未开源代码和模型,对于声称的“state-of-the-art”缺乏与同期最先进方法的直接横向对比。 🔗 开源详情 代码:论文中未提及代码链接。 模型权重:未提及。论文使用了预训练的TitaNet-Large,但未提供针对此任务微调后的模型权重。 数据集:使用的是公开的TIMIT数据集,但未在论文中给出具体的获取链接或预处理脚本。 Demo:未提及。 复现材料:论文提供了较为详细的训练配置(如图1、算法1、第4节实验设置),包括超参数(学习率、批量大小、训练轮数、MLP结构、损失权重、桶数、偏好对数量等),但未提供完整的训练脚本、数据划分或检查点。 论文中引用的开源项目:明确依赖并使用了TitaNet-Large [27]作为特征提取器。 📌 核心摘要 本文针对说话人年龄估计这一回归任务中,均方误差(MSE)损失无法有效建模年龄序数关系的问题,提出了一种结合MSE与直接偏好优化(DPO)的混合训练方法。方法的核心是将连续年龄目标离散化为分位数桶,并为每个样本构建偏好对(预测更接近真实年龄的桶为“偏好”,更远的为“非偏好”),通过DPO损失鼓励模型学习这种序数偏好。这不同于传统MSE对误差分布的假设,也不同于简单的分类方法。主要实验在TIMIT数据集上进行,结果表明,结合MSE和DPO的回归+DPO(RD)配置,使用12个桶和30个偏好对时,取得了最佳的平均绝对误差(MAE)3.98,优于仅使用MSE的基线(4.05)和纯分类方法,并接近该数据集上报告的最优水平(3.97)。该方法的意义在于首次将DPO应用于非分类的回归任务,为需要利用序数信息的连续值预测问题提供了一种新思路。主要局限性是实验数据集规模较小、年龄范围不包含青少年和老年,且未与更多现代方法进行对比验证。 表1:不同损失配置在TIMIT数据集上的MAE对比(关键结果) 损失配置 MAE 桶数量 偏好对数量 RO (仅回归/MSE) 4.0543 - - RD (回归+DPO) 4.0737 6 6 RD (回归+DPO) 4.0454 8 8 RD (回归+DPO) 3.9801 12 30 RD (回归+DPO) 4.0892 12 40 RCD (回归+分类+DPO) 4.0326 8 30

2026-04-29

ICASSP 2026 - 说话人验证 论文列表

ICASSP 2026 - 说话人验证 共 10 篇论文 ← 返回 ICASSP 2026 总览 排名 论文 评分 分档 🥇 Cross-Domain Contrastive Learning with Dynamic Threshold Cal 8.0分 前25% 🥈 Hybrid Pruning: In-Situ Compression of Self-Supervised Speec 8.0分 前25% 🥉 Distilling Attention Knowledge for Speaker Verification 8.0分 前25% 4. Cross-Architecture Knowledge Distillation of WavLM for Light 8.0分 前25% 5. Triage Knowledge Distillation for Speaker Verification 7.5分 前25% 6. Enhancing Speaker Verification with w2v-BERT 2.0 and Knowled 7.5分 前25% 7. Face-Voice Association with Inductive Bias for Maximum Class 7.0分 前25% 8. Impact of Phonetics on Speaker Identity in Adversarial Voice 7.0分 前50% 9. Curriculum Learning with Contrastive Loss for Lightweight Sp 6.5分 前25% 10. Connecting Layer-Wise Representation of Wavlm with Spectro-T 6.0分 前50% 📋 论文详情 🥇 Cross-Domain Contrastive Learning with Dynamic Threshold Calibration for Source Speaker Tracing 🔥 8.0/10 | 前25% | #说话人验证 | #对比学习 | #音频安全 #跨领域 ...

2026-04-29

ICASSP 2026 - 课堂阶段分割 论文列表

ICASSP 2026 - 课堂阶段分割 共 1 篇论文 ← 返回 ICASSP 2026 总览 排名 论文 评分 分档 🥇 A New Method and Dataset for Classroom Teaching Stage Segmen 6.5分 前25% 📋 论文详情 🥇 A New Method and Dataset for Classroom Teaching Stage Segmentation ✅ 6.5/10 | 前25% | #课堂阶段分割 | #多模态融合 | #教育技术 #数据集 👥 作者与机构 第一作者:Shihao Yang(东北师范大学信息科学学院) 通讯作者:Shuhua Liu(东北师范大学信息科学学院,邮箱:liush129@nenu.edu.cn) 作者列表:Shihao Yang(东北师范大学信息科学学院)、Nan Zhang(东北师范大学信息科学学院)、Yue Jiang(东北师范大学信息科学学院)、Ziyi Zhang(东北师范大学信息科学学院)、Shuhua Liu(东北师范大学信息科学学院) 💡 毒舌点评 本文最大亮点是首次明确定义了“课堂教学阶段分割”这一任务并构建了首个大规模多模态数据集,为教育过程分析提供了重要的基准和基础设施。然而,其提出的“多模态聚类-分离损失”与“熵权动态加权”方法在技术原创性上略显保守,更多是已有技巧在特定任务上的组合应用,动态加权策略带来的性能提升(如表2中从63.17到66.85)虽显著但幅度有限。 🔗 开源详情 代码:论文中未提及代码链接。 模型权重:未提及。 数据集:论文构建并介绍了TSS数据集,包含1,928节课和详细划分,但未提及数据集的具体公开或获取方式。 Demo:未提及。 复现材料:提供了训练的主要超参数(学习率、batch size、epoch数、损失权重)和硬件配置,但部分细节(如优化器、数据预处理代码)未说明。 论文中引用的开源项目:提到了使用的预训练模型(Bart, Longformer, TimeSformer, wav2vec2)和工具(讯飞语音转写API)。 📌 核心摘要 ...

2026-04-29

ICASSP 2026 - 跨模态 论文列表

ICASSP 2026 - 跨模态 共 2 篇论文 ← 返回 ICASSP 2026 总览 排名 论文 评分 分档 🥇 Dynamic Balanced Cross-Modal Attention with Gated Sequence R 7.5分 前25% 🥈 UVT-LM: Unifying Visual and Tactile Perception with Language 7.0分 前25% 📋 论文详情 🥇 Dynamic Balanced Cross-Modal Attention with Gated Sequence Restoration: Towards Robust Multimodal Sentiment Analysis ✅ 7.5/10 | 前25% | #跨模态 | #多任务学习 | #语音情感识别 #鲁棒性 👥 作者与机构 第一作者:Rong Geng†(† 西安理工大学网络计算与安全陕西省重点实验室) 通讯作者:Qindong Sun‡(‡ 西安交通大学网络科学与工程学院;带⋆符号) 作者列表: Rong Geng†(西安理工大学网络计算与安全陕西省重点实验室) Qindong Sun†,‡,⋆(†西安理工大学网络计算与安全陕西省重点实验室;‡西安交通大学网络科学与工程学院) Han Cao†(西安理工大学网络计算与安全陕西省重点实验室) Xiaoxiong Wang†(西安理工大学网络计算与安全陕西省重点实验室) 💡 毒舌点评 ...

2026-04-29

ICASSP 2026 - 跨模态检索 论文列表

ICASSP 2026 - 跨模态检索 共 2 篇论文 ← 返回 ICASSP 2026 总览 排名 论文 评分 分档 🥇 Auto-MatchCut: An Audio-Visual Retrieval Framework for Seaml 7.0分 前50% 🥈 CoVA: Text-Guided Composed Video Retrieval for Audio-Visual 6.5分 前25% 📋 论文详情 🥇 Auto-MatchCut: An Audio-Visual Retrieval Framework for Seamless Match Cutting ✅ 7.0/10 | 前50% | #跨模态检索 | #音频检索 | #视频检索 #跨模态 👥 作者与机构 第一作者:Hongjie Chen (Dolby Laboratories) 通讯作者:未说明 作者列表:Hongjie Chen (Dolby Laboratories), Hanyu Meng (The University of New South Wales), Gautam Bhattacharya (Dolby Laboratories), Lie Lu (Dolby Laboratories), Josh Kimball (Dolby Laboratories), Ryan Rossi (未说明) 💡 毒舌点评 ...

2026-04-29

ICASSP 2026 - 轻度认知障碍检测 论文列表

ICASSP 2026 - 轻度认知障碍检测 共 1 篇论文 ← 返回 ICASSP 2026 总览 排名 论文 评分 分档 🥇 MCI-OTFusion: A Multimodal Model for MCI Detection and Cogni 6.5分 前50% 📋 论文详情 🥇 MCI-OTFusion: A Multimodal Model for MCI Detection and Cognitive Score Prediction ✅ 6.5/10 | 前50% | #轻度认知障碍检测 | #多模态融合 | #最优传输 #双向交叉注意力 👥 作者与机构 第一作者:Yuqin Lin(福州大学计算机与数据科学学院) 通讯作者:Jianwu Dang(中国科学院深圳先进技术研究院) 作者列表:Yuqin Lin(福州大学计算机与数据科学学院)、Jinsong Zhang(福州大学计算机与数据科学学院)、Xiao Wei(中国科学院深圳先进技术研究院、天津大学智能与计算学院认知计算与应用天津市重点实验室)、Kai Li(中国科学院深圳先进技术研究院)、Bin Wen(天津大学智能与计算学院认知计算与应用天津市重点实验室)、Mingyang Gu(中国科学院深圳先进技术研究院、天津大学智能与计算学院认知计算与应用天津市重点实验室)、Jianwu Dang(中国科学院深圳先进技术研究院) 💡 毒舌点评 这篇论文的亮点在于其方法设计的“物理意义”——用OT来捕捉语音和文本在分布层面的全局对齐,而非仅停留在浅层特征拼接,这在方法论上是一个清晰且合理的改进。然而,其短板同样明显:整个研究都建立在TAUKADIAL这一个较小的、特定挑战赛的数据集上,这极大地限制了其结论的泛化说服力,让人怀疑该模型是否在真实世界、更多样化的人群和语音条件下依然有效。 ...

2026-04-29

ICASSP 2026 - 迁移学习 论文列表

ICASSP 2026 - 迁移学习 共 1 篇论文 ← 返回 ICASSP 2026 总览 排名 论文 评分 分档 🥇 GLUE: Gradient-free Learning to Unify Experts 6.5分 前50% 📋 论文详情 🥇 GLUE: Gradient-free Learning to Unify Experts ✅ 6.5/10 | 前50% | #迁移学习 | #预训练 | #知识蒸馏 #多任务学习 👥 作者与机构 第一作者:Jong-Ik Park (卡内基梅隆大学电气与计算机工程系) 通讯作者:未说明 (论文中未明确指定通讯作者) 作者列表:Jong-Ik Park (卡内基梅隆大学电气与计算机工程系)、Shreyas Chaudhari (卡内基梅隆大学电气与计算机工程系)、Srinivasa Pranav* (卡内基梅隆大学电气与计算机工程系)、Carlee Joe-Wong (卡内基梅隆大学电气与计算机工程系)、Jos´e M. F. Moura (卡内基梅隆大学电气与计算机工程系) *作者贡献相同。 💡 毒舌点评 亮点:该研究提出了一种巧妙的“偷懒”方法——用无需反向传播的无梯度优化(SPSA)来学习多专家模型的混合系数,将计算成本从全网络反向传播降至仅需两次前向传播,在保持与全梯度优化方法相当性能的同时,显著提升了效率。 短板:论文的实验验证场景较为理想化(使用同构模型在简单CV数据集上的混合),缺乏对真实世界复杂场景(如模型架构不同、训练数据量巨大、或需要在线学习)的验证,且未提供任何代码或复现细节,大大削弱了其实用价值和说服力。 🔗 开源详情 ...

2026-04-29

ICASSP 2026 - 零样本关键词检测 论文列表

ICASSP 2026 - 零样本关键词检测 共 1 篇论文 ← 返回 ICASSP 2026 总览 排名 论文 评分 分档 🥇 Malefa: Multi-Granularity Learning and Effective False Alarm 7.5分 前25% 📋 论文详情 🥇 Malefa: Multi-Granularity Learning and Effective False Alarm Suppression for Zero-Shot Keyword Spotting ✅ 7.5/10 | 前25% | #零样本关键词检测 | #对比学习 #多任务学习 | #对比学习 #多任务学习 👥 作者与机构 第一作者:Lo-Ya Li(台湾师范大学,标记为*) 通讯作者:未明确说明(根据贡献描述和标记,Berlin Chen(*)和Jeih-Weih Hung(†)可能为主要指导者) 作者列表:Lo-Ya Li(台湾师范大学),Tien-Hong Lo(台湾师范大学),Jeih-Weih Hung†(暨南国际大学),Shih-Chieh Huang¶(瑞昱半导体),Berlin Chen*(台湾师范大学) 💡 毒舌点评 这篇论文的亮点在于它没有盲目追求模型规模,而是用轻量级架构(0.7M参数)通过更精细的学习目标(音素级对齐+误报惩罚)在核心指标(特别是误报率)上实现了数量级的改进,这对实际部署极具吸引力。短板是其创新主要是现有技术(CTC、对比学习、注意力机制)的工程化组合,在模型架构原理上缺乏颠覆性,且实验仅限于特定的英文数据集,其泛化能力(如跨语言、复杂声学场景)有待进一步证明。 🔗 开源详情 ...

2026-04-29

ICASSP 2026 - 音乐信息检索 论文列表

ICASSP 2026 - 音乐信息检索 共 26 篇论文 ← 返回 ICASSP 2026 总览 排名 论文 评分 分档 🥇 Noise-to-Notes: Diffusion-Based Generation and Refinement fo 8.0分 前10% 🥈 Leveraging Diffusion U-Net Features for Predominant Instrume 8.0分 前25% 🥉 Subsequence SDTW: Differentiable Alignment with Flexible Bou 8.0分 前25% 4. A Unsupervised Domain Adaptation Framework For Semi-Supervis 8.0分 前25% 5. Evaluating High-Resolution Piano Sustain Pedal Depth Estimat 8.0分 前25% 6. Improving Active Learning for Melody Estimation by Disentang 7.5分 前25% 7. Temporal Distillation for Music Representation Learning 7.5分 前25% 8. Constructing Composite Features for Interpretable Music-Tagg 7.5分 前25% 9. Audio-to-Score Jazz Solo Transcription with the Rhythm Perce 7.5分 前25% 10. Benchmarking Music Autotagging with MGPHot Expert Annotation 7.5分 前25% 11. BeatMamba: Bidirectional Selective State-Space Modeling for 7.5分 前25% 12. Spectrogram Event Based Feature Representation for Generaliz 7.5分 前25% 13. BACHI: Boundary-Aware Symbolic Chord Recognition Through Mas 7.5分 前25% 14. An Event-Based Sequence Modeling Approach to Recognizing Non 7.5分 前25% 15. Off-The-Grid Multi-Pitch Estimation Using Optimal Transport 7.5分 前25% 16. RMODGDF: A Robust STFT-Derived Feature for Musical Instrumen 7.0分 前50% 17. SAUNA: Song-Level Audio & User-Listening Data Neural Alignme 7.0分 前25% 18. Timbre-Based Pretraining with Pseudo-Labels for Multi-Instru 7.0分 前25% 19. Towards Blind Data Cleaning: A Case Study in Music Source Se 7.0分 前50% 20. Do Foundational Audio Encoders Understand Music Structure? 7.0分 前25% 21. Sing What You Fit: A Perception-Based Dataset and Benchmark 7.0分 前25% 22. Single-Step Controllable Music Bandwidth extension with Flow 7.0分 前25% 23. Leveraging Whisper Embeddings For Audio-Based Lyrics Matchin 7.0分 前50% 24. Enhancing Automatic Drum Transcription with Online Dynamic F 7.0分 前25% 25. ALMA-Chor: Leveraging Audio-Lyric Alignment with Mamba for C 7.0分 前25% 26. Vioptt: Violin Technique-Aware Transcription from Synthetic 6.5分 前50% 📋 论文详情 🥇 Noise-to-Notes: Diffusion-Based Generation and Refinement for Automatic Drum Transcription 🔥 8.0/10 | 前10% | #音乐信息检索 | #扩散模型 | #生成模型 #鲁棒性 ...

2026-04-29

ICASSP 2026 - 音乐分离 论文列表

ICASSP 2026 - 音乐分离 共 1 篇论文 ← 返回 ICASSP 2026 总览 排名 论文 评分 分档 🥇 Separate this, and all of these Things Around It: Music Sour 7.0分 前25% 📋 论文详情 🥇 Separate this, and all of these Things Around It: Music Source Separation Via Hyperellipsoidal Queries ✅ 7.0/10 | 前25% | #音乐分离 | #音频检索 | #零样本 #少样本 👥 作者与机构 第一作者:Karn N. Watcharasupat(佐治亚理工学院音乐信息学组) 通讯作者:未说明 作者列表:Karn N. Watcharasupat(佐治亚理工学院音乐信息学组)、Alexander Lerch(佐治亚理工学院音乐信息学组) 💡 毒舌点评 ...

2026-04-29