ICASSP 2026 - 说话人识别

共 1 篇论文

← 返回 ICASSP 2026 总览

排名	论文	评分	分档
🥇	DPO-Regularized Regression for Age Prediction	7.5分	前25%

📋 论文详情

🥇 DPO-Regularized Regression for Age Prediction

✅ 7.5/10 | 前25% | #说话人识别 | #回归模型 | #偏好学习 #DPO

👥 作者与机构

第一作者：Mahsa Zamani（卡内基梅隆大学语言技术研究所）
通讯作者：Bhiksha Raj（卡内基梅隆大学语言技术研究所）
作者列表：Mahsa Zamani（卡内基梅隆大学语言技术研究所）、Rita Singh（卡内基梅隆大学语言技术研究所）、Bhiksha Raj（卡内基梅隆大学语言技术研究所）

💡 毒舌点评

亮点：将偏好优化（DPO）从语言模型对齐巧妙迁移到连续值回归问题，作为序数损失的监督信号，思路新颖且理论上有说服力，为传统MSE回归提供了有价值的补充。短板：实验仅在TIMIT（630人，20-58岁）这一个相对较小且年龄范围受限的数据集上验证，说服力有限；且未开源代码和模型，对于声称的“state-of-the-art”缺乏与同期最先进方法的直接横向对比。

🔗 开源详情

代码：论文中未提及代码链接。
模型权重：未提及。论文使用了预训练的TitaNet-Large，但未提供针对此任务微调后的模型权重。
数据集：使用的是公开的TIMIT数据集，但未在论文中给出具体的获取链接或预处理脚本。
Demo：未提及。
复现材料：论文提供了较为详细的训练配置（如图1、算法1、第4节实验设置），包括超参数（学习率、批量大小、训练轮数、MLP结构、损失权重、桶数、偏好对数量等），但未提供完整的训练脚本、数据划分或检查点。
论文中引用的开源项目：明确依赖并使用了TitaNet-Large [27]作为特征提取器。

📌 核心摘要

本文针对说话人年龄估计这一回归任务中，均方误差（MSE）损失无法有效建模年龄序数关系的问题，提出了一种结合MSE与直接偏好优化（DPO）的混合训练方法。方法的核心是将连续年龄目标离散化为分位数桶，并为每个样本构建偏好对（预测更接近真实年龄的桶为“偏好”，更远的为“非偏好”），通过DPO损失鼓励模型学习这种序数偏好。这不同于传统MSE对误差分布的假设，也不同于简单的分类方法。主要实验在TIMIT数据集上进行，结果表明，结合MSE和DPO的回归+DPO（RD）配置，使用12个桶和30个偏好对时，取得了最佳的平均绝对误差（MAE）3.98，优于仅使用MSE的基线（4.05）和纯分类方法，并接近该数据集上报告的最优水平（3.97）。该方法的意义在于首次将DPO应用于非分类的回归任务，为需要利用序数信息的连续值预测问题提供了一种新思路。主要局限性是实验数据集规模较小、年龄范围不包含青少年和老年，且未与更多现代方法进行对比验证。

表1：不同损失配置在TIMIT数据集上的MAE对比（关键结果）

损失配置	MAE	桶数量	偏好对数量
RO (仅回归/MSE)	4.0543	-	-
RD (回归+DPO)	4.0737	6	6
RD (回归+DPO)	4.0454	8	8
RD (回归+DPO)	3.9801	12	30
RD (回归+DPO)	4.0892	12	40
RCD (回归+分类+DPO)	4.0326	8	30

ICASSP 2026 - 说话人识别#

📋 论文详情#

🥇 DPO-Regularized Regression for Age Prediction#

📎 相关论文

ICASSP 2026 - 说话人识别

📋 论文详情

🥇 DPO-Regularized Regression for Age Prediction