DPO | 语音/音乐/音频论文速递

ICASSP 2026 语音/音频论文详细分析共分析 898 篇 ICASSP 2026 论文 🎯 任务分类点击任务标签查看该方向所有论文：语音识别（102篇）语音增强（75篇）语音合成（63篇）语音情感识别（49篇）音频分类（39篇）音频生成（39篇）音乐生成（31篇）空间音频（31篇）音频深度伪造检测（29篇）音乐信息检索（26篇）语音分离（25篇）语音生物标志物（24篇）音频事件检测（21篇）模型评估（16篇）声源定位（15篇）音频问答（15篇）生物声学（12篇）音频安全（11篇）音频检索（11篇）音乐理解（11篇）语音对话系统（10篇）语音匿名化（10篇）说话人验证（10篇）说话人分离（9篇）语音转换（9篇）语音质量评估（8篇）语音翻译（8篇）语音伪造检测（8篇）多模态模型（6篇）音视频（6篇）语音编码（5篇）基准测试（5篇）语音评估（5篇）语音活动检测（5篇）歌唱语音合成（5篇）语音克隆（4篇）语音问答（3篇）情感分析（3篇）音频场景理解（3篇）音频增强（3篇）语音识别 #语音翻译（3篇）数据集（3篇）音乐检索（3篇）语音大模型（3篇）歌唱语音转换（3篇）视觉语音识别（2篇）多模态情感识别（2篇）信号处理（2篇）语音理解（2篇）领域适应（2篇）听觉注意力解码（2篇）多模态情感分析（2篇）情感识别（2篇）跨模态（2篇）音频压缩（2篇）音乐源分离（2篇）关键词检测（2篇）说话人日志（2篇）跨模态检索（2篇）水下声学目标识别（2篇）视频生成（2篇）听觉注意解码（1篇）视频高光检测（1篇）多音高估计 #音符跟踪（1篇）歌唱语音转录（1篇）异常声音检测（1篇）脑机接口（1篇）脑信号编码（1篇）实体消歧（1篇）音频检索 #音频分类（1篇）目标说话人提取（1篇）语音转换 #语音增强（1篇）音频超分辨率（1篇）基频估计（1篇）语音发现（1篇）语音表示学习（1篇）数据集对齐（1篇）预训练（1篇）医疗AI（1篇）语音解码（1篇）说话人合成（1篇）说话人脸生成（1篇）说话人检测（1篇）多模态对话意图识别（1篇）视频理解（1篇）音乐推荐（1篇）视频设备识别（1篇）说话人识别（1篇）房间脉冲响应去噪（1篇）音频质量评估（1篇）主动降噪（1篇）舞蹈生成（1篇）歌唱旋律提取（1篇）声场估计（1篇）语音编码器（1篇）音频编辑（1篇）零样本关键词检测（1篇）音频分离（1篇）音频无损编码（1篇）语音增强 #对抗防御（1篇）音视频实例分割（1篇）视频到音频生成（1篇）语音摘要（1篇）音频水印（1篇）说话人日志 #语音分离（1篇）联邦学习（1篇）音乐混合（1篇）视频片段检索（1篇）神经解码（1篇）视频检索（1篇）语音驱动动作生成（1篇）视频问答（1篇）音频分类 #零样本学习（1篇）主题建模（1篇）说话人生成（1篇）对抗样本（1篇）音频描述（1篇）主动噪声控制（1篇）音乐分离（1篇）音乐源提取（1篇）音乐转录（1篇）房间脉冲响应（1篇）语音识别 #语音合成（1篇）音频场景分类（1篇）多通道（1篇）音频效果估计（1篇）音频信号处理（1篇）回声消除（1篇）语音生成（1篇）实时处理（1篇）音频大模型（1篇）声学建模（1篇）迁移学习（1篇）课堂阶段分割（1篇）噪声控制（1篇）音频字幕生成（1篇）轻度认知障碍检测（1篇）音乐分类（1篇）槽填充（1篇）多模态学习（1篇） ⚡ 今日概览 📥 898 篇 → 🔬 深度分析完成 ...

📄 DPO-Regularized Regression for Age Prediction #说话人识别 #回归模型 #偏好学习 #DPO #多任务学习 ✅ 7.5/10 | 前25% | #说话人识别 | #回归模型 | #偏好学习 #DPO 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度高 👥 作者与机构第一作者：Mahsa Zamani（卡内基梅隆大学语言技术研究所）通讯作者：Bhiksha Raj（卡内基梅隆大学语言技术研究所）作者列表：Mahsa Zamani（卡内基梅隆大学语言技术研究所）、Rita Singh（卡内基梅隆大学语言技术研究所）、Bhiksha Raj（卡内基梅隆大学语言技术研究所） 💡 毒舌点评亮点：将偏好优化（DPO）从语言模型对齐巧妙迁移到连续值回归问题，作为序数损失的监督信号，思路新颖且理论上有说服力，为传统MSE回归提供了有价值的补充。短板：实验仅在TIMIT（630人，20-58岁）这一个相对较小且年龄范围受限的数据集上验证，说服力有限；且未开源代码和模型，对于声称的“state-of-the-art”缺乏与同期最先进方法的直接横向对比。 🔗 开源详情代码：论文中未提及代码链接。模型权重：未提及。论文使用了预训练的TitaNet-Large，但未提供针对此任务微调后的模型权重。数据集：使用的是公开的TIMIT数据集，但未在论文中给出具体的获取链接或预处理脚本。 Demo：未提及。复现材料：论文提供了较为详细的训练配置（如图1、算法1、第4节实验设置），包括超参数（学习率、批量大小、训练轮数、MLP结构、损失权重、桶数、偏好对数量等），但未提供完整的训练脚本、数据划分或检查点。论文中引用的开源项目：明确依赖并使用了TitaNet-Large [27]作为特征提取器。 📌 核心摘要本文针对说话人年龄估计这一回归任务中，均方误差（MSE）损失无法有效建模年龄序数关系的问题，提出了一种结合MSE与直接偏好优化（DPO）的混合训练方法。方法的核心是将连续年龄目标离散化为分位数桶，并为每个样本构建偏好对（预测更接近真实年龄的桶为“偏好”，更远的为“非偏好”），通过DPO损失鼓励模型学习这种序数偏好。这不同于传统MSE对误差分布的假设，也不同于简单的分类方法。主要实验在TIMIT数据集上进行，结果表明，结合MSE和DPO的回归+DPO（RD）配置，使用12个桶和30个偏好对时，取得了最佳的平均绝对误差（MAE）3.98，优于仅使用MSE的基线（4.05）和纯分类方法，并接近该数据集上报告的最优水平（3.97）。该方法的意义在于首次将DPO应用于非分类的回归任务，为需要利用序数信息的连续值预测问题提供了一种新思路。主要局限性是实验数据集规模较小、年龄范围不包含青少年和老年，且未与更多现代方法进行对比验证。表1：不同损失配置在TIMIT数据集上的MAE对比（关键结果）损失配置 MAE 桶数量偏好对数量 RO (仅回归/MSE) 4.0543 - - RD (回归+DPO) 4.0737 6 6 RD (回归+DPO) 4.0454 8 8 RD (回归+DPO) 3.9801 12 30 RD (回归+DPO) 4.0892 12 40 RCD (回归+分类+DPO) 4.0326 8 30 🏗️ 模型架构本文提出的模型架构旨在同时进行连续值回归和离散类别分类（用于DPO监督），并在推理时丢弃分类头。整体流程如下： ...