ICASSP 2026 - 语音驱动动作生成 论文列表

ICASSP 2026 - 语音驱动动作生成 共 1 篇论文 ← 返回 ICASSP 2026 总览 排名 论文 评分 分档 🥇 Style-Disentangled Diffusion for Controllable and Identity-G 7.0分 前25% 📋 论文详情 🥇 Style-Disentangled Diffusion for Controllable and Identity-Generalized Speech-Driven Body Motion Generation ✅ 7.0/10 | 前25% | #语音驱动动作生成 | #扩散模型 | #对比学习 #解耦学习 👥 作者与机构 第一作者:Zixiang Lu(西安电子科技大学计算机科学与技术学院) 通讯作者:Zhitong He, Qiguang Miao(西安电子科技大学计算机科学与技术学院) 作者列表:Zixiang Lu(西安电子科技大学计算机科学与技术学院)、Zhitong He(西安电子科技大学计算机科学与技术学院)、Zixuan Wang(未说明)、Yunan Li(未说明)、Qiguang Miao(西安电子科技大学计算机科学与技术学院) 💡 毒舌点评 亮点:风格解耦模块的设计很巧妙,通过对比学习拉近同一说话人风格码的距离,并用梯度反转从内容特征中剥离身份信息,理论上提升了可控性和可解释性。短板:论文声称的“Identity-Generalized”能力仅在单一数据集(BEATX)的同一说话人测试集上进行定量评估,缺乏跨数据集或对未知说话人的严格泛化验证,说服力稍显不足。 🔗 开源详情 代码:论文中未提及代码链接。 模型权重:未提及。 数据集:使用了公开的BEATX数据集,论文中未说明是否提供其他自定义数据。 Demo:未提及在线演示。 复现材料:论文给出了损失函数的权重配置,但缺少训练超参数、模型架构细节等关键复现信息。 论文中引用的开源项目:未在正文中明确引用特定开源项目。方法部分参考了Syntalker [11]的分割策略,数据集使用了BEATX [12]。 论文中未提及开源计划。 📌 核心摘要 ...

2026-04-29

ICASSP 2026 - 说话人分离 论文列表

ICASSP 2026 - 说话人分离 共 9 篇论文 ← 返回 ICASSP 2026 总览 排名 论文 评分 分档 🥇 Train Short, Infer Long: Speech-LLM Enables Zero-Shot Stream 9.0分 前10% 🥈 VBx for End-to-End Neural and Clustering-Based Diarization 8.5分 前25% 🥉 Spatially Aware Self-Supervised Models for Multi-Channel Neu 8.0分 前25% 4. Dual-Strategy-Enhanced Conbimamba for Neural Speaker Diariza 8.0分 前25% 5. Attention-Based Encoder-Decoder Target-Speaker Voice Activit 8.0分 前25% 6. β-AVSDNET: A Novel End-To-End Neural Network Architecture Fo 7.5分 前25% 7. Automatic Estimation of Speaker Diarization Error Rate Based 7.5分 前25% 8. Single-Microphone Audio Point Source Discriminative Localiza 7.0分 前25% 9. Integrating Speaker Embeddings and LLM-Derived Semantic Repr 6.5分 前25% 📋 论文详情 🥇 Train Short, Infer Long: Speech-LLM Enables Zero-Shot Streamable Joint ASR and Diarization on Long Audio 🔥 9.0/10 | 前10% | #说话人分离 | #语音大模型 | #语音识别 #端到端 ...

2026-04-29

ICASSP 2026 - 说话人合成 论文列表

ICASSP 2026 - 说话人合成 共 1 篇论文 ← 返回 ICASSP 2026 总览 排名 论文 评分 分档 🥇 PSTalker: Realistic 3D Talking Head Synthesis via a Semantic 7.5分 前25% 📋 论文详情 🥇 PSTalker: Realistic 3D Talking Head Synthesis via a Semantic-Aware Audio-Driven Point-Based Shape ✅ 7.5/10 | 前25% | #说话人合成 | #3D音频 | #语音合成 #音视频 👥 作者与机构 第一作者:Zhongyuan Zhao(北京大学电子与计算机工程学院,鹏城实验室) 通讯作者:Kanglin Liu(鹏城实验室) 作者列表:Zhongyuan Zhao(北京大学电子与计算机工程学院,鹏城实验室)、Qing Li(鹏城实验室)、Kanglin Liu(鹏城实验室) 💡 毒舌点评 论文巧妙地将语义先验融入点基形状表示,有效解决了头颈接合处的“断裂”伪影,这是当前3DGS方法的一个显著痛点,体现了其工程洞察力。然而,其对非刚性形变(如头发细节)的建模能力、以及在多人种、复杂表情下的泛化能力验证略显不足,且“高保真”渲染的细节处理(如动态光照、微表情)仍有提升空间。 🔗 开源详情 代码:论文中未提及代码链接。 模型权重:未提及公开权重。 数据集:论文中提及使用的数据来源于之前的公开工作(ER-NeRF, TalkingGaussian, GaussianTalker),但并未明确声明自己收集的数据集是否开源或如何获取。 Demo:未提及在线演示。 复现材料:论文提供了一些训练细节,如两阶段训练、损失函数组成、使用HuBERT提取特征、以及大致的优化器类型(SparseAdam, AdamW)和推理硬件(RTX 3090),但缺少学习率、批次大小、训练轮次等关键超参数。 引用的开源项目:论文依赖并引用��多个开源工作,包括FLAME模型、3D Gaussian Splatting、HuBERT(用于音频特征提取)等。 总结:论文中未提及开源计划。 📌 核心摘要 ...

2026-04-29

ICASSP 2026 - 说话人日志 #语音分离 论文列表

ICASSP 2026 - 说话人日志 #语音分离 共 1 篇论文 ← 返回 ICASSP 2026 总览 排名 论文 评分 分档 🥇 Loose Coupling of Spectral and Spatial Models for Multi-Chan 7.2分 前25% 📋 论文详情 🥇 Loose Coupling of Spectral and Spatial Models for Multi-Channel Diarization and Enhancement of Meetings in Dynamic Environments ✅ 7.2/10 | 前25% | #说话人日志 #语音分离 | #麦克风阵列 #波束成形 | #说话人日志 #语音分离 👥 作者与机构 第一作者:Adrian Meise (Paderborn University, Germany), Tobias Cord-Landwehr (Paderborn University, Germany) (论文标注“*Authors contributed equally”,为共同第一作者) 通讯作者:未说明 作者列表:Adrian Meise (Paderborn University), Tobias Cord-Landwehr (Paderborn University), Christoph Boeddeker (Paderborn University), Marc Delcroix (NTT, Inc., Japan), Tomohiro Nakatani (NTT, Inc., Japan), Reinhold Haeb-Umbach (Paderborn University) 💡 毒舌点评 ...

2026-04-29

ICASSP 2026 - 说话人日志 论文列表

ICASSP 2026 - 说话人日志 共 2 篇论文 ← 返回 ICASSP 2026 总览 排名 论文 评分 分档 🥇 A Framework for Controlled Multi-Speaker Audio Synthesis for 7.5分 前25% 🥈 Mitigating Intra-Speaker Variability in Diarization with Sty 7.0分 前25% 📋 论文详情 🥇 A Framework for Controlled Multi-Speaker Audio Synthesis for Robustness Evaluation of Speaker Diarisation Systems ✅ 7.5/10 | 前25% | #说话人日志 | #数据增强 | #说话人分离 #基准测试 👥 作者与机构 第一作者:Shreyas Ramoji(谢菲尔德大学计算机学院,SpandH Group) 通讯作者:未说明 作者列表:Shreyas Ramoji(谢菲尔德大学计算机学院,SpandH Group)、Vivek Kumar Thoppe Ravindranath(谢菲尔德大学计算机学院,SpandH Group)、Thomas Hain(谢菲尔德大学计算机学院,SpandH Group) 💡 毒舌点评 ...

2026-04-29

ICASSP 2026 - 说话人检测 论文列表

ICASSP 2026 - 说话人检测 共 1 篇论文 ← 返回 ICASSP 2026 总览 排名 论文 评分 分档 🥇 Audio-Guided Multimodal Approach for Fine-Grained Alignment 7.5分 前25% 📋 论文详情 🥇 Audio-Guided Multimodal Approach for Fine-Grained Alignment and Boundary Modeling in Active Speaker Detection ✅ 7.5/10 | 前25% | #说话人检测 | #多模态模型 | #对比学习 #预训练 👥 作者与机构 第一作者:Yongkang Yin(北京大学深圳研究生院,广东省超高沉浸感媒体技术重点实验室;ADSPLAB,北京大学电子与计算机工程学院) 通讯作者:Yuexian Zou(北京大学深圳研究生院,广东省超高沉浸感媒体技术重点实验室;ADSPLAB,北京大学电子与计算机工程学院) 作者列表:Yongkang Yin(同上),Yukun Zhuang(同上),Zeyu Xie(同上;腾讯AI Lab),Chenxing Li(腾讯AI Lab),Le Xu(腾讯AI Lab),Yuexian Zou(同上) 💡 毒舌点评 ...

2026-04-29

ICASSP 2026 - 说话人生成 论文列表

ICASSP 2026 - 说话人生成 共 1 篇论文 ← 返回 ICASSP 2026 总览 排名 论文 评分 分档 🥇 DepthTalk: Few-Shot Talking Head Generation with Depth-Aware 7.0分 前25% 📋 论文详情 🥇 DepthTalk: Few-Shot Talking Head Generation with Depth-Aware 3D Gaussian Field Motion ✅ 7.0/10 | 前25% | #说话人生成 | #3D高斯溅射 | #少样本学习 #音视频 👥 作者与机构 第一作者:Shucheng Ji(澳门理工大学应用科学学院) 通讯作者:Xiaochen Yuan(澳门理工大学应用科学学院) 作者列表:Shucheng Ji(澳门理工大学应用科学学院)、Junqing Huang(澳门理工大学应用科学学院)、Yang Lian(澳门理工大学应用科学学院)、Xiaochen Yuan(澳门理工大学应用科学学院) 💡 毒舌点评 亮点在于其“深度梯度损失”设计很巧妙,通过监督深度图的梯度而非绝对值来防止尺度不一致导致的深度崩塌,这是一个对实际工程问题有深刻洞察的解决方案。短板是其整体框架建立在强大的预训练深度先验模型(Sapiens)之上,这在一定程度上限制了方法的通用性和在无此类先验场景下的可用性,且论文未提供代码,复现门槛较高。 🔗 开源详情 代码:论文中未提及代码链接。 模型权重:未提及公开模型权重。 数据集:使用了HDTF和公开数据集,但未说明这些数据集是否在本工作专属发布或如何获取。 Demo:未提及在线演示。 复现材料:提供了训练时长(预训练2小时)、优化器、学习率、损失权重等关键超参数,但缺乏batch size、数据预处理细节等,复现信息不够充分。 论文中引用的开源项目:引用了InsTaG([2])、SyncTalk([10])、GeneFace([14])、MimicTalk([15])等开源工作作为基线或技术参考。 总体:论文中未提及开源计划。 📌 核心摘要 ...

2026-04-29

ICASSP 2026 - 说话人脸生成 论文列表

ICASSP 2026 - 说话人脸生成 共 1 篇论文 ← 返回 ICASSP 2026 总览 排名 论文 评分 分档 🥇 Assessing Identity Leakage in Talking Face Generation: Metri 7.5分 前25% 📋 论文详情 🥇 Assessing Identity Leakage in Talking Face Generation: Metrics and Evaluation Framework ✅ 7.5/10 | 前25% | #说话人脸生成 | #模型评估 | #基准测试 #音视频 👥 作者与机构 第一作者:Dogucan Yaman(Karlsruhe Institute of Technology, KIT Campus Transfer GmbH (KCT)) 通讯作者:未说明(根据惯例和贡献推测,Alexander Waibel 可能为通讯作者,但论文未明确标注) 作者列表:Dogucan Yaman (Karlsruhe Institute of Technology, KCT)、Fevziye Irem Eyiokur (Karlsruhe Institute of Technology, KCT)、Hazım Kemal Ekenel (Istanbul Technical University)、Alexander Waibel (Karlsruhe Institute of Technology, KCT, Carnegie Mellon University) 💡 毒舌点评 ...

2026-04-29

ICASSP 2026 - 说话人识别 论文列表

ICASSP 2026 - 说话人识别 共 1 篇论文 ← 返回 ICASSP 2026 总览 排名 论文 评分 分档 🥇 DPO-Regularized Regression for Age Prediction 7.5分 前25% 📋 论文详情 🥇 DPO-Regularized Regression for Age Prediction ✅ 7.5/10 | 前25% | #说话人识别 | #回归模型 | #偏好学习 #DPO 👥 作者与机构 第一作者:Mahsa Zamani(卡内基梅隆大学语言技术研究所) 通讯作者:Bhiksha Raj(卡内基梅隆大学语言技术研究所) 作者列表:Mahsa Zamani(卡内基梅隆大学语言技术研究所)、Rita Singh(卡内基梅隆大学语言技术研究所)、Bhiksha Raj(卡内基梅隆大学语言技术研究所) 💡 毒舌点评 亮点:将偏好优化(DPO)从语言模型对齐巧妙迁移到连续值回归问题,作为序数损失的监督信号,思路新颖且理论上有说服力,为传统MSE回归提供了有价值的补充。短板:实验仅在TIMIT(630人,20-58岁)这一个相对较小且年龄范围受限的数据集上验证,说服力有限;且未开源代码和模型,对于声称的“state-of-the-art”缺乏与同期最先进方法的直接横向对比。 🔗 开源详情 代码:论文中未提及代码链接。 模型权重:未提及。论文使用了预训练的TitaNet-Large,但未提供针对此任务微调后的模型权重。 数据集:使用的是公开的TIMIT数据集,但未在论文中给出具体的获取链接或预处理脚本。 Demo:未提及。 复现材料:论文提供了较为详细的训练配置(如图1、算法1、第4节实验设置),包括超参数(学习率、批量大小、训练轮数、MLP结构、损失权重、桶数、偏好对数量等),但未提供完整的训练脚本、数据划分或检查点。 论文中引用的开源项目:明确依赖并使用了TitaNet-Large [27]作为特征提取器。 📌 核心摘要 本文针对说话人年龄估计这一回归任务中,均方误差(MSE)损失无法有效建模年龄序数关系的问题,提出了一种结合MSE与直接偏好优化(DPO)的混合训练方法。方法的核心是将连续年龄目标离散化为分位数桶,并为每个样本构建偏好对(预测更接近真实年龄的桶为“偏好”,更远的为“非偏好”),通过DPO损失鼓励模型学习这种序数偏好。这不同于传统MSE对误差分布的假设,也不同于简单的分类方法。主要实验在TIMIT数据集上进行,结果表明,结合MSE和DPO的回归+DPO(RD)配置,使用12个桶和30个偏好对时,取得了最佳的平均绝对误差(MAE)3.98,优于仅使用MSE的基线(4.05)和纯分类方法,并接近该数据集上报告的最优水平(3.97)。该方法的意义在于首次将DPO应用于非分类的回归任务,为需要利用序数信息的连续值预测问题提供了一种新思路。主要局限性是实验数据集规模较小、年龄范围不包含青少年和老年,且未与更多现代方法进行对比验证。 表1:不同损失配置在TIMIT数据集上的MAE对比(关键结果) 损失配置 MAE 桶数量 偏好对数量 RO (仅回归/MSE) 4.0543 - - RD (回归+DPO) 4.0737 6 6 RD (回归+DPO) 4.0454 8 8 RD (回归+DPO) 3.9801 12 30 RD (回归+DPO) 4.0892 12 40 RCD (回归+分类+DPO) 4.0326 8 30

2026-04-29

ICASSP 2026 - 说话人验证 论文列表

ICASSP 2026 - 说话人验证 共 10 篇论文 ← 返回 ICASSP 2026 总览 排名 论文 评分 分档 🥇 Cross-Domain Contrastive Learning with Dynamic Threshold Cal 8.0分 前25% 🥈 Hybrid Pruning: In-Situ Compression of Self-Supervised Speec 8.0分 前25% 🥉 Distilling Attention Knowledge for Speaker Verification 8.0分 前25% 4. Cross-Architecture Knowledge Distillation of WavLM for Light 8.0分 前25% 5. Triage Knowledge Distillation for Speaker Verification 7.5分 前25% 6. Enhancing Speaker Verification with w2v-BERT 2.0 and Knowled 7.5分 前25% 7. Face-Voice Association with Inductive Bias for Maximum Class 7.0分 前25% 8. Impact of Phonetics on Speaker Identity in Adversarial Voice 7.0分 前50% 9. Curriculum Learning with Contrastive Loss for Lightweight Sp 6.5分 前25% 10. Connecting Layer-Wise Representation of Wavlm with Spectro-T 6.0分 前50% 📋 论文详情 🥇 Cross-Domain Contrastive Learning with Dynamic Threshold Calibration for Source Speaker Tracing 🔥 8.0/10 | 前25% | #说话人验证 | #对比学习 | #音频安全 #跨领域 ...

2026-04-29