说话人合成

ICASSP 2026 - 说话人合成共 1 篇论文 ← 返回 ICASSP 2026 总览排名论文评分分档 🥇 PSTalker: Realistic 3D Talking Head Synthesis via a Semantic 7.5分前25% 📋 论文详情 🥇 PSTalker: Realistic 3D Talking Head Synthesis via a Semantic-Aware Audio-Driven Point-Based Shape ✅ 7.5/10 | 前25% | #说话人合成 | #3D音频 | #语音合成 #音视频 👥 作者与机构第一作者：Zhongyuan Zhao（北京大学电子与计算机工程学院，鹏城实验室）通讯作者：Kanglin Liu（鹏城实验室）作者列表：Zhongyuan Zhao（北京大学电子与计算机工程学院，鹏城实验室）、Qing Li（鹏城实验室）、Kanglin Liu（鹏城实验室） 💡 毒舌点评论文巧妙地将语义先验融入点基形状表示，有效解决了头颈接合处的“断裂”伪影，这是当前3DGS方法的一个显著痛点，体现了其工程洞察力。然而，其对非刚性形变（如头发细节）的建模能力、以及在多人种、复杂表情下的泛化能力验证略显不足，且“高保真”渲染的细节处理（如动态光照、微表情）仍有提升空间。 🔗 开源详情代码：论文中未提及代码链接。模型权重：未提及公开权重。数据集：论文中提及使用的数据来源于之前的公开工作（ER-NeRF, TalkingGaussian, GaussianTalker），但并未明确声明自己收集的数据集是否开源或如何获取。 Demo：未提及在线演示。复现材料：论文提供了一些训练细节，如两阶段训练、损失函数组成、使用HuBERT提取特征、以及大致的优化器类型（SparseAdam, AdamW）和推理硬件（RTX 3090），但缺少学习率、批次大小、训练轮次等关键超参数。引用的开源项目：论文依赖并引用��多个开源工作，包括FLAME模型、3D Gaussian Splatting、HuBERT（用于音频特征提取）等。总结：论文中未提及开源计划。 📌 核心摘要 ...