ICASSP 2026 - 说话人合成 论文列表

ICASSP 2026 - 说话人合成 共 1 篇论文 ← 返回 ICASSP 2026 总览 排名 论文 评分 分档 🥇 PSTalker: Realistic 3D Talking Head Synthesis via a Semantic 7.5分 前25% 📋 论文详情 🥇 PSTalker: Realistic 3D Talking Head Synthesis via a Semantic-Aware Audio-Driven Point-Based Shape ✅ 7.5/10 | 前25% | #说话人合成 | #3D音频 | #语音合成 #音视频 👥 作者与机构 第一作者:Zhongyuan Zhao(北京大学电子与计算机工程学院,鹏城实验室) 通讯作者:Kanglin Liu(鹏城实验室) 作者列表:Zhongyuan Zhao(北京大学电子与计算机工程学院,鹏城实验室)、Qing Li(鹏城实验室)、Kanglin Liu(鹏城实验室) 💡 毒舌点评 论文巧妙地将语义先验融入点基形状表示,有效解决了头颈接合处的“断裂”伪影,这是当前3DGS方法的一个显著痛点,体现了其工程洞察力。然而,其对非刚性形变(如头发细节)的建模能力、以及在多人种、复杂表情下的泛化能力验证略显不足,且“高保真”渲染的细节处理(如动态光照、微表情)仍有提升空间。 🔗 开源详情 代码:论文中未提及代码链接。 模型权重:未提及公开权重。 数据集:论文中提及使用的数据来源于之前的公开工作(ER-NeRF, TalkingGaussian, GaussianTalker),但并未明确声明自己收集的数据集是否开源或如何获取。 Demo:未提及在线演示。 复现材料:论文提供了一些训练细节,如两阶段训练、损失函数组成、使用HuBERT提取特征、以及大致的优化器类型(SparseAdam, AdamW)和推理硬件(RTX 3090),但缺少学习率、批次大小、训练轮次等关键超参数。 引用的开源项目:论文依赖并引用��多个开源工作,包括FLAME模型、3D Gaussian Splatting、HuBERT(用于音频特征提取)等。 总结:论文中未提及开源计划。 📌 核心摘要 ...

2026-04-29 · 更新于 2026-05-19 · 1 min · 96 words