Sounds that Shape: Audio-Driven 3D Mesh Generation with Attribute-Decoupled Score Distillation Sampling
📄 Sounds that Shape: Audio-Driven 3D Mesh Generation with Attribute-Decoupled Score Distillation Sampling #音频生成 #3D音频 #扩散模型 #知识蒸馏 #跨模态 ✅ 7.0/10 | 前25% | #音频生成 | #扩散模型 | #3D音频 #知识蒸馏 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度 高 👥 作者与机构 第一作者:Bumsoo Kim(Chung-Ang University, Republic of Korea) 通讯作者:Sanghyun Seo†(Chung-Ang University, Republic of Korea) 作者列表:Bumsoo Kim(Chung-Ang University, Republic of Korea), Sanghyun Seo(Chung-Ang University, Republic of Korea) 💡 毒舌点评 亮点在于巧妙地绕过了构建昂贵的音频-3D数据集的难题,直接利用现有强大的音频-图像扩散模型知识,通过“属性解耦引导”这一符合3D Gaussian Splatting特性的设计,将文本和音频的各自优势“分配”到几何和纹理上,实现了1+1>2的效果。短板则是其验证强度略显不足,仅用80个样本的微型数据集就得出“SOTA”结论,且未展示对非环境音、非语义音等复杂音频的处理能力,让人对其在真实世界中的鲁棒性和泛化性打个问号。 ...