AVTok: 1D Unified Tokenization for Holistic Audio-Video Generation
📄 AVTok: 1D Unified Tokenization for Holistic Audio-Video Generation #多模态模型 #语音合成 #自回归模型 #模型压缩 6.5/10 | 创新 1.5/2 | 严谨 1.2/1.5 | 实验 1/1.5 | 清晰 1/1 | 影响 0.8/1.5 | 开源 0/1.5 | 复现 0/0.5 | 工程 1/1.5 ✅ 6.5/10 | 前25% | #语音合成 | #模型压缩 | #多模态模型 #自回归模型 | arxiv 👥 作者与机构 作者:Kien T. Pham, I Chieh Chen, Qifeng Chen, Long Chen (通讯作者)。 机构:香港科技大学(The Hong Kong University of Science and Technology)。 ...