Hallo-Live: Real-Time Streaming Joint Audio-Video Avatar Generation with Asynchronous Dual-Stream and Human-Centric Preference Distillation
📄 Hallo-Live: Real-Time Streaming Joint Audio-Video Avatar Generation with Asynchronous Dual-Stream and Human-Centric Preference Distillation #音视频 #扩散模型 #知识蒸馏 #流式处理 #实时处理 🔥 8.5/10 | 前25% | #音视频 | #扩散模型 | #知识蒸馏 #流式处理 | arxiv 学术质量 6.0/7 | 选题价值 1.8/2 | 复现加成 0.8 | 置信度 高 👥 作者与机构 第一作者:Chunyu Li(上海创新研究院, 复旦大学) , Jiaye Li(复旦大学) *并列第一 通讯作者:Siyu Zhu(复旦大学) 作者列表: Chunyu Li(上海创新研究院, 复旦大学) Jiaye Li(复旦大学) Ruiqiao Mei(复旦大学) Haoyuan Xia(复旦大学, 中国科学技术大学) Hao Zhu(南京大学) Jingdong Wang(百度) Siyu Zhu(复旦大学) 💡 毒舌点评 亮点:论文精准瞄准了当前音视频数字人模型“慢”和“蒸馏后变糊”的两大痛点,用“未来扩展注意力”这个巧妙设计让模型“偷看”未来几帧音频来预判唇形,同时用多模态奖励加权的蒸馏方法“择优录取”,最终在H200上跑出了20 FPS、延迟不足1秒的惊人速度,且质量损失可控。短板:尽管速度飞起,但在同步性(Sync-C)和语音识别准确率(WER)等绝对指标上,依然能看到与教师模型Ovi的明显差距,而且论文并未与另一个强劲的实时竞争者OmniForcing进行正面比较,说服力稍打折扣。 ...