视频生成 on 语音/音频论文速递

视频生成 on 语音/音频论文速递 https://nanless.github.io/audio-paper-digest-blog/tags/%E8%A7%86%E9%A2%91%E7%94%9F%E6%88%90/ Recent content in 视频生成 on 语音/音频论文速递 Hugo zh-cn Wed, 29 Apr 2026 00:00:00 +0000 ICASSP 2026 - 视频生成论文列表 https://nanless.github.io/audio-paper-digest-blog/posts/icassp2026-task-052/ Wed, 29 Apr 2026 00:00:00 +0000 https://nanless.github.io/audio-paper-digest-blog/posts/icassp2026-task-052/ 共 2 篇 ICASSP 2026 视频生成方向论文 MirrorTalk: Forging Personalized Avatars Via Disentangled Style and Hierarchical Motion Control https://nanless.github.io/audio-paper-digest-blog/posts/2026-04-29-mirrortalk-forging-personalized-avatars-via/ Wed, 29 Apr 2026 00:00:00 +0000 https://nanless.github.io/audio-paper-digest-blog/posts/2026-04-29-mirrortalk-forging-personalized-avatars-via/ 语音合成 | 7.0/10 StyHarmo: Efficient Style-Specific Video Generation with Music Synchronization https://nanless.github.io/audio-paper-digest-blog/posts/2026-04-29-styharmo-efficient-style-specific-video/ Wed, 29 Apr 2026 00:00:00 +0000 https://nanless.github.io/audio-paper-digest-blog/posts/2026-04-29-styharmo-efficient-style-specific-video/ 视频生成 | 6.5/10 VT-Heads: Voice Cloning and Talking Head Generation from Text Based on V-DiT https://nanless.github.io/audio-paper-digest-blog/posts/2026-04-29-vt-heads-voice-cloning-and-talking-head/ Wed, 29 Apr 2026 00:00:00 +0000 https://nanless.github.io/audio-paper-digest-blog/posts/2026-04-29-vt-heads-voice-cloning-and-talking-head/ 视频生成 | 6.5/10 CoInteract: Physically-Consistent Human-Object Interaction Video Synthesis via Spatially-Structured Co-Generation https://nanless.github.io/audio-paper-digest-blog/posts/2026-04-23-cointeract-physically-consistent-human-object/ Thu, 23 Apr 2026 00:00:00 +0000 https://nanless.github.io/audio-paper-digest-blog/posts/2026-04-23-cointeract-physically-consistent-human-object/ 1. **问题**：现有视频扩散模型在生成人机交互（HOI）视频时，常出现手/脸结构崩溃和人机物理穿透等问题，根源在于模型缺乏对3D空间关系和交互结构的理解。 2. **方法核心**：提出CoInteract框架，核心是“空间结构化协同生成”范式。在一个共享的DiT骨干中联合训练RGB外观流和辅助的