Beyond Monologue: Interactive Talking-Listening Avatar Generation with Conversational Audio Context-Aware Kernels

📄 Beyond Monologue: Interactive Talking-Listening Avatar Generation with Conversational Audio Context-Aware Kernels #音视频 #扩散模型 #多模态模型 #数据集 #全双工交互 🔥 评分:9.0/10 | arxiv 👥 作者与机构 第一作者:Yuzhe Weng (翁宇哲),中国科学技术大学 (USTC) 通讯作者:Jun Du (杜俊),中国科学技术大学 (USTC),邮箱:jundu@ustc.edu.cn 其他作者: Haotian Wang (王浩天),中国科学技术大学 (USTC) Xinyi Yu (余欣怿),中国科学技术大学 (USTC) Xiaoyan Wu (吴晓燕),科大讯飞 (iFLYTEK) Haoran Xu (徐浩然),科大讯飞 (iFLYTEK) Shan He (何山),科大讯飞 (iFLYTEK) 💡 毒舌点评 亮点:用“多尺度高斯核注意力”这个优雅的数学工具,把“看口型”和“懂语境”这两个打架的脑区给整合到一个模型里了,思路清晰又有效。槽点:虽然建模了上半身反应,但离生成真正富有表现力的、带手势的全身交互动作还有距离,算是给未来挖了个大坑。 🔗 开源详情 代码:论文提到了GitHub仓库(Report GitHub Issue ×),表明代码部分开源(可能指推理代码或核心模块)。 项目主页:提供了BeyondMonologue-Page链接,用于展示更多结果和信息。 模型权重:论文中未明确说明是否公开预训练模型权重。 数据集:构建了大规模数据集VoxHear(1206小时),论文中未明确说明是否完全公开,但通常此类工作会部分公开或提供获取方式。 在线Demo:论文中未提及在线Demo。 依赖的开源项目:论文中明确提及的开源工具/模型包括:Wan2.2(视频生成骨干)、Wav2Vec 2.0(音频编码)、MossFormer2(语音分离,来自ClearVoice工具包)、SyncNet(唇同步验证)、DWPose(姿态估计)、IP-Adapter(适配器范式)。 📌 核心摘要 本文旨在解决从单向“独白”式虚拟人生成迈向自然“全双工”交互式生成的核心挑战。核心问题在于,现有方法要么因严格的帧对齐而反应僵硬,要么因引入全局注意力而破坏唇同步。关键方法是提出一个基于多头高斯核(MHGK)的统一注意力架构,该机制通过为不同的注意力头分配从窄到宽的高斯分布感受野,使模型能同时学习精细的唇形对齐(窄感受野)和长程的对话上下文(宽感受野)。此外,论文构建了双流架构以处理同步的说话与聆听音频,并引入任意位置引导训练策略以提升长视频生成的稳定性。为支撑研究,还构建了大规模、音视频解耦的对话数据集VoxHear(1206小时)。主要发现表明,该方法在唇同步精度、身份保持、视觉质量和用户感知自然度等多个维度上均显著优于现有技术。实际意义在于为构建能理解对话上下文并做出自然反应的下一代交互式数字人提供了坚实的技术框架和数据基础。局限性在于目前主要聚焦于上半身反应,对更复杂全身姿态和手势的生成能力有待探索。 🏗️ 模型架构 本模型是一个基于流匹配(Flow Matching) 和扩散Transformer(DiT) 的端到端视频生成框架,旨在根据一张参考肖像图、一段说话音频和一段聆听音频,生成对应的交互式视频。 ...

2026-04-20 · 更新于 2026-05-19 · 3 min · 528 words

语音/音频论文速递 2026-04-20

语音/音频论文速递 2026-04-20 共分析 24 篇论文 ⚡ 今日概览 📥 抓取 24 篇 → 🔬 深度分析完成 🏷️ 热门方向 方向 数量 分布 基准测试 6篇 ██████ 多模态模型 5篇 █████ 语音对话系统 4篇 ████ 大语言模型 4篇 ████ 多语言 4篇 ████ 数据集 4篇 ████ 跨模态 3篇 ███ 模型评估 3篇 ███ 📊 论文评分排行榜(24 篇,按分数降序) 排名 论文 评分 🥇 Qwen3.5-Omni Technical Report 9.5分 🥈 Beyond Monologue: Interactive Talking-Listening Avatar 9.0分 🥉 MoshiRAG: Asynchronous Knowledge Retrieval for Full-Dup 8.5分 4 Generalizable Audio-Visual Navigation via Binaural Diff 8.5分 5 Hierarchical Codec Diffusion for Video-to-Speech Genera 8.5分 6 VoxMind: An End-to-End Agentic Spoken Dialogue System 8.5分 7 ArtifactNet: Detecting AI-Generated Music via Forensic 8.0分 8 Full-Duplex-Bench-v3: Benchmarking Tool Use for Full-Du 8.0分 9 ActorMind: Emulating Human Actor Reasoning for Speech R 8.0分 10 Elucidating the SNR-t Bias of Diffusion Probabilistic M 8.0分 11 HARNESS: Lightweight Distilled Arabic Speech Foundation 7.5分 12 NaijaS2ST: A Multi-Accent Benchmark for Speech-to-Speec 7.5分 13 NVBench: A Benchmark for Speech Synthesis with Non-Verb 7.5分 14 AST: Adaptive, Seamless, and Training-Free Precise Spee 7.5分 15 Temporal Contrastive Decoding: A Training-Free Method f 7.5分 16 Joint-Centric Dual Contrastive Alignment with Structure 7.5分 17 Discrete Token Modeling for Multi-Stem Music Source Sep 7.0分 18 Spatial-Aware Conditioned Fusion for Audio-Visual Navig 7.0分 19 BlasBench: An Open Benchmark for Irish Speech Recogniti 7.0分 20 TinyMU: A Compact Audio-Language Model for Music Unders 6.5分 21 Interactive ASR: Towards Human-Like Interaction and Sem 6.5分 22 PS-TTS: Phonetic Synchronization in Text-to-Speech for 6.0分 23 MUSCAT: MUltilingual, SCientific ConversATion Benchmark 6.0分 24 The Acoustic Camouflage Phenomenon: Re-evaluating Speec 2.5分 📋 论文列表 🥇 Qwen3.5-Omni Technical Report 🔥 9.5分 | #语音对话系统, #音频大模型, #多模态模型, #预训练, | arxiv ...

2026-04-20 · 更新于 2026-05-19 · 10 min · 2068 words