Posts

From Text to Talk: Audio-Language Model Needs Non-Autoregressive Joint Training

📄 From Text to Talk: Audio-Language Model Needs Non-Autoregressive Joint Training #语音对话系统 #扩散模型 #语音大模型 #端到端 #预训练 ✅ 7.5/10 | 前25% | #语音对话系统 | #扩散模型 | #语音大模型 #端到端学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度高 👥 作者与机构第一作者：Tianqiao Liu（广东智慧教育研究院、好未来教育集团）通讯作者：Xueyi Li（广东智慧教育研究院）作者列表：Tianqiao Liu（广东智慧教育研究院、好未来教育集团）、Xueyi Li（广东智慧教育研究院）、Hao Wang（北京大学）、Haoxuan Li（北京大学）、Zhichao Chen（北京大学）、Weiqi Luo（广东智慧教育研究院）、Zitao Liu（广东智慧教育研究院） 💡 毒舌点评亮点在于敏锐地指出了用单一自回归目标训练文本和音频模态的“结构性不匹配”，并巧妙地利用离散扩散模型的任意序自回归特性，构建了一个理论自洽的混合生成框架。短板在于，虽然模型在多个任务上超越了基线，但其性能与一些大型（7B以上）模型仍有差距，且实验部分主要依赖合成数据进行扩展，其在大规模真实交互场景中的鲁棒性和长期对话能力尚待更深入的验证。 🔗 开源详情代码：是，提供了GitHub仓库链接：https://github.com/ai4ed/TtT。模型权重：未提及是否公开模型检查点或权重。数据集：论文中详细列出了训练所用数据集名称和部分规模，但未说明是否公开整合后的训练数据集或提供下载方式。 Demo：未提及在线演示。复现材料：提供了非常详尽的训练细节（优化器、学习率、批量大小、随机策略概率等）和推理配置（扩散步数、块大小、引导尺度等），并说明了评估使用的具体ASR和LLM-as-a-Judge模型。附录包含数据格式示例。论文中引用的开源项目：明确使用了Qwen2.5作为主干模型，并沿用了GLM-4-Voice的音频Tokenizer和Decoder设计。训练数据引用了VoiceAssistant-400K， CosyVoice2， FineWeb-Edu等。评估中使用了Whisper， Paraformer-zh， Qwen3-30B-A3B等。 📌 核心摘要问题：现有的端到端语音对话模型（如Moshi, GLM-4-Voice）普遍采用单一自回归（AR）方法同时生成文本和音频，但这忽视了两种模态的本质依赖差异：文本生成是强目标间（target-target）依赖，而音频生成更依赖源-目标（source-target）依赖，即主要由输入文本决定。方法核心：提出了Text-to-Talk (TtT)，一个统一的音频-文本多模态大语言模型框架。其核心是将AR用于文本生成，与基于吸收离散扩散的非自回归（NAR）方法用于音频生成，整合到同一个Transformer中。文本生成遵循标准因果顺序，而音频段内的生成被建模为可以任意顺序进行（得益于扩散模型的性质），但整体仍受制于因果的跨段依赖。创新点：理论框架：利用吸收离散扩散模型等价于“任意序自回归模型”的理论，为混合AR-NAR训练目标提供了上界分析，证明了其合理性。架构设计：设计了模态感知注意力机制，强制对文本使用因果注意力，而对音频段内允许双向注意力，同时保持跨段的因果依赖。训练策略：提出了三项训练策略（批量AR/NAR混合、前缀保留掩码、随机段截断）来弥合训练时部分掩码音频与推理时完整音频之间的差异。主要实验结果：在多个基准测试（Audio-QA, ASR, AAC, URO-Bench）上，TtT（3B参数）持续优于强大的纯AR和纯NAR基线模型。例如，在Audio-QA的LLaMAQuestions数据集上，TtT-3B得分34.68，而纯AR的Qwen2.5-3B仅得10.00；在AISHELL-2 ASR任务上，TtT-3B的WER为12.53，显著低于AR基线的54.94。与更大的模型相比，TtT在某些任务上也展现出竞争力。实际意义：为构建更高效、更自然的端到端语音对话系统提供了一种新的架构范式，通过尊重模态差异来减少误差传播，并实现音频的并行生成，有望降低延迟。主要局限性：当前实验主要基于3B参数的模型，其能力上限和在更复杂推理任务上的表现有待更大规模模型的验证；部分训练数据依赖TTS合成，可能引入领域偏差。 🏗️ 模型架构 TtT模型基于一个预训练的纯文本LLM（论文中使用Qwen2.5-Base）进行构建，通过扩展其词表以包含音频离散码元（来自GLM-4-Voice的音频分词器）和特殊控制符（如<SOA>、<EOA>、<EOS>）。整个框架是一个统一的Transformer编码器-解码器（在论文中记为fθ），共享一个输出头W用于在整个扩展词表V上预测logits。 ...

Generative Adversarial Post-Training Mitigates Reward Hacking in Live Human-AI Music Interaction

📄 Generative Adversarial Post-Training Mitigates Reward Hacking in Live Human-AI Music Interaction #音乐生成 #强化学习 #生成模型 🔥 8.0/10 | 前50% | #音乐生成 | #强化学习 | #生成模型学术质量 5.5/7 | 选题价值 1.2/2 | 复现加成 1.0 | 置信度高 👥 作者与机构第一作者：Yusong Wu（Mila, Quebec Artificial Intelligence Institute, Université de Montréal）通讯作者：Natasha Jaques（University of Washington），Cheng-Zhi Anna Huang（Massachusetts Institute of Technology）（论文中明确标注这两位为共同资深作者 Equal contribution as senior authors）作者列表： Yusong Wu（Mila, Université de Montréal） Stephen Brade（Massachusetts Institute of Technology） Aleksandra Teng Ma（Georgia Institute of Technology） Tia-Jane Fowler（University of Washington） Enning Yang（McGill University） Berker Banar（Independent Researcher） Aaron Courville（Mila, Université de Montréal） Natasha Jaques（University of Washington） Cheng-Zhi Anna Huang（Massachusetts Institute of Technology） 💡 毒舌点评亮点：本文将强化学习后训练中“奖励黑客”这个时髦但棘手的问题，在一个要求极高的实时音乐交互场景中具象化，并提出了一个巧妙且工程上可行的对抗性解决方案（GAPT），实验设计从离线到真人验证非常扎实。短板：核心方法（对抗训练+RL）并非独创，本文的价值更多在于针对音乐交互场景的细致适配与验证，其提出的两阶段更新策略虽有效但偏“炼丹”，对解决一般性奖励黑客问题的理论贡献有限，且任务领域相对垂直。 ...

Gogo: Group-wise granularity-ordered codec for stable and efficient speech generation

📄 Gogo: Group-wise granularity-ordered codec for stable and efficient speech generation #语音合成 #流匹配 #自回归模型 #零样本 #语音大模型 🔥 8.5/10 | 前25% | #语音合成 | #流匹配 | #自回归模型 #零样本学术质量 6.5/7 | 选题价值 1.8/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Weidong Chen (香港中文大学电子工程系) 通讯作者：Xixin Wu (香港中文大学电子工程系) 作者列表：Weidong Chen (香港中文大学电子工程系), Helen M. Meng (香港中文大学电子工程系), Xixin Wu (香港中文大学电子工程系) 💡 毒舌点评论文的亮点在于巧妙地将“组级量化”与“粒度排序”结合，从根源上解决了语音编解码器既要“高层抽象利于建模”又要“低层细节保证音质”的矛盾，设计思路清晰且优雅。但短板在于其框架组件繁多（编解码器、两阶段生成模型、额外训练的分配器），训练流程复杂，且token分配器的优化与主模型分离，可能并非全局最优，工程实现的门槛不低。 🔗 开源详情代码：论文中未提及官方代码仓库链接。模型权重：未提及公开预训练模型权重。数据集：训练使用Emilia（英文子集），评估使用LibriTTS和Seed-TTS，均为已有公开数据集。论文未提及提供新的数据集。 Demo：提供了在线演示链接：https://happycolor.github.io/gogo。复现材料：附录（A-M）提供了极其详细的实现细节、训练配置、评估设置、消融实验说明和可视化，复现信息非常充分。论文中引用的开源项目：Vocos (声码器), LLaMA-3.2-1B-Instruct (SLM基础模型), PyTorch等常见框架。对比实验中引用了EnCodec, DAC, SpeechTokenizer, Mimi, SNAC, WavTokenizer等众多开源编码器模型。 📌 核心摘要本文旨在解决当前语音语言模型中核心的语音编解码器面临的双重挑战：传统帧级量化难以捕获高层语义信息，以及固定比特率分配忽略了语音信号信息分布的不均匀性。为此，作者提出了Gogo编解码器，它创新性地将连续帧分组，并为每组生成从粗到细、粒度有序的令牌，粗令牌编码高层抽象，细令牌逐步恢复声学细节。基于此，设计了GogoSpeech两阶段语音生成模型：第一阶段以极低令牌率生成高层语音骨架，第二阶段再丰富细节。此外，引入了一个基于GRPO训练的令牌分配器，根据语音片段的复杂度自适应分配细粒度令牌的预算，以提升效率。实验表明，在47 Hz的令牌率下，Gogo在多项重建指标（如UT-MOS 4.19, DNS-MOS 3.99）上优于其他SOTA编解码器。在零样本语音合成任务中，GogoSpeech取得了最佳的说话人相似度（SIM 0.667）和综合质量评分（SMOS 4.381, CMOS +1.832），并证明了令牌分配器能在几乎不损质量的前提下将平均令牌率从47 Hz降至36 Hz。这项工作为高效、稳定的语音生成提供了新的范式。其局限性在于依赖固定的分组策略，且令牌分配器的训练与主生成模型解耦，可能存在优化不足。 ...

Hierarchical Semantic-Acoustic Modeling via Semi-Discrete Residual Representations for Expressive End-to-End Speech Synthesis

📄 Hierarchical Semantic-Acoustic Modeling via Semi-Discrete Residual Representations for Expressive End-to-End Speech Synthesis #语音合成 #自回归模型 #零样本 #扩散模型 #端到端 🔥 8.5/10 | 前25% | #语音合成 | #自回归模型 | #零样本 #扩散模型学术质量 6.0/7 | 选题价值 1.8/2 | 复现加成 0.6 | 置信度高 👥 作者与机构第一作者：Yixuan Zhou（清华大学深圳国际研究生院）通讯作者：Zhiyong Wu（清华大学深圳国际研究生院）作者列表：Yixuan Zhou（清华大学深圳国际研究生院）、Guoyang Zeng（ModelBest Inc.）、Xin Liu（ModelBest Inc.）、Xiang Li（清华大学深圳国际研究生院）、Renjie Yu（清华大学深圳国际研究生院）、Ziyang Wang（ModelBest Inc.）、Runchuan Ye（清华大学深圳国际研究生院）、Weiyue Sun（ModelBest Inc.）、Jiancheng Gui（ModelBest Inc.）、Kehan Li（清华大学深圳国际研究生院）、Zhiyong Wu（清华大学深圳国际研究生院，通讯作者）、Zhiyuan Liu（清华大学计算机科学与技术系） 💡 毒舌点评论文巧妙地利用有限标量量化（FSQ）作为“强制分心”的瓶颈，逼着语言模型先管好内容和语调的大局，再把声学细节的脏活累活交给另一个模块，这种设计既有理论优雅性又有工程实用性；不过，尽管在客观指标和克隆相似度上表现亮眼，论文在主观自然度（N-MOS）上并未全面碾压IndexTTS2等强敌，暗示着“稳定”与“极致自然”之间可能还存在细微的权衡，尤其是在中文的韵律控制上可能还有提升空间。 🔗 开源详情代码：论文明确表示“We will release code and models to support future research”，但未提供具体的代码仓库链接。附录中给出了推断代码的占位符 codes.zip。模型权重：承诺发布，但未说明具体平台或链接。数据集：使用了公开的Emilia数据集（9.5万小时），并提及了内部大规模双语数据集（超过100万小时，未公开）。 Demo：提供了在线演示页面链接：https://voxcpm.github.io/VoxCPM-demopage/。复现材料：提供了非常充分的复现材料，包括：详细的模型架构参数表（附录表5）、训练阶段的学习率调度与批处理大小（附录表6）、所有消融实验的设置、硬件配置（GPU型号与数量）、以及多处关于训练技巧的说明（如WSD策略的重要性）。附录F部分包含了大量实验的细节和结果表格。论文中引用的开源项目：主要引用了作为基线的其他TTS系统（如CosyVoice, F5-TTS等），以及预训练的语言模型MiniCPM-4。在实现上，使用了Megatron框架。 📌 核心摘要要解决的问题：端到端语音合成中表达力（连续表示）与稳定性（离散表示）之间的根本性矛盾。离散化会损失细节，而连续建模则因任务纠缠（语义规划与声学渲染混杂）容易导致长序列上的误差累积和不稳定。方法核心：提出一个统一的端到端框架，通过“层次化语义-声学建模”和“半离crete残差表示”来解决上述矛盾。核心是在文本语义语言模型（TSLM）和残差声学语言模型（RALM）之间插入一个可微分的有限标量量化（FSQ）瓶颈。该瓶颈自然诱导了任务分离：TSLM专注于生成稳定的语义-韵律“骨架”，RALM负责恢复被量化的细粒度声学细节。两者生成的条件信号共同指导一个基于扩散的局部Transformer解码器（LocDiT）生成最终语音。与已有方法相比新在哪里：新在统一框架：将显式的层次化设计（语义 vs. 声学）与残差学习结合在一个可端到端训练的统一框架内，避免了传统多阶段流水线的割裂和对外部预训练分词器的依赖。新在瓶颈机制：不同于将量化作为预测目标，本工作将FSQ作为正则化瓶颈和归纳偏置，强制信息流进行分层，从而在保持可微性的同时实现了隐式的任务解耦。新在训练范式：整个层次化模型（包括量化瓶颈）仅使用简单的扩散目标进行端到端训练，简化了流程并实现了协同优化。主要实验结果：主实验：在超过100万小时的双语数据上训练的0.5B参数模型VoxCPM，在开源模型中取得了最先进（SOTA）的零样本TTS性能。在SEED-TTS-EVAL基准上，英文WER为1.85%，中文CER为0.93%，说话人相似度（SIM）分别为72.9%（EN）和77.2%（ZH），优于CosyVoice2, IndexTTS2等模型。关键对比数据：模型参数量训练数据英文WER↓ 英文SIM↑ 中文CER↓ 中文SIM↑ CosyVoice2 0.5B 170K hrs 3.09 65.9 1.38 75.7 IndexTTS 2 1.5B 55K hrs 2.23 70.6 1.03 76.5 VoxCPM 0.5B 1.8M hrs 1.85 72.9 0.93 77.2 消融实验：证实了FSQ瓶颈和残差声学模型（RALM）是性能关键。移除FSQ导致中文硬例句CER从18.19%飙升至24.92%；移除RALM（退化为单一连续模型）导致性能显著下降。FSQ维度选择也至关重要，256维是较优平衡点。可视化分析：t-SNE可视化显示TSLM-FSQ输出形成与文本内容相关的语义结构，而RALM残差输出则聚类为说话人相关的声学特征，验证了隐式解耦。实际意义：提供了一种新的、统一的端到端语音合成架构范式，证明了通过精心设计的瓶颈结构可以在连续空间中实现稳定且富有表达力的生成，无需外部离散编码器。这对于推动开源、高质量、可定制的语音合成技术具有重要意义。主要局限性：论文中已提及和暗示的局限包括：在极致语音自然度（N-MOS）上并非所有场景都绝对领先（如中文部分测试落后于IndexTTS2）；实时流式合成能力虽被提及（因果VAE、低延迟），但实验未深入展示其在长序列对话等复杂流式场景下的稳定性与表现；模型依赖大规模高质量数据（超过100万小时）以达最佳性能，其在低资源场景下的有效性未充分验证。 🏗️ 模型架构 VoxCPM是一个端到端的、自回归的层次化语音生成模型，其核心在于层次化的条件生成与半离散残差表示学习。整体架构如下图所示： ...

Human Behavior Atlas: Benchmarking Unified Psychological And Social Behavior Understanding

📄 Human Behavior Atlas: Benchmarking Unified Psychological And Social Behavior Understanding #多模态模型 #多任务学习 #基准测试 #强化学习 #预训练 ✅ 7.5/10 | 前25% | #多模态模型 | #多任务学习 | #基准测试 #强化学习学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 1.0 | 置信度高 👥 作者与机构第一作者：Keane Ong（MIT，新加坡国立大学）通讯作者：论文中未明确标注通讯作者。作者列表： Keane Ong (MIT，新加坡国立大学) Wei Dai (MIT) Carol Li (MIT) Dewei Feng (MIT) Hengzhi Li (MIT，帝国理工学院) Jingyao Wu (MIT) Jiaee Cheong (哈佛大学) Rui Mao (南洋理工大学) Gianmarco Mengaldo (新加坡国立大学) Erik Cambria (南洋理工大学) Paul Pu Liang (MIT) 💡 毒舌点评亮点：堪称“基建狂魔”，首次将13个异构、多模态的行为理解数据集统一成10万+样本的标准化基准，系统性地填补了该领域缺乏统一评估平台的空白，方法论上的“标准化实践”价值极高。短板：模型架构创新有限，核心是微调现有LLM；在SOC（社交推理）、INT（意图识别）等开放生成任务上，即使最好的模型（OMNISAPIENS-7B RL）准确率也仅约0.3，离实际应用还有相当距离，暴露了当前大模型在深层行为理解上的瓶颈。 ...

Human or Machine? A Preliminary Turing Test for Speech-to-Speech Interaction

📄 Human or Machine? A Preliminary Turing Test for Speech-to-Speech Interaction #语音对话系统 #模型评估 #基准测试 #数据集 🔥 9.0/10 | 前25% | #语音对话系统 | #模型评估 | #基准测试 #数据集学术质量 6.5/7 | 选题价值 1.8/2 | 复现加成 0.8 | 置信度高 👥 作者与机构第一作者：Xiang Li（北京邮电大学网络与交换技术国家重点实验室、深圳大数据研究院、香港中文大学（深圳）、深圳环西丽湖实验室）通讯作者：Jiale Han（香港科技大学）作者列表： Xiang Li（北京邮电大学网络与交换技术国家重点实验室、深圳大数据研究院、香港中文大学（深圳）、深圳环西丽湖实验室） Jiabao Gao（香港中文大学（深圳）） Sipei Lin（香港中文大学（深圳）） Xuan Zhou（香港中文大学（深圳）） Chi Zhang（香港中文大学（深圳）） Bo Cheng（北京邮电大学网络与交换技术国家重点实验室） Jiale Han（香港科技大学） Benyou Wang（深圳大数据研究院、香港中文大学（深圳）、深圳环西丽湖实验室） 💡 毒舌点评这篇论文的亮点在于其开创性和系统性：它首次将图灵测试从文本或语音合成领域完整地迁移到端到端语音对话系统评估，并构建了首个包含18维度的细粒度诊断框架，这为“何为类人语音交互”设立了新的评估标准。然而，其短板在于实验设计的简化，例如角色扮演和特定开场白的提示可能无法完全模拟真实世界中开放、自发的对话场景，且测试对话长度较短（20-60秒），对长程记忆和动态人格塑造的评估有所欠缺。 🔗 开源详情代码：论文明确提供了公开的代码仓库链接：https://github.com/Carbohydrate1001/Turing-Test。模型权重：论文提到公开了模型，但具体权重获取方式需参考上述代码仓库（has_model: 是）。数据集：论文明确提供了公开的数据集，并通过上述代码仓库发布（has_dataset: 是）。 Demo：论文中未提及提供在线演示的链接。复现材料：论文在附录中详细说明了数据收集流程（B节）、图灵测试平台设计（C节）、细粒度标注协议（D节）、以及AI评判器的训练设置、嵌入读取选择、模型消融、超参数调优和敏感性分析（E节），复现信息非常充分。论文中引用的开源项目：论文引用了多个开源模型和数据集，包括： S2S模型：GPT-4o, Gemini2.5-Pro, Qwen3, Kimi-K1.5, ChatGLM-4.5, Hunyuan-TurboS, Doubao-Pro 1.5, Claude-Sonnet 4, iFLYTEK-Spark。 TTS模型：Nari Dia-1.6B, Spark-TTS。对话数据集：DailyDialog, DailyTalk, IEMOCAP, MagicData。 AI评判器骨干模型：Qwen2.5-Omni。其他技术：LoRA（低秩适应）。 📌 核心摘要本文旨在解决如何评估现代语音到语音（S2S）系统是否能够像人类一样自然对话这一核心问题。为此，研究者首次针对S2S系统开展了图灵测试。方法核心是构建一个高质量、多类别（人-人、人-机、伪人类）的对话数据集，并通过一个游戏化的在线平台收集大规模人类判断（2,968条）。与仅提供“通过/失败”的传统评估不同，本文进一步开发了一个包含5大类、18个细粒度维度的类人性诊断标注体系，并基于此训练了一个可解释的AI评判模型。与已有工作相比，本文的新意在于：1）首次对端到端S2S系统进行图灵测试；2）从“是否像人”的视角进行诊断，发现当前瓶颈不在语义理解，而在副语言特征、情感表达和对话人格；3）开发了一个显著优于通用多模态模型且可提供诊断依据的专用AI评判器。主要实验结果显示，所有被评估的9个S2S系统的成功率均远低于0.5的人类基准，无人类通过测试；细粒度分析显示S2S系统在“记忆一致性”、“逻辑连贯性”等方面接近人类，但在“韵律”、“情感声学表达”、“谄媚行为”等方面差距明显。所提出的AI评判器在测试集上的整体分类准确率达到96.05%，远超人类评判者的72.84%和通用AI模型的平均水平45.27%。这项工作的实际意义在于为S2S系统提供了一个超越功能性、聚焦于“类人性”的评估基准和诊断工具，明确指出了下一代语音对话AI需要突破的关键方向。主要局限性在于评估的对话场景和长度相对有限，且“伪人类”对话作为对照组的引入虽然增加了测试难度，但其与S2S系统固有缺陷的直接关联性值得进一步探讨。 ...

Incentivizing Consistent, Effective and Scalable Reasoning Capability in Audio LLMs via Reasoning Process Rewards

📄 Incentivizing Consistent, Effective and Scalable Reasoning Capability in Audio LLMs via Reasoning Process Rewards #音频问答 #强化学习 #音频大模型 #推理 #数据增强 🔥 8.5/10 | 前25% | #音频问答 | #强化学习 | #音频大模型 #推理学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Jiajun Fan (伊利诺伊大学厄巴纳-香槟分校 Siebel计算机与数据科学学院；实习于亚马逊) 通讯作者：未明确说明（论文提供了多位作者的邮箱，但未明确指定通讯作者）作者列表： Jiajun Fan (伊利诺伊大学厄巴纳-香槟分校；亚马逊) Roger Ren (亚马逊) Jingyuan Li (亚马逊) Rahul Pandey (亚马逊) Prashanth Gurunath Shivakumar (亚马逊) Ivan Bulyko (亚马逊) Ankur Gandhe (亚马逊) Ge Liu (伊利诺伊大学厄巴纳-香槟分校) Yile Gu (亚马逊) 💡 毒舌点评本文最大的亮点在于精准诊断并命名了“测试时反向扩展”这一音频大模型推理的顽疾，并为此开出了“过程奖励”这剂对症良药，将强化学习的应用从粗放的结果监督提升到了精细的思维过程雕琢。然而，其方法的计算开销（需要多次采样）和奖励函数设计的复杂性，使其对资源有限的团队并不友好，且最终性能天花板仍受制于基础音频感知器的短板，这提醒我们“会思考”之前，得先“听清楚”。 ...

Instilling an Active Mind in Avatars via Cognitive Simulation

📄 Instilling an Active Mind in Avatars via Cognitive Simulation #数字人生成 #扩散模型 #多模态模型 #音视频 #大语言模型 🔥 8.0/10 | 前25% | #数字人生成 | #扩散模型 | #多模态模型 #音视频学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Jianwen Jiang（字节跳动）通讯作者：Jianwen Jiang（字节跳动）作者列表：Jianwen Jiang（字节跳动）、Weihong Zeng（字节跳动）、Zerong Zheng（字节跳动）、Jiaqi Yang（字节跳动）、Chao Liang（字节跳动）、Wang Liao（字节跳动）、Han Liang（字节跳动）、Weifeng Chen（字节跳动）、Xing Wang（字节跳动）、Yuan Zhang（字节跳动）、Mingyuan Gao（字节跳动） 💡 毒舌点评亮点：首次系统地将认知科学的“双系统理论”引入数字人生成框架，通过LLM模拟“慢思考”来规划语义动作，显著提升了生成动画的上下文一致性和表现力，思路新颖且实验验证充分。短板：框架依赖一个可能产生20-30秒延迟的LLM推理模块，且生成模型本身基于现有MMDiT架构改进，核心创新更偏向系统级整合而非底层模型架构突破；此外，所有实验在闭源环境下进行，代码和模型的缺失严重影响了结果的可独立验证性。 🔗 开源详情代码：论文中未提及代码链接。模型权重：未提及公开权重。数据集：论文中详细描述了数据筛选流程，但未提及是否公开数据集。 Demo：未提供在线演示链接。复现材料：论文附录中提供了详细的实现细节（超参数、训练阶段）、数据筛选工具、评估指标和MLLM使用的提示词模板，复现材料在文本层面较为充分。引用的开源项目：依赖Whisper（音频特征提取）、SyncNet（数据筛选）、RAFT（光流计算）、Q-align（质量评估）、PySceneDetect和PaddleOCR（视频预处理）。 📌 核心摘要问题：当前数字人视频生成模型虽然能生成流畅动画，但主要基于低层音频线索（如口型）进行反应式同步，缺乏对高层语义（如情感、意图、语境）的理解，导致生成的动作缺乏逻辑一致性和丰富性。方法核心：提出一个模拟人类“双系统”认知的框架。系统2：利用多模态大语言模型（MLLM）对输入（图像、音频、文本）进行推理，生成结构化的高层动作计划（推理文本）。系统1：设计一个专门的多模态扩散变换器（MMDiT），其核心是伪最后帧（PLF）策略和对称的音频分支融合，以鲁棒地整合MLLM生成的文本指导与音频等反应式信号，同时避免模态冲突。创新点：a) 首个将数字人问题置于认知科学双系统理论下建模的工作；b) 使用MLLM进行显式的语义规划；c) 提出伪最后帧（PLF）策略，通过时序外推能力维持身份一致性，避免了传统参考图条件带来的运动伪影；d) 设计了多模态预热训练策略以优化多分支融合。实验结果：在多项指标上达到SOTA。在CelebV-HQ肖像任务上，FID（31.320）和FVD（45.771）优于或接近OmniHuman-1；在CyberHost全身任务上，HKV（72.113）显著高于OmniHuman-1（47.561），表明手势动态性更强。用户研究（40人）显示，在整体质量、上下文自然度上显著优于多个学术和商业基线。消融研究证明，去除系统2推理会降低动作丰富度（HKV从168.9降至122.4），而PLF和多模态预热对图像质量、运动和身份一致性至关重要。实际意义：为创建具有“主动心智”、能根据语境进行逻辑反应的智能数字人提供了新范式，有望应用于虚拟伴侣、交互式娱乐、影视制作等领域。主要局限性：a) 引入LLM推理带来约20-30秒的额外延迟；b) 框架的有效性部分依赖所选用的特定MLLM；c) 当前评估主要在单人或简单多人场景，复杂交互场景的鲁棒性有待进一步验证；d) 模型和代码未开源。 🏗️ 模型架构整体框架模拟“双系统”认知，流程如图2所示。系统2（审慎控制）：由MLLM智能体驱动，包含分析器和规划器两个阶段。输入角色的参考图像、音频片段和可选文本提示。分析器通过逐步引导式提问，推断语音内容、情感状态和意图，并输出结构化的JSON总结。规划器基于此总结，制定一个详细、连贯的动作计划（作为“时间表”），以推理文本形式输出。该模块为下游生成提供高层语义指导。系统1（反应渲染）：基于多模态扩散变换器（MMDiT）骨干网络，用于最终视频合成。其关键设计包括： ...

InterActHuman: Multi-Concept Human Animation with Layout-Aligned Audio Conditions

📄 InterActHuman: Multi-Concept Human Animation with Layout-Aligned Audio Conditions #视频生成 #扩散模型 #音视频 #多模态模型 #流匹配 🔥 9.0/10 | 前25% | #视频生成 | #扩散模型 | #音视频 #多模态模型学术质量 6.5/7 | 选题价值 1.8/2 | 复现加成 0.8 | 置信度高 👥 作者与机构第一作者：Zhenzhi Wang（香港中文大学，与Jiaqi Yang、Jianwen Jiang贡献相等，按署名顺序列为第一）通讯作者：Jianwen Jiang（字节跳动）作者列表：Zhenzhi Wang（香港中文大学）、Jiaqi Yang（字节跳动）、Jianwen Jiang（字节跳动）、Chao Liang（字节跳动）、Gaojie Lin（字节跳动）、Zerong Zheng（字节跳动）、Ceyuan Yang（字节跳动）、Yuan Zhang（字节跳动）、Mingyuan Gao（字节跳动）、Dahua Lin（香港中文大学） 💡 毒舌点评亮点在于它优雅地解决了多人动画中“条件应该给谁”这个棘手问题，通过一个轻量级的掩码预测器在扩散去噪过程中动态地为每个身份划分“领地”，并据此注入音频，设计精巧且实用。短板是尽管方法强大，但其核心依赖高质量的参考图像和清晰的身份边界，对于重叠严重、遮挡复杂或风格高度抽象的场景，其掩码预测器的鲁棒性和最终生成质量可能面临挑战，论文对此讨论有限。 🔗 开源详情代码：提供了代码仓库链接（基于Wan2.1重新实现），并包含了数据处理和模型推理的伪代码。模型权重：提到了公开的预训练模型权重。数据集：论文中提及的数据集“OpenHumanVid”及其处理管线代码已开源，但完整的训练数据集本身未提及公开下载方式。 Demo：论文提供了视频演示链接：https://zhenzhiwang.github.io/interacthuman/ 复现材料：提供了详细的训练细节（硬件、批大小、学习率）、模型架构说明、消融实验设置以及完整的算法伪代码，复现信息非常充分。引用的开源项目：基础模型Wan2.1；wav2vec 2.0；Qwen2.5-VL / Qwen2-VL；Grounding-SAM2；Florence-2；PySceneDetect；PaddleOCR；Q-align；RAFT；RTMpose；SyncNet；PyTorch FSDP。 📌 核心摘要问题：现有音频驱动或图像定制的视频生成方法大多基于单一主体假设，将条件信息全局注入，无法处理多人对话、人与物体交互等需要为不同身份独立控制外观和声音的多概念复杂场景。方法核心：提出了InterActHuman框架。核心是在预训练的DiT视频生成模型中集成一个轻量级的掩码预测器，该预测器通过交叉注意力机制，从噪声视频特征和参考图像特征中显式预测每个参考身份在视频帧中的时空布局（掩码）。在推理时，采用迭代缓存策略：用前一去噪步骤预测的掩码作为先验，指导当前步骤的局部音频条件注入，将每个身份对应的音频特征仅注入到其掩码区域内。创新点：与依赖隐式特征融合的现有方法不同，本工作首次为多概念人类动画引入了显式、布局对齐的局部条件注入范式。这打破了单一实体假设，实现了对多个身份外观和声音的精确、独立控制。主要实验结果：在多人音频驱动视频生成任务上，本文方法在唇形同步精度（Sync-D↓：6.670 vs OmniHuman的9.482）、视频整体质量（FVD↓：22.881 vs 33.895）和运动多样性（HKV↑：59.635）等关键指标上显著优于所有基线。在多概念定制任务上，也在概念保真度（CLIP-I↑：0.744）和视频质量（IQA↑：4.903）上达到最优。用户研究也显示其在唇形同步和主体一致性方面最受青睐。方法 Sync-D↓ FVD↓ IQA↑ AES↑ OmniHuman (全局音频) 9.482 33.895 4.768 3.466 OmniHuman (固定掩码) 7.068 40.239 4.690 3.369 Ours (预测掩码) 6.670 22.881 4.757 3.467 实际意义：为多模态、多概念的人类动画生成建立了有效基线，可直接应用于多人视频对话、虚拟角色互动、基于多张图片的视频定制等场景。主要局限性：训练数据主要集中于2-3人的场景，可能限制其向更多人（>3）场景的泛化能力；生成能力受限于人类中心领域，对复杂多样的文本提示遵循能力弱于通用视频生成模型。 🏗️ 模型架构模型整体是一个基于MMDiT（Multi-Modal Diffusion Transformer）的视频生成框架，其核心创新在于加入了掩码预测与局部条件注入机制。 ...

InteractWeb-Bench: Can Multimodal Agent Escape Blind Execution in Interactive Website Generation?

📄 InteractWeb-Bench: Can Multimodal Agent Escape Blind Execution in Interactive Website Generation? #基准测试 #多模态模型 #大语言模型 ✅ 7.5/10 | 前25% | #基准测试 | #多模态模型 | #大语言模型 | arxiv 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度中 👥 作者与机构第一作者：Qiyao Wang (1,2) （1 深圳先进技术研究院，2 中国科学院大学）通讯作者：Yuan Lin (3†)， Min Yang (1,5†) （3 大连理工大学，1 深圳先进技术研究院，5 深圳大学先进技术研究院）作者列表：Qiyao Wang（深圳先进技术研究院，中国科学院大学），Haoran Hu（大连理工大学），Longze Chen（深圳先进技术研究院，中国科学院大学），Hongbo Wang（大连理工大学），Hamid Alinejad-Rokny（UNSW Sydney），Yuan Lin（大连理工大学），Min Yang（深圳先进技术研究院，深圳大学先进技术研究院） 💡 毒舌点评亮点：论文敏锐地指出了当前网站生成智能体“盲目执行”的真实痛点，并首次构建了系统模拟非专业用户（包括歧义、冗余、矛盾等）的交互式评估框架，其“约束槽”评估体系设计严谨。短板：论文本身并未提出任何新的生成模型或交互算法，而是对现有模型进行评估，其核心贡献在于“发现问题”而非“解决问题”；此外，尽管声称评估交互能力，但用户智能体仍由另一模型模拟，与真实人类交互存在差距。 🔗 开源详情代码：论文中未提及代码链接。论文指出其交互环境基于 bolt.diy 框架实现，并使用 Playwright 作为浏览器内核，但未提供这些工具的具体开源仓库链接。模型权重：论文中未提及。论文评估了 Qwen、Gemma、GPT、Gemini 等系列多个现有模型，但未提供或提及任何新模型的权重。数据集：InteractWeb-Bench。论文指出其包含从 WebGen-Bench 扩展而来的 404 个测试用例，但未提供具体的数据集下载链接或开源协议。 Demo：论文中未提及。复现材料：论文中未提及。论文在附录中提供了评估模型的详细规格、API成本及人类评估细节，但未提供训练配置、模型检查点等复现材料。论文中引用的开源项目： bolt.diy: 论文指出被用作网站生成代理的基础框架。链接：https://github.com/stackblitz-labs/bolt.diy Playwright: 论文指出交互环境使用基于 Playwright 的浏览器内核实现。链接：https://github.com/microsoft/playwright WebVoyager: 论文指出用于最终评估的视觉审计器。链接：https://github.com/MinorJerry/WebVoyager Set-of-Mark (SoM) Prompting: 论文指出与 WebVoyager 结合用于视觉审计。链接：https://github.com/yuweihao/SAM-SoM vLLM: 论文指出用于部署小型开源模型。链接：https://github.com/vllm-project/vllm ClarifyCoder: 论文在相关工作中提及。链接：论文中未提及。 HumanEvalComm: 论文在相关工作中提及。链接：论文中未提及。 ClarifyMT-Bench: 论文在相关工作中提及。链接：论文中未提及。 SWE-bench: 论文在相关工作中提及。链接：https://github.com/princeton-nlp/SWE-bench InterCode: 论文在相关工作中提及。链接：论文中未提及。 Design2Code: 论文在相关工作中提及。链接：论文中未提及。 Web2Code: 论文在相关工作中提及。链接：论文中未提及。 WebGen-Bench: 论文指出其种子任务部分源于此。链接：论文中未提及。 Persona2Web: 论文在相关工作中提及。链接：论文中未提及。补充信息 [核心摘要] 补充：论文明确声称 InteractWeb-Bench 是第一个用于评估多模态智能体在非专家低代码用户条件下网站生成能力的交互式基准。这一“首个”定位是其核心贡献之一。 [核心摘要] 补充：论文在局限性部分明确指出三点：1) 用户交互仍为模型模拟，非真实人类；2) 基准本身的用户智能体、评估器（WebVoyager+GPT-5-mini）是黑盒，可复现性受限；3) 侧重发现问题，未提出解决方案。分析中已提及前两点，第三点在分析中虽有提及，但可更明确。 [细节详述] 补充：论文在附录A中提供了详细的API成本分析，列出了各模型在InteractWeb-Bench上的单网站评估成本（从0.016美元到0.475美元不等），这对评估基准的经济性有重要参考价值。 [实验结果] 补充：论文在附录B中报告了人类评估的详细结果：三位计算机科学博士生参与评估，评估者间表现出中等程度的一致性（Kendall’s τ = 0.5675）。同时，MLLM评估器与人类评估结果呈现中等相关性（Kendall’s τ = 0.4490），这为基准评估的效度提供了依据。 [开源详情] 补充：论文指出其交互环境基于开源框架 bolt.diy 实现，并提供了该框架的GitHub链接。但需明确，这指的是被评估的智能体的实例化框架，而非评估框架本身。评估框架的用户智能体、评估器等核心组件的开源状态在论文中未明确。 [毒舌点评] 补充：论文在第5节结论及后续讨论中，不仅指出了局限性，也提出了四个明确的未来研究方向：1) 从“执行者”到“协作者”的意图对齐；2) 多模态反馈的高效利用；3) 更真实的人类交互评估；4) 探索主动澄清与高效生成之间的平衡。这些方向直接源于其发现，对未来研究具有明确的指导意义。 [模型架构] 补充：在“用户响应设计”部分，论文强调了其“检索-过滤”流水线的一个关键设计：防止信息泄露。即用户智能体在回答时，只提供被明确询问到的那部分黄金指令信息，从而避免一次性暴露所有正确答案，确保了评估的有效性。 📌 核心摘要要解决什么问题：现有网站生成基准假设用户提供清晰、完整的指令，但在真实场景中，非专业用户常给出模糊、冗余甚至矛盾的低质量指令，导致多模态智能体陷入“盲目执行”陷阱，即被动执行错误指令而非主动澄清意图。方法核心：提出InteractWeb-Bench，一个交互式基准。它包含四个基于需求工程缺陷理论设计的用户角色模拟器（极简、冗长、直觉、矛盾），以及一个为智能体设计的统一行动空间（澄清、实现、验证、提交），使其能在模拟环境中迭代地澄清需求、生成代码并进行视觉验证。与已有方法相比新在哪里：首次将评估重点从静态的代码生成准确性，转向动态的用户意图澄清和多模态反馈（代码+视觉）利用能力。引入了基于用户角色的指令扰动和交互式多路径执行环境，更贴近真实开发流程。主要实验结果：对9个前沿多模态模型进行了评估。关键发现：所有模型任务完成率（TCR）普遍偏低（最高为Qwen3.6-Plus的38.78%）；模型在理解模糊意图（IAS >3.9）上尚可，但主动澄清命中率（CHR）低于40%，证实了“盲目执行”；模型倾向于通过生成过量代码（如Qwen3.6-Plus平均1415行）来补偿信息缺失，反而导致更高的幻觉率（62.4%）。模型对“信息缺失”（P-MIN）比“噪声干扰”（P-RAM）更敏感。实际意义：为评估和提升多模态智能体的真实人机协作能力提供了新基准和方向，指明了未来智能体需在主动需求澄清和有效利用多模态反馈上重点突破。主要局限性：1) 用户交互仍为模型模拟，非真实人类；2) 基准本身的用户智能体、评估器（WebVoyager+GPT-5-mini）是黑盒，可复现性受限；3) 侧重发现问题，未提出解决方案。主要实验结果表格： ...