Iclr-2026

Efficient Audio-Visual Speech Separation with Discrete Lip Semantics and Multi-Scale Global-Local Attention

📄 Efficient Audio-Visual Speech Separation with Discrete Lip Semantics and Multi-Scale Global-Local Attention #语音分离 #知识蒸馏 #端到端 #音视频 #实时处理 🔥 9.0/10 | 前10% | #语音分离 | #知识蒸馏 | #端到端 #音视频学术质量 6.5/7 | 选题价值 1.8/2 | 复现加成 0.8 | 置信度高 👥 作者与机构第一作者：Kai Li（清华大学计算机科学与技术系、清华大学IDG/McGovern脑科学研究院）通讯作者：Xiaolin Hu（清华大学计算机科学与技术系、清华大学IDG/McGovern脑科学研究院、北京脑科学与类脑研究中心）作者列表：Kai Li（清华大学计算机科学与技术系、清华大学IDG/McGovern脑科学研究院）、Kejun Gao（清华大学计算机科学与技术系）、Xiaolin Hu（清华大学计算机科学与技术系、清华大学IDG/McGovern脑科学研究院、北京脑科学与类脑研究中心）注：Kai Li和Kejun Gao贡献均等（*标记），Xiaolin Hu为通讯作者（†标记）。 💡 毒舌点评 Dolphin的双路径视觉编码器设计和基于热扩散方程的局部注意力模块非常聪明，用极低的计算开销（MACs降低2.4倍）实现了SOTA分离性能，为AVSS的实际部署扫清了关键障碍。但其离散视觉token的设计可能丢弃了连续唇部运动中的一些细微发音线索，未来或可探索混合离散-连续表示来进一步提升。 🔗 开源详情代码：论文中承诺在GitHub上开源代码（Apache-2.0许可证），并提供了一个Demo页面链接（https://cslikai.cn/Dolphin），但未在文中直接给出具体代码仓库URL。因此，具体链接需以论文被接收后的发布为准。模型权重：论文中提到会公开预训练权重（“pretrained weights for the video backbone”），但未提供具体下载链接。数据集：使用的LRS2, LRS3, VoxCeleb2为公开数据集，但需根据其出版方规定获取。论文承诺会提供预处理脚本。 Demo：提供了一个在线演示页面链接：https://cslikai.cn/Dolphin。复现材料：提供了极其详细的复现信息，包括：conda环境规范、完整配置文件、所有超参数（附录E）、评估指标和损失函数的正式定义（附录D）、模型各组件的详细结构（附录A, B）、训练细节（附录A.3）。引用的开源项目：论文中提到了依赖的开源工具/模型，包括：PyTorch, PyTorch Lightning, VQ实现（vector-quantize-pytorch on PyPI）, AV-HuBERT（作为蒸馏教师模型）。总体：开源意愿强烈，复现支持非常充分，是高质量开源论文的典范。论文中未提及具体的GitHub仓库链接，但根据“我们的代码和演示页面公开可访问于此链接”的表述及Demo链接，可认为代码已或即将公开。 📌 核心摘要本文旨在解决音频-视觉语音分离（AVSS）模型计算成本过高、难以实际部署的问题。论文提出了一个名为Dolphin的高效AVSS模型。其核心创新包括：1) 设计了一个轻量级双路径视频编码器DP-LipCoder，通过向量量化（VQ）和知识蒸馏将唇部运动映射为与音频对齐的离散语义token；2) 构建了一个基于TDANet的轻量级编解码分离器，并引入全局-局部注意力（GLA）模块，在每个层内同时建模长程依赖和局部特征，从而实现单次迭代的高质量分离。与现有的SOTA方法（如IIANet）相比，Dolphin在三个基准数据集（LRS2, LRS3, VoxCeleb2）上取得了更好的分离性能（例如，在LRS2上SI-SNRi达到16.8dB，比IIANet高0.8dB），同时参数量减少超过50%，计算量（MACs）降低超过2.4倍，GPU推理速度提升超过6倍。这证明了Dolphin是一个兼顾高性能与高效率的实用解决方案。主要局限性在于模型对相对干净、同步的唇部视频有一定依赖，且在极端资源受限设备上的部署仍需进一步优化。 ...

EmotionThinker: Prosody-Aware Reinforcement Learning for Explainable Speech Emotion Reasoning

📄 EmotionThinker: Prosody-Aware Reinforcement Learning for Explainable Speech Emotion Reasoning #语音情感识别 #强化学习 #语音大模型 #数据集 🔥 8.0/10 | 前25% | #语音情感识别 | #强化学习 | #语音大模型 #数据集学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Dingdong WANG (1, 2*) (1: 香港中文大学; 2: 微软) 通讯作者：Helen M. Meng (1) (香港中文大学) 作者列表：Dingdong WANG (香港中文大学，微软), Shujie LIU (微软), Tianhua Zhang (香港中文大学), Youjun Chen (香港中文大学), Jinyu Li (微软), Helen M. Meng (香港中文大学) 💡 毒舌点评论文将语音情感识别从“贴标签”重构为“讲道理”，引入强化学习监督推理过程，思路清晰且新颖，提出的GRPO-PTR方法有效缓解了奖励黑客问题。然而，其核心的“情感CoT-35K”数据集高度依赖GPT-4o合成与自动化标注管线，情感推理的“真实性”与“泛化性”存疑；此外，强化学习训练的稳定性与超参数敏感性也是一大挑战，论文中的消融实验虽已说明，但实际落地调参难度可能被低估。 ...

End-to-end Listen, Look, Speak and Act

📄 End-to-end Listen, Look, Speak and Act #多模态模型 #语音对话系统 #机器人控制 #混合专家 #端到端 🔥 8.5/10 | 前25% | #语音对话系统 | #混合专家 | #多模态模型 #机器人控制学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Siyin Wang (清华大学), Wenyi Yu (清华大学) (共同第一作者) 通讯作者：Chao Zhang (清华大学) 作者列表：Siyin Wang (清华大学), Wenyi Yu (清华大学), Xianzhao Chen (字节跳动), Xiaohai Tian (字节跳动), Jun Zhang (字节跳动), Lu Lu (字节跳动), Yuxuan Wang (字节跳动), Chao Zhang (清华大学) 💡 毒舌点评这篇论文在架构设计上确实有巧思，将全双工多模态交互与MoE范式结合，实现了首个能“听说读写做”的端到端模型，在模拟环境中的全面表现也很亮眼。但核心实验全在��真环境里打转，离真正理解“人类如何一边聊天一边倒水”还有巨大鸿沟，且其声称的“首个”全双工多模态端到端模型，在缺乏与同期所有相关工作进行系统性对比的情况下，说服力稍显不足。 ...

Entropy-Monitored Kernelized Token Distillation for Audio-Visual Compression

📄 Entropy-Monitored Kernelized Token Distillation for Audio-Visual Compression #多模态模型 #知识蒸馏 #模型评估 #工业应用 ✅ 7.5/10 | 前25% | #音视频 | #知识蒸馏 | #多模态模型 #模型评估学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Hyoungseob Park（Yale University）通讯作者：未说明作者列表：Hyoungseob Park（Yale University）、Lipeng Ke（Amazon AGI）、Pritish Mohapatra（Amazon AGI）、Huajun Ying（Amazon AGI）、Sankar Venkataraman（Amazon AGI）、Alex Wong（Yale University） 💡 毒舌点评这篇论文提出了一个新颖的视角：将知识蒸馏从“模仿教师的特征值”转变为“模仿特征间的关系结构（Gram矩阵）”，这为解决异构教师-学生模型蒸馏问题提供了优雅且通用的解决方案。然而，其熵监控模块虽然有效，但需要为每个模态额外训练一个线性层作为探针，这引入了额外的训练复杂度和超参数调优需求，在一定程度上削弱了其“简洁性”。 🔗 开源详情代码：论文中提到“we will release the code and the pretrained weights”，但未提供具体链接。模型权重：承诺公开预训练权重。数据集：使用公开数据集VGGSound和AVS-Bench。 Demo：未提及。复现材料：附录中提供了极其详细的实现细节（Appendix E），包括数据集划分、模型架构规格（表14）、训练超参数（学习率、损失权重等）、评估指标和基线方法的具体配置，足以支持复现。论文中引用的开源项目：依赖CAVMAE、UFE-AVS等模型作为教师，并提及了Beyer et al. (2022)的训练策略。 📌 核心摘要要解决什么问题：如何在保持高性能的前提下，将大型的音视频多模态教师模型压缩成小型的学生模型，以适应边缘设备的计算限制。传统方法要么受限于教师-学生架构必须匹配，要么在性能上有所妥协。方法核心是什么：提出了核化Token蒸馏（KTD）。该方法不直接蒸馏教师和学生的潜在特征嵌入，而是计算并蒸馏每个模态内所有token对之间的相似性关系（通过Gram矩阵）。此外，引入了熵监控机制，通过测量教师模型各模态输出的熵（不确定性），自适应地调整各模态蒸馏损失的权重，确保高信息量的模态被优先学习。与已有方法相比新在哪里：与传统基于特征或输出的蒸馏相比，KTD无需匹配教师和学生的特征维度，架构无关性更强；与MTST等基于相似性分布的方法相比，KTD保留了原始相似性分数，避免了Softmax归一化带来的信息丢失，并且无需随机掩码。熵监控则首次在潜在空间（而非输出空间）实现了对多模态信息量的自适应评估和蒸馏权重调整。主要实验结果如何：在VGGSound音频-视觉事件分类任务上，使用6%参数的EM-KTD学生模型保留了教师96.9%的准确率（62.0% vs. 63.9%），显著优于所有基线。在AVS-Bench音频-视觉分割任务的S4和MS3子集上，EM-KTD学生模型（仅用教师4.5%的视觉编码器参数）的mIoU达到79.81和64.43，均优于最强基线。消融实验证明，RBF核、熵监控和实例级蒸馏均有效。实际意义是什么：为部署在资源受限的边缘设备（如笔记本、智能家居）上的高效音视频模型提供了一种有效的压缩方案，能在大幅减少参数和计算量（FLOPs降低约92%）的同时，几乎不损失性能。主要局限性是什么：KTD的计算复杂度与token数量的平方成正比（O(N^2)），尽管采用实例级计算缓解了批量复杂度，但对高分辨率输入仍存在压力。熵监控需要为教师模型的每个模态额外训练一个线性探针，增加了训练步骤和潜在的调优负担。论文未讨论该方法在推理时对实时性的具体影响。 🏗️ 模型架构整体架构（如图2所示）分为教师模型和学生模型两部分，教师模型在蒸馏过程中冻结。 ...

FlexiCodec: A Dynamic Neural Audio Codec for Low Frame Rates

📄 FlexiCodec: A Dynamic Neural Audio Codec for Low Frame Rates #语音合成 #流式处理 #模型评估 🔥 8.8/10 | 前10% | #语音合成 | #流匹配 | #流式处理 #模型评估学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0.8 | 置信度高 👥 作者与机构第一作者：Jiaqi Li（The Chinese University of Hong Kong, Shenzhen; Amphion Technology Co., Ltd.）通讯作者：未明确说明（论文未明确指定通讯作者）作者列表： Jiaqi Li（The Chinese University of Hong Kong, Shenzhen; Amphion Technology Co., Ltd.） Yao Qian（Microsoft, USA） Yuxuan Hu（Microsoft, USA） Leying Zhang（Shanghai Jiao Tong University） Xiaofei Wang（Microsoft, USA） Heng Lu（Microsoft, USA） Manthan Thakker（Microsoft, USA） Jinyu Li（Microsoft, USA） Sheng Zhao（Microsoft, USA） Zhizheng Wu（The Chinese University of Hong Kong, Shenzhen; Shenzhen Loop Area Institute; City University of Macau; Amphion Technology Co., Ltd.） 💡 毒舌点评 FlexiCodec的核心亮点在于将“动态帧率”的概念系统化地引入超低比特率音频编解码，并巧妙地利用ASR特征进行语义引导，实验设计严谨，在6.25Hz的极致压缩下仍能保持可观的语义清晰度，对语音大模型的效率提升极具吸引力。不过，其多语言泛化能力在零样本设置下几乎崩溃，仅能通过微调部分缓解，这暴露了其当前方案对特定语言（英语）特征的强依赖，限制了其作为通用语音基础模型组件的适用范围。 ...

FlexiVoice: Enabling Flexible Style Control in Zero-Shot TTS with Natural Language Instructions

📄 FlexiVoice: Enabling Flexible Style Control in Zero-Shot TTS with Natural Language Instructions #语音合成 🔥 8.5/10 | 前25% | #语音合成 | #强化学习学术质量 6.8/7 | 选题价值 1.7/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Dekun Chen（香港中文大学，深圳）通讯作者：未明确说明（论文末尾提供了Dekun Chen和Zhizheng Wu的邮箱，但未标注“通讯作者”字样）作者列表：Dekun Chen（香港中文大学，深圳）、Xueyao Zhang（香港中文大学，深圳）、Yuancheng Wang（香港中文大学，深圳）、Kenan Dai（华为技术有限公司）、Li Ma（华为技术有限公司）、Zhizheng Wu（香港中文大学，深圳；深圳环域研究院；澳门城市大学；Amphion Technology Co., Ltd.） 💡 毒舌点评这篇论文最亮眼的是其“渐进式后训练”框架，像一个精心设计的课程表，一步步教会模型在指令、音色和内容三者间保持清醒，实验也证明其解耦能力确实碾压同类基线。但短板在于，对非情感类精细风格（如口音、个性）的验证主要依赖外部基准测试，自身构造的验证集场景相对单一，且核心的复杂指令奖励模型依赖于一个未经深入验证的外部大模型（Kimi-Audio），这使得整个训练管线的“闭源可控性”打了折扣。 🔗 开源详情代码：论文中未提及具体代码链接，但表示会发布所有训练和推理代码。模型权重：论文中未提及已公开的模型权重链接，但表示会发布模型检查点。数据集：论文表示会发布FlexiVoice-Instruct数据集。 Demo：提供了在线演示网站 https://flexi-voice.github.io/。复现材料：附录（A.1-A.11）提供了极其详尽的复现细节，包括模型结构、数据处理流程、训练策略、超参数设置、硬件配置和评估协议。论文中引用的开源项目：DualCodec (Li et al., 2025), Phi-3.5-mini-instruct (Abdin et al., 2024), Flow Matching (Lipman et al., 2023), Vocos (Siuzdak, 2023), Emotion2vec-Large (Ma et al., 2024), CAM++ (Wang et al., 2023), Kimi-Audio-7B-Instruct (Ding et al., 2025), Deepseek-V3 (Liu et al., 2024a), Emilia (He et al., 2024), ParaSpeechCaps (Diwan et al., 2025), NVSpeech (Liao et al., 2025)。总结：论文中详细阐述了开源计划，并提供了大量可复现的技术细节，但截至目前，公开发布的主要是演示页面。 📌 核心摘要本文旨在解决零样本语音合成（TTS）中同时遵循自然语言风格指令和保持音色一致性的“风格-音色-内容冲突”问题。核心方法是提出FlexiVoice系统及其创新的“渐进式后训练”框架。该框架通过三个阶段逐步增强模型能力：1）多模态DPO建立对指令和参考语音的基本对齐；2）解耦GRPO通过构建冲突场景（如快乐指令对悲伤参考）来强制模型分离风格与音色/内容；3）指令GRPO使用音频语言模型奖励来提升对复杂、开放式指令的遵循能力。此外，论文构建了大规模指令-语音数据集FlexiVoice-Instruct。实验结果表明，在多模态控制解耦评估（英文与中文）的多个困难设置中，FlexiVoice在指令遵循准确率（ACC-I）上大幅领先基线（例如，在英文TR-hard任务上达到78.2% vs. VoxInstruct的49.7%），同时保持了高说话人验证准确率（SV）。在复杂指令跟随基准InstructTTSEval上，FlexiVoice平均准确率达79.3%（英文）和70.8%（中文），显著超越所有开源基线，并接近商业闭源系统。该工作的实际意义在于提供了一个能灵活、精准控制语音风格的零样本TTS框架。主要局限性在于其风格控制能力的验证仍以情感和预定义指令集为主，对极其抽象或文化特定指令的泛化能力有待进一步证明，且核心训练依赖外部大模型作为奖励模型，成本较高。 ...

Flow2GAN: Hybrid Flow Matching and GAN with Multi-Resolution Network for Few-step High-Fidelity Audio Generation

📄 Flow2GAN: Hybrid Flow Matching and GAN with Multi-Resolution Network for Few-step High-Fidelity Audio Generation #音频生成 #流匹配 #生成模型 #语音合成 #模型比较 🔥 8.0/10 | 前25% | #音频生成 | #流匹配 | #生成模型 #语音合成学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Zengwei Yao (Xiaomi Corp., Beijing, China) 通讯作者：Daniel Povey (Xiaomi Corp., Beijing, China, dpovey@xiaomi.com) 作者列表：Zengwei Yao (小米公司), Wei Kang (小米公司), Han Zhu (小米公司), Liyong Guo (小米公司), Lingxuan Ye (小米公司), Fangjun Kuang (小米公司), Weiji Zhuang (小米公司), Zhaoqing Li (小米公司), Zhifeng Han (小米公司), Long Lin (小米公司), Daniel Povey (小米公司) 💡 毒舌点评论文创新性地将流匹配的稳定训练与GAN的细节增强能力结合，通过一个设计精巧的两阶段框架，实现了少步高保真音频生成，在质量和效率间取得了优异的平衡，这是一个扎实的工程优化工作。然而，其模型参数量（约79M）显著大于Vocos（13.5M）和RFWave（18.1M）等强基线，在资源敏感的部署场景下可能构成劣势。 ...

FlowBind: Efficient Any-to-Any Generation with Bidirectional Flows

📄 FlowBind: Efficient Any-to-Any Generation with Bidirectional Flows #跨模态 #流匹配 #多模态模型 #音频生成 #模型评估 🔥 8.0/10 | 前25% | #音频生成 | #流匹配 | #跨模态 #多模态模型学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Yeonwoo Cha* (KAIST) 通讯作者：未说明作者列表：Yeonwoo Cha (KAIST), Semin Kim (KAIST), Jinhyeon Kwon (KAIST), Seunghoon Hong (KAIST) 💡 毒舌点评这篇论文用一个相当优雅的设计——引入一个可学习的共享潜空间作为“中央车站”，让每个模态通过自己的可逆流列车与之连接——漂亮地绕过了现有任意到任意生成模型对全配对数据和复杂多阶段训练的依赖，实现了效率上的巨大提升。然而，其核心贡献更偏向于工程框架的整合与效率优化，而非对生成模型基础理论的突破，且评估主要局限于文本、图像、音频三种模态，对“任意到任意”这一宏大目标的验证广度稍显不足。 🔗 开源详情代码：论文提供了项目页面链接：https://yeonwoo378.github.io/official_flowbind，暗示将开源代码。模型权重：论文中未明确提及是否公开预训练模型权重。数据集：论文中明确说明不使用三元组数据，并列出了使用的三种配对数据集（LAION-COCO, Flickr-30k, AudioCaps v2, VGGSound）。这些数据集均为公开数据集，但论文未提供其具体预处理后的下载链接或说明。 Demo：未提及。复现材料：论文附录C（实现细节）和D（评估设置）提供了较详细的训练超参数、模型架构描述、评估协议和数据集划分，为复现提供了重要信息。引用的开源项目：依赖了多个预训练模型和工具，包括：EmbeddingGemma (Team et al., 2025)、CLIP (Radford et al., 2021)、Stable-UnCLIP (HuggingFace, 2025)、CLAP (Elizalde et al., 2023)、AudioLDM (Liu et al., 2023)、Gemma3-1B (Team et al., 2025) 用于文本解码器初始化、FLUX.1 (Black Forest Labs, 2024) 用于构建评估数据集。总体情况：论文有明确的开源意愿并提供了必要的复现细节，但具体代码和模型的开放状态在提供文本中未完全明确。 📌 核心摘要解决的问题：现有的基于流的任意到任意多模态生成方法（如CoDi, OmniFlow）存在效率瓶颈：依赖大规模、配对约束严格的数据集；建模联合分布导致计算成本高昂；训练流程复杂，通常需要多阶段优化。方法核心：提出FlowBind框架。其核心思想是引入一个可学习的共享潜空间，用于捕捉跨模态共性信息。每个模态通过一个独立的、可逆的流模型与这个共享潜空间相连。整个框架（共享潜空间编码器和所有模态的流网络）在单一的流匹配目标下进行端到端联合训练。与已有方法相比新在哪里：a) 解耦设计：将多模态交互分解为“共享潜空间”与“模态特定流”的连接，避免了直接建模高维联合分布。b) 训练灵活性：每个流网络只需学习其对应模态与共享潜空间的映射，因此天然支持利用任意部分配对数据进行训练，大幅降低了数据要求。c) 训练简化：所有组件通过一个统一的流匹配损失优化，无需CoDi或OmniFlow那样的多阶段、分组件训练流程。d) 推理直接性：推理时，每个模态的流网络既可当编码器（从模态到潜空间），也可当解码器（从潜空间到模态），实现了直接的跨模态翻译。主要实验结果：在文本、图像、音频的一对一生成（6种任务）和多对多生成任务上进行了评估。关键定量结果如下：效率对比：参数量仅为OmniFlow的1/6（568M vs 3.2B），训练耗时减少约10倍（48 GPU-hrs vs 480 GPU-hrs*），训练数据用量仅为CoDi的0.15%或OmniFlow的1.79%。质量对比：在表2（保真度）和表3（对齐度）中，FlowBind在多数一对一生成任务上取得了与基线模型相当或更优的指标。例如，在图像到音频(I→A)任务上，FAD达到2.50（优于CoDi的14.58和OmniFlow的5.67），AIS达到82.89（优于基线）。在表4（多对一）和表5（一对多）中，FlowBind在整合多个模态条件方面表现出更强的平衡性和对齐能力。消融与分析：实验验证了可学习共享潜空间相比固定文本锚点的优势（表6），并分析了共享潜空间具有更强的跨模态对齐性（表7，CKNNA指标）。实际意义：为构建高效、灵活、数据需求友好的通用多模态生成模型提供了一种新范式。其低计算和低数据门槛使得在实际场景中训练此类模型成为可能，推动了多模态AI从“专家”向“通才”的发展。主要局限性：a) 论文中的“任意模态”实验主要集中在文本、图像、音频三种模态，虽然扩展到了3D点云，但未涉及视频等其他重要模态，对普适性的验证有限。b) 在一些任务上（如文本到图像对齐），其性能未超越专门的单任务专家模型（如FLUX.1），表明在极致生成质量上仍有提升空间。c) 共享潜空间的具体可解释性有待进一步探索。 🏗️ 模型架构 FlowBind的整体架构如图1所示，包含训练阶段（图1a）和推理阶段（图1b）。 ...

From Natural Alignment to Conditional Controllability in Multimodal Dialogue

📄 From Natural Alignment to Conditional Controllability in Multimodal Dialogue #语音合成 #多模态模型 #基准测试 #数据集 ✅ 6.5/10 | 前25% | #语音合成 | #数据集 | #多模态模型 #基准测试学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度中 👥 作者与机构第一作者：Zeyu Jin（清华大学计算机科学与技术系）通讯作者：Xiaoyu Qin（清华大学计算机科学与技术系）、Jia Jia（清华大学计算机科学与技术系 / BNRist，清华大学）作者列表： Zeyu Jin（清华大学计算机科学与技术系） Songtao Zhou（清华大学计算机科学与技术系） Haoyu Wang（清华大学计算机科学与技术系） Minghao Tian（Rice University） Kaifeng Yun（清华大学深圳国际研究生院） Zhuo Chen（ByteDance） Xiaoyu Qin（清华大学计算机科学与技术系） Jia Jia（清华大学计算机科学与技术系 / BNRist，清华大学） 💡 毒舌点评亮点在于其“基建”思维，为多模态对话生成这个嘈杂的领域，搭建了一套清晰的“路标”（任务定义）、“高速公路”（大规模标注数据集）和“考题”（跨模态一致性基准）。短板则是论文止步于“出题”和“阅卷”，并未提出一个能在这条新路上跑得更快的“新车”（统一的端到端生成模型），实验部分更多地是在证明现有模型“考不及格”。 🔗 开源详情代码：论文在“ETHICS STATEMENT”中承诺：“Our experimental code and data curation pipeline will be made publicly available upon acceptance of the paper.” 但未提供具体仓库链接。模型权重：论文中提到的基线模型（如Higgs-Audio-V2, Dia）是外部开源项目��但本文未贡献新的生成模型权重。数据集：论文承诺开源MM-DIA和MM-DIA-BENCH。获取方式应是根据提供的标注（时间戳、转录、风格标签等）自行对齐公开的影视内容。 Demo：未提及（论文中未提及在线演示链接）。复现材料：论文提供了详尽的附录，包括数据处理细节、验证结果、指标解释等，有利于复现。论文中引用的开源项目：生成模型基线：Higgs-Audio-V2 (Boson AI), Dia (Nari Labs), CosyVoice, Zero-Shot Dialogue Generation (ZSDG), MoonCast, Har-moniVox。视频生成基线：FLOAT, MultiTalk, Sonic, Wan-2.2, HunyuanVideo。工具/模型：Gemini 2.5-pro (Google), Qwen2.5-VL-7B, GPT-5 (OpenAI), Insightface (用于人脸识别)，以及语音质量评估工具（如UTMOS）。开源情况总结：论文承诺将在接受后开源核心数据集和处理代码，但目前尚未提供。论文本身严重依赖上述引用的开源模型和工具进行实验和标注。 📌 核心摘要问题：当前多模态对话生成研究主要关注单模态（如语音或视觉）的内容真实性，而忽略了跨模态（语音、视觉、文本）在交互风格（如情感、关系、互动模式）上的系统性对齐与精细可控性，导致生成内容的表达力和可控性不足。方法核心：提出了一套从电影/电视剧中自动提取对话、并进行细粒度交互风格标注的数据处理流水线。基于此构建了大规模多模态对话数据集MM-DIA，并定义了可控多模态对话生成（MDG）任务，将其形式化为带显式/隐式条件变量的条件生成问题。同时，建立了专门评估跨模态风格一致性的基准MM-DIA-BENCH。创新点：首次针对“对话表达力”而非“对话内容”构建大规模多模态数据集。提出两种互补的表达力标注范式：结构化“情感三元组”和自由风格描述。建立了首个专门评估音频-视频风格一致性的对话生成基准MM-DIA-BENCH。实验结果：在风格可控语音合成（Task 1）上，使用MM-DIA微调基线模型（如Higgs-Audio-V2）能显著提升性能。例如，WER从31.25降至4.45，指令遵循度（Human-MOS）从3.11提升至4.13（见表4）。在视觉条件语音合成（Task 2）和语音驱动对话视频生成（Task 3）上，现有模型（如HarmoniVox、Wan-2.2）在MM-DIA-BENCH上暴露出明显的跨模态风格对齐不足（如指令遵循度、自发性得分较低），揭示了现有技术的局限（见表5，表6）。实际意义：为可控多模态对话生成提供了标准化的定义、高质量的数据基础和严格的评估工具，有望推动该领域从“内容生成”向“可控交互生成”演进，对电影配音、虚拟人交互等应用有潜在价值。局限性：工作重心在于数据集和评估框架的构建，未提出一个能统一处理多模态输入输出的端到端生成模型；数据集来源于影视作品，与真实日常对话可能存在域差距；部分依赖Gemini等大型多模态模型进行标注，引入了潜在偏差。 🏗️ 模型架构本文并非提出一个新的神经网络模型架构，而是定义了多模态对话生成（MDG）的任务框架和数据处理流水线。其“架构”体现在： ...

From Text to Talk: Audio-Language Model Needs Non-Autoregressive Joint Training

📄 From Text to Talk: Audio-Language Model Needs Non-Autoregressive Joint Training #语音对话系统 #扩散模型 #语音大模型 #端到端 #预训练 ✅ 7.5/10 | 前25% | #语音对话系统 | #扩散模型 | #语音大模型 #端到端学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度高 👥 作者与机构第一作者：Tianqiao Liu（广东智慧教育研究院、好未来教育集团）通讯作者：Xueyi Li（广东智慧教育研究院）作者列表：Tianqiao Liu（广东智慧教育研究院、好未来教育集团）、Xueyi Li（广东智慧教育研究院）、Hao Wang（北京大学）、Haoxuan Li（北京大学）、Zhichao Chen（北京大学）、Weiqi Luo（广东智慧教育研究院）、Zitao Liu（广东智慧教育研究院） 💡 毒舌点评亮点在于敏锐地指出了用单一自回归目标训练文本和音频模态的“结构性不匹配”，并巧妙地利用离散扩散模型的任意序自回归特性，构建了一个理论自洽的混合生成框架。短板在于，虽然模型在多个任务上超越了基线，但其性能与一些大型（7B以上）模型仍有差距，且实验部分主要依赖合成数据进行扩展，其在大规模真实交互场景中的鲁棒性和长期对话能力尚待更深入的验证。 🔗 开源详情代码：是，提供了GitHub仓库链接：https://github.com/ai4ed/TtT。模型权重：未提及是否公开模型检查点或权重。数据集：论文中详细列出了训练所用数据集名称和部分规模，但未说明是否公开整合后的训练数据集或提供下载方式。 Demo：未提及在线演示。复现材料：提供了非常详尽的训练细节（优化器、学习率、批量大小、随机策略概率等）和推理配置（扩散步数、块大小、引导尺度等），并说明了评估使用的具体ASR和LLM-as-a-Judge模型。附录包含数据格式示例。论文中引用的开源项目：明确使用了Qwen2.5作为主干模型，并沿用了GLM-4-Voice的音频Tokenizer和Decoder设计。训练数据引用了VoiceAssistant-400K， CosyVoice2， FineWeb-Edu等。评估中使用了Whisper， Paraformer-zh， Qwen3-30B-A3B等。 📌 核心摘要问题：现有的端到端语音对话模型（如Moshi, GLM-4-Voice）普遍采用单一自回归（AR）方法同时生成文本和音频，但这忽视了两种模态的本质依赖差异：文本生成是强目标间（target-target）依赖，而音频生成更依赖源-目标（source-target）依赖，即主要由输入文本决定。方法核心：提出了Text-to-Talk (TtT)，一个统一的音频-文本多模态大语言模型框架。其核心是将AR用于文本生成，与基于吸收离散扩散的非自回归（NAR）方法用于音频生成，整合到同一个Transformer中。文本生成遵循标准因果顺序，而音频段内的生成被建模为可以任意顺序进行（得益于扩散模型的性质），但整体仍受制于因果的跨段依赖。创新点：理论框架：利用吸收离散扩散模型等价于“任意序自回归模型”的理论，为混合AR-NAR训练目标提供了上界分析，证明了其合理性。架构设计：设计了模态感知注意力机制，强制对文本使用因果注意力，而对音频段内允许双向注意力，同时保持跨段的因果依赖。训练策略：提出了三项训练策略（批量AR/NAR混合、前缀保留掩码、随机段截断）来弥合训练时部分掩码音频与推理时完整音频之间的差异。主要实验结果：在多个基准测试（Audio-QA, ASR, AAC, URO-Bench）上，TtT（3B参数）持续优于强大的纯AR和纯NAR基线模型。例如，在Audio-QA的LLaMAQuestions数据集上，TtT-3B得分34.68，而纯AR的Qwen2.5-3B仅得10.00；在AISHELL-2 ASR任务上，TtT-3B的WER为12.53，显著低于AR基线的54.94。与更大的模型相比，TtT在某些任务上也展现出竞争力。实际意义：为构建更高效、更自然的端到端语音对话系统提供了一种新的架构范式，通过尊重模态差异来减少误差传播，并实现音频的并行生成，有望降低延迟。主要局限性：当前实验主要基于3B参数的模型，其能力上限和在更复杂推理任务上的表现有待更大规模模型的验证；部分训练数据依赖TTS合成，可能引入领域偏差。 🏗️ 模型架构 TtT模型基于一个预训练的纯文本LLM（论文中使用Qwen2.5-Base）进行构建，通过扩展其词表以包含音频离散码元（来自GLM-4-Voice的音频分词器）和特殊控制符（如<SOA>、<EOA>、<EOS>）。整个框架是一个统一的Transformer编码器-解码器（在论文中记为fθ），共享一个输出头W用于在整个扩展词表V上预测logits。 ...