TangoFlux: Super Fast and Faithful Text to Audio Generation with Flow Matching and Clap-Ranked Preference Optimization

📄 TangoFlux: Super Fast and Faithful Text to Audio Generation with Flow Matching and Clap-Ranked Preference Optimization #音频生成 #流匹配 #偏好优化 #扩散模型 #开源模型 🔥 8.0/10 | 前25% | #音频生成 | #流匹配 | #偏好优化 #扩散模型 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Chia-Yu Hung (Nanyang Technological University, NTU) 通讯作者:Navonil Majumder (NTU), Soujanya Poria (NTU) 作者列表:Chia-Yu Hung (NTU), Navonil Majumder (NTU), Zhifeng Kong (NVIDIA), Ambuj Mehrish (Ca’ Foscari University of Venice), Amir Ali Bagherzadeh (Lambda Labs), Chuan Li (Lambda Labs), Rafael Valle (NVIDIA), Bryan Catanzaro (NVIDIA), Soujanya Poria (NTU) 💡 毒舌点评 这篇论文巧妙地将CLAP作为“裁判”来解决音频生成对齐中缺乏自动评价标准的痛点,提出的CRPO“自弈”优化思路确实让模型性能在迭代中不断提升,效果立竿见影。但依赖CLAP这个“裁判”本身的偏好(可能偏向特定音频风格或描述理解能力)进行优化,是否会让模型学会“讨好裁判”而非真正理解复杂、抽象的文本描述?这是CRPO框架需要面对的更深层问题。 ...

2026-05-04 · 更新于 2026-06-19 · 5 min · 1000 words

Token-Based Audio Inpainting via Discrete Diffusion

📄 Token-Based Audio Inpainting via Discrete Diffusion #音乐生成 #扩散模型 #预训练 #离散模型 ✅ 7.5/10 | 前25% | #音乐生成 | #扩散模型 | #预训练 #离散模型 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Tali Dror, Iftach Shoham(*为共同第一作者)(Ben-Gurion University of the Negev) 通讯作者:未明确标注(从作者列表及邮箱推测,Eliya Nachmani可能是负责人) 作者列表: Tali Dror (Ben-Gurion University of the Negev, School of Electrical and Computer Engineering) Iftach Shoham (Ben-Gurion University of the Negev, Faculty of Computer and Information Science, Data Science Research Center) Moshe Buchris (Ben-Gurion University of the Negev, School of Electrical and Computer Engineering) Oren Gal (University of Haifa) Haim Permuter (Ben-Gurion University of the Negev, School of Electrical and Computer Engineering) Gilad Katz (Ben-Gurion University of the Negev, Faculty of Computer and Information Science, Data Science Research Center) Eliya Nachmani (Ben-Gurion University of the Negev, School of Electrical and Computer Engineering) 💡 毒舌点评 这篇论文的亮点在于它为音频修复这个“老”问题提供了一个“新”且优雅的技术范式——直接在离散token空间用扩散模型“填空”,避开了连续波形或频谱建模的诸多麻烦,并在长间隙修复上证明了其有效性。然而,其理论深度和创新野心略显不足,本质上是现有组件(WavTokenizer, DiT, DWDSE)的巧妙集成与适配,且实验规模(如数据集量级、模型参数)与当前大模型时代的主流工作相比显得较为“迷你”,限制了其更广泛的影响力。 ...

2026-05-04 · 更新于 2026-06-19 · 3 min · 508 words

Unified Multi-Modal Interactive and Reactive 3D Motion Generation via Rectified Flow

📄 Unified Multi-Modal Interactive and Reactive 3D Motion Generation via Rectified Flow #动作生成 #流匹配 #检索增强 #多模态 #扩散模型 ✅ 7.5/10 | 前25% | #动作生成 | #流匹配 | #检索增强 #多模态 学术质量 5.5/7 | 选题价值 1.0/2 | 复现加成 1.0 | 置信度 高 👥 作者与机构 第一作者:Prerit Gupta (Purdue University, Department of Computer Science) 通讯作者:未说明(但Aniket Bera为最后作者,通常为通讯作者) 作者列表:Prerit Gupta (Purdue University), Shourya Verma (Purdue University), Ananth Grama (Purdue University), Aniket Bera (Purdue University) 💡 毒舌点评 亮点在于将交互和反应式双人动作生成统一到一个框架中,并创新性地为动作生成引入了基于LLM分解的检索增强生成,有效提升了语义对齐。短板在于该领域相对小众,实际应用场景(如VR/AR游戏)的验证可能有限,且模型参数量(456M)相比基线(224M)显著增大,提升了部署门槛。 🔗 开源详情 代码:论文明确承诺将开源代码(“Full code for this project… will be made open source… upon paper acceptance”),但未提供具体链接。 模型权重:承诺将提供训练好的检查点。 数据集:使用了InterHuman-AS、DD100、MDD三个公开数据集,论文中给出了获取参考。 Demo:未提及在线演示。 复现材料:附录提供了详尽的LLM提示词设计、架构细节(公式)、损失权重配置、超参数选择等,复现信息充分。 引用的开源项目:SMPL模型(动作表示),CLIP(文本编码),Jukebox(音乐编码),GPT-4o(文本分解),FlashAttention(加速)。 📌 核心摘要 问题:生成真实、与上下文相关的双人3D动作,需同时支持交互式(双向协调)和反应式(单向响应)两种模式,且能融合文本、音乐等多种模态条件输入,是当前计算机图形学和具身AI的挑战。 方法:提出DualFlow,首个基于矫正流匹配(Rectified Flow)的统一框架。通过可切换的“双流块”架构,同一模型可处理交互与反应任务;引入专为双人动作设计的检索增强生成模块,利用GPT-4o分解文本为空间关系、身体动作和节奏三类描述,并结合音乐特征检索动作范例,以增强生成动作的语义准确性;采用对比矫正流匹配目标,提升运动嵌入与条件信号的对齐度。 创新:(1) 统一架构实现交互与反应任务的无缝切换;(2) 首个用于双人动作的RAG框架;(3) 结合同步损失的对比矫正流匹配,提升生成质量与采样效率。 实验结果:在MDD、InterHuman-AS、DD100三个数据集上进行广泛评估。在MDD的交互任务上,DualFlow(Both)的R-Precision@3达0.513,MMDist为0.513;在反应任务上,FID为0.686,R-Precision@3为0.471,均优于基线。相比InterGen,DualFlow仅需20步(2.5倍加速)即可达到更优的FID。 意义:为VR/AR、游戏、社交机器人等需要协调人际行为的领域提供了高效且高质量的多模态动作生成方案。 局限:在长序列生成时可能存在节奏偏移;反应模式下可能出现轻微的肢体穿插;RAG检索质量依赖于库的覆盖度与查询的清晰度。 🏗️ 模型架构 DualFlow是一个基于Transformer和矫正流匹配的统一生成框架,其核心是多模态条件注入与“双流块”架构设计。 ...

2026-05-04 · 更新于 2026-06-19 · 2 min · 340 words

VibeVoice: Expressive Podcast Generation with Next-Token Diffusion

📄 VibeVoice: Expressive Podcast Generation with Next-Token Diffusion #语音合成 #扩散模型 #零样本 #多说话人 #播客生成 🔥 8.5/10 | 前10% | #语音合成 | #扩散模型 | #零样本 #多说话人 学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Zhiliang Peng (Microsoft Research) 通讯作者:Furu Wei (Microsoft Research) 作者列表:Zhiliang Peng (Microsoft Research), Jianwei Yu (Microsoft Research), Wenhui Wang (Microsoft Research), Yaoyao Chang (Microsoft Research), Yutao Sun (Microsoft Research), Li Dong (Microsoft Research), Yi Zhu (Microsoft Research), Weijiang Xu (Microsoft Research), Hangbo Bao (Microsoft Research), Zehua Wang (Microsoft Research), Shaohan Huang (Microsoft Research), Yan Xia (Microsoft Research), Furu Wei (Microsoft Research) 💡 毒舌点评 这篇论文成功地将播客生成从“能用”推向了“好用”的阶段,特别是其超低帧率(7.5Hz)的连续声学分词器在保持高保真度(UTMOS 4.18)的同时极大压缩了序列长度,是处理长序列的关键创新,解决了90分钟超长对话生成的核心瓶颈。然而,该方法对数据质量(需自建复杂标注管道)和训练复杂性(课程学习、大规模计算)的依赖,使其复现门槛较高,且论文并未公开其内部播客数据集。 ...

2026-05-04 · 更新于 2026-06-19 · 2 min · 323 words

A Hidden Semantic Bottleneck in Conditional Embeddings of Diffusion Transformers

📄 A Hidden Semantic Bottleneck in Conditional Embeddings of Diffusion Transformers #生成模型 #扩散模型 #多模态模型 #模型评估 ✅ 6.5/10 | 前50% | #生成模型 | #扩散模型 | #多模态模型 #模型评估 学术质量 5.5/7 | 选题价值 1.0/2 | 复现加成 0.0 | 置信度 高 👥 作者与机构 第一作者:Trung X. Pham (韩国科学技术院 KAIST) 通讯作者:Chang D. Yoo (韩国科学技术院 KAIST) 作者列表:Trung X. Pham (韩国科学技术院 KAIST)、Kang Zhang (韩国科学技术院 KAIST)、Ji Woo Hong (韩国科学技术院 KAIST)、Chang D. Yoo (韩国科学技术院 KAIST) 💡 毒舌点评 这篇论文以系统性的实验揭开了扩散Transformer条件嵌入的“假满汉全席”——看似丰盛的1152维向量里,99%都是“凑数”的摆设,证明了模型在条件表达上存在惊人的冗余。遗憾的是,论文止步于“发现并解释现象”,未能将此洞察转化为一个新的、更高效的条件注入架构,更像是给Transformer扩散模型做了一次精确诊断却没开出新药方。 🔗 开源详情 代码:论文中未提及分析代码的开源仓库链接。 模型权重:论文分析所用模型权重为公开发布的预训练权重(如DiT, REPA等),论文本身未发布新模型。 数据集:使用公开数据集ImageNet-1K, DeepFashion, VGGSound。 Demo:未提供在线演示。 复现材料:附录(Appendix)提供了更详细的实验设置、额外可视化(如t-SNE图、更多剪枝结果)和分析,但未提供具体的代码或配置文件。 论文中引用的开源项目:引用了多个SOTA模型的官方代码库(DiT, MDT, SiT, LightningDiT, MG, REPA, X-MDPT, MDSGen)。 📌 核心摘要 解决的问题:扩散Transformer(如DiT, MDT等)通过自适应层归一化(AdaLN)注入条件向量(如类别、姿态),但这些高维向量内部的结构与信息编码方式尚不明确。 方法核心:对多个SOTA扩散Transformer的预训练条件嵌入进行系统性分析,量化其成对余弦相似度、幅度分布和维度贡献度(参与率PR),并通过剪枝实验验证其冗余性。 新意:首次系统揭示了扩散Transformer条件嵌入的两个反直觉涌现特性:1) 极端相似性(离散任务>99%, 连续任务>99.9%);2) 极端稀疏性(仅约1-2%的维度携带主要语义信息)。这与对比学习中的特征坍塌不同,且未损害生成质量。 主要结果: 在ImageNet-1K上,6个SOTA模型的条件向量两两余弦相似度在90%-99.5%之间(如REPA为99.46%)。 在DeepFashion(姿态生成)和VGGSound(视频转音频)上,相似度超过99.98%。 条件向量的有效维度(参与率PR)极低。例如,REPA模型在1152维中仅有约17.67个有效维度(nPR=1.53%)。 关键消融:以REPA为例,剪枝绝对值低于阈值τ=0.02的尾部维度(移除762维,占66.21%),FID仅从7.1694微升至9.2202,而CLIP分数下降有限(29.746->29.221)。在τ=0.01时(移除38.94%),性能基本保持不变。 反之,移除少量高幅度“头部”维度(如8维)会严重破坏生成质量(FID>500)。 模型/方法 数据集 指标 (FID↓ / IS↑ / CLIP↑) REPA (基线) ImageNet-1K 7.1694 / 176.02 / 29.746 REPA (剪枝 τ=0.01, t0) ImageNet-1K 7.1690 / 175.97 / 29.807 REPA (剪枝 τ=0.02, ti) ImageNet-1K 9.2202 / 125.15 / 29.221 REPA (剪枝 τ=5.0, ti,移除头部) ImageNet-1K 356.135 / 1.77 / 21.922 图8:不同阈值τ剪枝尾部维度后的生成图像。即使剪枝高达80%以上(τ=0.03),图像质量仍与基线REPA(τ=0)相当。 ...

2026-05-02 · 更新于 2026-06-19 · 2 min · 395 words

AudioX: A Unified Framework for Anything-to-Audio Generation

📄 AudioX: A Unified Framework for Anything-to-Audio Generation #音频生成 #音乐生成 #多模态模型 #扩散模型 #数据集 ✅ 7.5/10 | 前25% | #音频生成 | #扩散模型 | #音乐生成 #多模态模型 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Zeyue Tian(香港科技大学) 通讯作者:Wei Xue†(香港科技大学),Yike Guo†(香港科技大学) 作者列表:Zeyue Tian(香港科技大学),Zhaoyang Liu(香港科技大学),Yizhu Jin(香港科技大学),Ruibin Yuan(香港科技大学),Liumeng Xue(香港科技大学),Xu Tan(独立研究者),Qifeng Chen(香港科技大学),Wei Xue†(香港科技大学),Yike Guo†(香港科技大学) 💡 毒舌点评 该工作在“大力出奇迹”的道路上又进了一步:用精心设计的结构化标注管线喂出了七百万条高质量音频-文本对,配合一个设计得当的多模态融合模块,最终在各大榜单上刷出了SOTA,这证明了数据工程与模型工程的双重重要性。然而,论文中将指令跟随能力归因于MAF模块和数据集的论断,部分证据(如T2A-bench的评估)严重依赖外部强大的多模态大模型作为标注器和裁判,这引发了评估闭环是否过于依赖商业API的疑问。 🔗 开源详情 代码:论文中提供了代码仓库链接(https://zeyuet.github.io/AudioX/),并承诺将开源。 模型权重:论文提及将开源预训练模型检查点。 数据集:论文承诺将完整开源IF-caps数据集。 Demo:论文中未提及在线演示链接。 复现材料:论文提供了详细的模型架构、训练超参数、数据集统计信息、评估指标定义和基准测试细节(见附录)。附录中进一步详述了数据标注样例和评估流程。 引用的开源项目:CLIP (Radford et al., 2021), Synchformer (Iashin et al., 2024), T5 (Raffel et al., 2020), Stable Audio Open (Evans et al., 2024b), Gemini 2.5 Pro (Google), Qwen2-Audio (Chu et al., 2024)。 📌 核心摘要 问题:当前音频生成模型大多为单模态输入(如仅文本或仅视频)、单任务输出(如仅音效或仅音乐)的“专家”模型,缺乏一个能灵活组合多种控制信号并生成高质量音频/音乐的统一框架,且高质量的多模态训练数据稀缺。 方法核心:提出AudioX统一框架,以扩散Transformer(DiT)为骨干。核心创新是设计了一个轻量级的多模态自适应融合(MAF)模块,用于在条件信号输入DiT前,对来自文本、视频和音频的特征进行门控、交叉注意力聚合和自注意力精炼,以增强跨模态对齐和融合。 新意与对比:相较于已有方法,AudioX的新意在于:(1) 架构上,通过MAF模块在统一框架内处理任意模态组合的条件输入;(2) 数据上,设计了结构化标注与增强管线,构建了包含超700万样本的IF-caps大规模细粒度数据集。 实验结果:在多个任务(T2A, V2A, T2M, V2M等)和基准上,AudioX达到或超过SOTA水平。关键结果见下表(数据摘自论文Table 1): 任务 数据集 方法 KL ↓ IS ↑ FAD ↓ T2A VGGSound AudioX 1.74 19.58 1.33 MMAudio 2.17 17.83 2.50 Stable Audio Open 2.36 14.45 2.60 T2M MusicCaps AudioX 0.96 3.55 1.53 TangoMusic 1.13 2.86 1.88 Stable Audio Open 1.51 2.94 3.23 V2M V2M-bench AudioX 0.70 1.37 1.67 VidMuse 0.73 1.32 2.46 在新提出的指令跟随基准T2A-bench上,AudioX大幅领先(如Ord-acc: 23.6 vs 次高19.8)。 实际意义:该框架和数据集为需要多模态灵活控制音频生成的应用(如视频后期制作、游戏开发、辅助创作)提供了强大的基础工具,其数据标注方法对构建多模态数据集有借鉴意义。 主要局限:论文未明确讨论模型的计算效率与实时性;统一框架的参数量(2.4B)和训练成本(约4k GPU小时)可能限制其在资源受限场景的应用;其“Anything-to-Audio”的泛化能力主要在文本、视频、音频三种模态内验证,对于更异质模态(如传感器数据、图像)的处理能力未探讨。 🏗️ 模型架构 图4:AudioX框架。 专用编码器处理不同模态,MAF模块将这些信号统一为条件嵌入Hc。DiT骨干网络处理噪声潜在输入zt,通过交叉注意力以Hc为条件,生成高质量音频和音乐。 ...

2026-05-02 · 更新于 2026-06-19 · 3 min · 442 words

AUHead: Realistic Emotional Talking Head Generation via Action Units Control

📄 AUHead: Realistic Emotional Talking Head Generation via Action Units Control #面部动画生成 #扩散模型 #音频大模型 #跨模态 #情感理解 🔥 8.0/10 | 前25% | #面部动画生成 | #扩散模型 | #音频大模型 #跨模态 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Jiayi Lyu (中国科学院大学) 通讯作者:Jian Xue (中国科学院大学) 作者列表:Jiayi Lyu (中国科学院大学), Leigang Qu (新加坡国立大学), Wenjing Zhang (中国科学院大学), Hanyu Jiang (中国科学院大学), Kai Liu (浙江大学), Zhenglin Zhou (浙江大学), Xiaobo Xia (新加坡国立大学), Jian Xue (中国科学院大学), Tat-Seng Chua (新加坡国立大学) 💡 毒舌点评 亮点: 论文最大的亮点在于引入了可解释的面部动作单元(AU)作为中间桥梁,将语音情感理解(通过ALM)和精细面部动画生成(通过扩散模型)优雅地解耦,为解决情感说话头生成中的“可控性与质量”困境提供了一个新颖且通用的框架。 短板: 尽管框架新颖,但作为核心控制信号的AU序列,其预测精度(在MEAD数据集上MAE为0.2085)可能成为整个系统性能的瓶颈;此外,论文中Stage 2的生成模块(Hallo V1, MEMO)并非作者原创,其创新更多体现在控制策略的整合而非生成架构的突破上。 ...

2026-05-02 · 更新于 2026-06-19 · 2 min · 423 words

Bridging Piano Transcription and Rendering via Disentangled Score Content and Style

📄 Bridging Piano Transcription and Rendering via Disentangled Score Content and Style #音乐信息检索 #多任务学习 #解耦表示学习 #扩散模型 #钢琴转录 🔥 8.0/10 | 前25% | #音乐信息检索 | #多任务学习 #解耦表示学习 | #多任务学习 #解耦表示学习 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Wei Zeng(新加坡国立大学,综合科学与工程项目,计算学院) 通讯作者:Ye Wang(新加坡国立大学,综合科学与工程项目,计算学院) 作者列表:Wei Zeng(新加坡国立大学,综合科学与工程项目,计算学院)、Junchuan Zhao(新加坡国立大学,计算学院)、Ye Wang(新加坡国立大学,综合科学与工程项目,计算学院) 💡 毒舌点评 亮点在于其统一的框架设计与“内容-风格”解耦的清晰思路,巧妙地利用了EPR和APT的互逆性进行联合训练,并无需繁琐的音符级对齐数据,这在方法论上颇具启发性。短板是,虽然框架通用,但实验主要基于古典钢琴音乐,其对于更丰富多变的流行音乐等风格的泛化能力未被验证;此外,模型参数量(188M)显著高于一些基线,计算成本是一个需要考虑的实际问题。 🔗 开源详情 代码:论文明确表示“代码将在论文被接受后发布”,提供了项目主页链接(https://wei-zeng98.github.io/joint-apt-epr/),表明有开源计划。 模型权重:未提及是否公开预训练模型权重。 数据集:使用了公开的ASAP和ATEPP数据集,以及从MuseScore收集并过滤的公开乐谱数据。论文未提及是否提供已处理的未配对演奏MIDI数据。 Demo:提供了在线演示页面(https://wei-zeng98.github.io/joint-apt-epr/),包含EPR渲染和风格迁移的示例。 复现材料:附录B提供了极其详细的模型实现细节(PyTorch Lightning、多任务训练设置、优化器、掩码策略等),是高质量的复现指南。 论文中引用的开源项目:提到了MidiTok(用于MIDI分词)、Aria-AMT(用于音频转MIDI)和Partitura(用于音乐处理)。 总体开源情况:论文有明确的开源承诺和详尽的复现材料,开源状态积极,但代码和权重尚未发布。 📌 核心摘要 这篇论文旨在解决钢琴演奏渲染(EPR)和自动钢琴转录(APT)两个基础但互逆的任务长期被独立研究的问题。其核心方法是构建一个基于Transformer的统一序列到序列(Seq2Seq)框架,通过解耦“音符级乐谱内容”和“全局演奏风格”两种表示,来联合学习这两个任务。与已有方法相比,其新意在于:1)首次将EPR和APT统一建模,实现双向监督;2)提出无需音符级对齐的Seq2Seq训练范式,降低了数据标注门槛;3)设计了一个独立的、基于扩散模型的演奏风格推荐(PSR)模块,能够仅从乐谱内容生成合适的风格嵌入。实验表明,该联合模型在ASAP数据集的APT任务上,达到了与最先进端到端模型(Beyer & Dai, 2024)可比的性能(例如,ScoreSimilarity平均误差Eavg从14.10降至12.48)。在EPR任务上,其客观指标(如速度MAE为0.37)和主观评价均优于或接近现有基线。消融实验验证了联合训练和无对齐数据的重要性。该工作的实际意义在于实现了音乐模态间转换的双向建模,并支持风格可控的演奏生成;主要局限性在于计算开销较大,且实验验证局限于古典钢琴音乐。 🏗️ 模型架构 本文提出一个统一的、模块化的框架,用于联合处理EPR和APT任务,并支持独立的风格推荐。 ...

2026-05-02 · 更新于 2026-06-19 · 2 min · 417 words

DiffSDA: Unsupervised Diffusion Sequential Disentanglement Across Modalities

📄 DiffSDA: Unsupervised Diffusion Sequential Disentanglement Across Modalities #无监督学习 #扩散模型 #表征学习 #零样本 #音频 🔥 8.0/10 | 前25% | #无监督学习 | #扩散模型 | #表征学习 #零样本 学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度 高 👥 作者与机构 第一作者:Hedi Zisling(Ben-Gurion University)与Ilan Naiman并列第一作者 通讯作者:Omri Azencot(Ben-Gurion University) 作者列表:Hedi Zisling(Ben-Gurion University)、Ilan Naiman(Ben-Gurion University)、Nimrod Berman(Ben-Gurion University)、Supasorn Suwajanakorn(VISTEC)、Omri Azencot(Ben-Gurion University) 💡 毒舌点评 亮点:首次将扩散模型正式、系统地引入序列解耦任务,提出了一个简洁(单一损失项)且强大的概率框架,并在包括高分辨率真实视频在内的多个模态上验证了其SOTA性能,特别是“零样本跨数据集解耦”展示了其强大的泛化能力。 短板:生成过程目前是逐帧进行的,论文自述这可能限制视频的时空连贯性,未来需与视频扩散模型结合;此外,多因子解耦探索仍属初步,距离实用化的精细控制还有距离。 🔗 开源详情 代码:论文明确提供了GitHub代码仓库链接:https://github.com/azencot-group/DiffSDA。 模型权重:论文中未提及是否公开预训练模型权重。 数据集:论文中使用的数据集(MUG, TaiChi-HD, VoxCeleb, CelebV-HQ, TIMIT, LibriSpeech, PhysioNet, ETTh1, Air Quality)均为公开学术数据集,并提供了获取方式的引用。 Demo:论文中未提供在线演示链接。 复现材料:提供了极为详尽的复现材料,包括所有数据集的预处理步骤、训练的完整超参数配置表(Tab.6-8, 如学习率、批次大小、模型维度、序列长度、GPU型号等)、网络架构细节、评估指标定义以及消融实验设置。 论文中引用的开源项目:EDM(采样框架)、LDM(潜在扩散模型, 使用预训练VQ-VAE)、U-Net、LSTM等标准架构;评估时使用了VGG-FACE(面部识别)、HRNet(姿态估计)等预训练模型。 📌 核心摘要 问题:现有无监督序列解耦方法主要依赖VAE/GAN,需要复杂的多损失优化,在真实世界数据上效果有限,且缺乏统一的评估协议。扩散模型虽强大,但尚无理论框架用于序列解耦。 核心方法:提出DiffSDA,一个基于扩散过程的模态无关序列解耦框架。其核心是联合建模静态(时间不变)和动态(时间变化)隐因子,并引入一个条件于这些因子的扩散过程来生成数据序列。 与已有方法的对比创新:(1) 提供了首个针对序列解耦的扩散模型概率建模(Eq.1-2);(2) 与先前工作不同,建模了静态与动态因子的相互依赖性(Dependent Prior),提升了表达力;(3) 整个模型仅需一个基于分数匹配的统一损失项(Eq.5),极大简化了优化。 主要实验结果:在多个真实世界数据集上全面超越SOTA(SPYL, DBSE)。视频任务中,在VoxCeleb条件交换的动态保留度(AKD)上从10.96降至2.793;音频任务中,在TIMIT上的解耦差距(Dis. Gap)从31.11%提升至42.29%;时序预测任务(ETTh1 MAE)从11.2降至9.89。首次实现了跨数据集的零样本视频解耦交换(如图2,4)。 图1展示了DiffSDA的三大组件:序列语义编码器(上方,提取静态s0和动态d1:V 0因子)、随机编码器(下方,添加噪声得x1:V t)和随机解码器(右侧,条件于隐因子进行去噪得˜x1:V 0)。 ...

2026-05-02 · 更新于 2026-06-19 · 2 min · 365 words

From Text to Talk: Audio-Language Model Needs Non-Autoregressive Joint Training

📄 From Text to Talk: Audio-Language Model Needs Non-Autoregressive Joint Training #语音对话系统 #扩散模型 #语音大模型 #端到端 #预训练 ✅ 7.5/10 | 前25% | #语音对话系统 | #扩散模型 | #语音大模型 #端到端 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度 高 👥 作者与机构 第一作者:Tianqiao Liu(广东智慧教育研究院、好未来教育集团) 通讯作者:Xueyi Li(广东智慧教育研究院) 作者列表:Tianqiao Liu(广东智慧教育研究院、好未来教育集团)、Xueyi Li(广东智慧教育研究院)、Hao Wang(北京大学)、Haoxuan Li(北京大学)、Zhichao Chen(北京大学)、Weiqi Luo(广东智慧教育研究院)、Zitao Liu(广东智慧教育研究院) 💡 毒舌点评 亮点在于敏锐地指出了用单一自回归目标训练文本和音频模态的“结构性不匹配”,并巧妙地利用离散扩散模型的任意序自回归特性,构建了一个理论自洽的混合生成框架。短板在于,虽然模型在多个任务上超越了基线,但其性能与一些大型(7B以上)模型仍有差距,且实验部分主要依赖合成数据进行扩展,其在大规模真实交互场景中的鲁棒性和长期对话能力尚待更深入的验证。 🔗 开源详情 代码:是,提供了GitHub仓库链接:https://github.com/ai4ed/TtT。 模型权重:未提及是否公开模型检查点或权重。 数据集:论文中详细列出了训练所用数据集名称和部分规模,但未说明是否公开整合后的训练数据集或提供下载方式。 Demo:未提及在线演示。 复现材料:提供了非常详尽的训练细节(优化器、学习率、批量大小、随机策略概率等)和推理配置(扩散步数、块大小、引导尺度等),并说明了评估使用的具体ASR和LLM-as-a-Judge模型。附录包含数据格式示例。 论文中引用的开源项目:明确使用了Qwen2.5作为主干模型,并沿用了GLM-4-Voice的音频Tokenizer和Decoder设计。训练数据引用了VoiceAssistant-400K, CosyVoice2, FineWeb-Edu等。评估中使用了Whisper, Paraformer-zh, Qwen3-30B-A3B等。 📌 核心摘要 问题:现有的端到端语音对话模型(如Moshi, GLM-4-Voice)普遍采用单一自回归(AR)方法同时生成文本和音频,但这忽视了两种模态的本质依赖差异:文本生成是强目标间(target-target)依赖,而音频生成更依赖源-目标(source-target)依赖,即主要由输入文本决定。 方法核心:提出了Text-to-Talk (TtT),一个统一的音频-文本多模态大语言模型框架。其核心是将AR用于文本生成,与基于吸收离散扩散的非自回归(NAR)方法用于音频生成,整合到同一个Transformer中。文本生成遵循标准因果顺序,而音频段内的生成被建模为可以任意顺序进行(得益于扩散模型的性质),但整体仍受制于因果的跨段依赖。 创新点: 理论框架:利用吸收离散扩散模型等价于“任意序自回归模型”的理论,为混合AR-NAR训练目标提供了上界分析,证明了其合理性。 架构设计:设计了模态感知注意力机制,强制对文本使用因果注意力,而对音频段内允许双向注意力,同时保持跨段的因果依赖。 训练策略:提出了三项训练策略(批量AR/NAR混合、前缀保留掩码、随机段截断)来弥合训练时部分掩码音频与推理时完整音频之间的差异。 主要实验结果:在多个基准测试(Audio-QA, ASR, AAC, URO-Bench)上,TtT(3B参数)持续优于强大的纯AR和纯NAR基线模型。例如,在Audio-QA的LLaMAQuestions数据集上,TtT-3B得分34.68,而纯AR的Qwen2.5-3B仅得10.00;在AISHELL-2 ASR任务上,TtT-3B的WER为12.53,显著低于AR基线的54.94。与更大的模型相比,TtT在某些任务上也展现出竞争力。 实际意义:为构建更高效、更自然的端到端语音对话系统提供了一种新的架构范式,通过尊重模态差异来减少误差传播,并实现音频的并行生成,有望降低延迟。 主要局限性:当前实验主要基于3B参数的模型,其能力上限和在更复杂推理任务上的表现有待更大规模模型的验证;部分训练数据依赖TTS合成,可能引入领域偏差。 🏗️ 模型架构 TtT模型基于一个预训练的纯文本LLM(论文中使用Qwen2.5-Base)进行构建,通过扩展其词表以包含音频离散码元(来自GLM-4-Voice的音频分词器)和特殊控制符(如<SOA>、<EOA>、<EOS>)。整个框架是一个统一的Transformer编码器-解码器(在论文中记为fθ),共享一个输出头W用于在整个扩展词表V上预测logits。 ...

2026-05-02 · 更新于 2026-06-19 · 2 min · 400 words