Fast Text-to-Audio Generation with One-Step Sampling via Energy-Scoring and Auxiliary Contextual Representation Distillation

📄 Fast Text-to-Audio Generation with One-Step Sampling via Energy-Scoring and Auxiliary Contextual Representation Distillation #音频生成 #自回归模型 #扩散模型 #知识蒸馏 #一步生成 ✅ 7.5/10 | 前25% | #音频生成 | #扩散模型 | #自回归模型 #知识蒸馏 | arxiv 学术质量 7.5/7 | 选题价值 2.0/2 | 复现加成 0.0 | 置信度 高 👥 作者与机构 第一作者:Kuan-Po Huang (未明确说明所属机构) 通讯作者:未明确说明 作者列表:Kuan-Po Huang (未说明), Bo-Ru Lu (未说明), Byeonggeun Kim (未说明), Mihee Lee (未说明), Zalan Fabian (未说明), Renard Korzeniowski (未说明), Qingming Tang (未说明), Greg Ver Steeg (未说明), Hung-yi Lee (未说明), Chieh-Chi Kao (未说明), Chao Wang (未说明)。论文中未提供任何作者的具体机构信息。 💡 毒舌点评 亮点:论文巧妙地将能量距离这一分布匹配目标引入文本到音频生成,实现了真正意义上的“一步”潜变量合成,同时通过从强大的多步扩散模型(IMPACT)中进行表示蒸馏,有效弥补了单步生成的质量损失,是一次“既要速度又要质量”的成功工程实践。 短板:尽管在AudioCaps基准上表现优异,但研究完全局限于该数据集,缺乏在更大规模、更多样化音频(如音乐、长时叙事音频)或真实用户场景下的验证,其泛化能力和实际应用鲁棒性存疑;更关键的是,未开源代码与模型,大大削弱了其可复现性和社区影响力。 ...

2026-05-04 · 更新于 2026-06-18 · 4 min · 669 words

From Text to Talk: Audio-Language Model Needs Non-Autoregressive Joint Training

📄 From Text to Talk: Audio-Language Model Needs Non-Autoregressive Joint Training #语音对话系统 #扩散模型 #端到端 #多模态模型 #大语言模型 🔥 8.5/10 | 前25% | #语音对话系统 | #扩散模型 | #端到端 #多模态模型 学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Tianqiao Liu(好未来教育集团 TAL Education Group,暨南大学 Guangdong Institute of Smart Education) 通讯作者:Xueyi Li(暨南大学 Guangdong Institute of Smart Education) 作者列表:Tianqiao Liu(好未来教育集团,暨南大学)、Xueyi Li(暨南大学)、Hao Wang(北京大学)、Haoxuan Li(北京大学)、Zhichao Chen(北京大学)、Weiqi Luo(暨南大学)、Zitao Liu(暨南大学) 💡 毒舌点评 论文对端到端语音模型中文本与音频生成范式错配问题的洞察一针见血,并给出了一个理论上优雅、实验上有效的混合训练框架,是当前S2S建模思路的一次重要升级。但论文对模型推理时块级扩散的计算开销分析着墨不多,且训练数据依赖大量合成语音(如CosyVoice2生成),其在真实复杂声学环境下的泛化能力仍是潜在挑战。 🔗 开源详情 代码:论文明确提供了代码仓库链接:https://github.com/ai4ed/TtT。 模型权重:论文中未提及预训练模型权重(如Pretrain+TtT的检查点)的公开下载链接。 数据集:论文中使用的训练数据大多为公开数据集(如AISHELL, LibriSpeech, VoiceAssistant-400K等),但具体的数据处理脚本和混合配方未完全开源。评估数据集如URO-Bench、Audio-QA集等为公开基准。 Demo:论文中未提及提供在线演示(Demo)。 复现材料:论文提供了极其详细的训练细节(超参数、优化器设置、训练策略概率)、模型配置(基于Qwen2.5)、以及架构和注意力机制的示意图(图2, 3),并附有详尽的附录。这些构成了坚实的复现基础。 引用的开源项目:论文依赖并引用了多个开源项目作为基础组件,主要包括: 音频分词器/解码器:GLM-4-Voice (Zeng et al., 2024)。 主干LLM:Qwen2.5系列。 ASR评估工具:Whisper (Radford et al., 2023)、Paraformer。 TTS数据生成:CosyVoice2。 训练框架:DeepSpeed。 论文中提及的开源计划:论文中未提及额外的开源计划(如未来发布模型权重或扩展数据)。 📌 核心摘要 本文针对现有端到端语音到语音(S2S)模型用统一自回归(AR)方法建模文本和音频所存在的范式错配问题,提出了“Text-to-Talk”(TtT)框架。核心问题在于,文本生成是强序列依赖的(目标-目标依赖),而音频生成更依赖输入源(源-目标依赖),强行用AR约束音频会引入不必要的误差传播。方法核心是设计一个混合生成框架,在同一个Transformer中,对文本使用标准AR建模,对音频段使用吸收离散扩散(一种NAR范式)建模,并证明了这种联合训练目标是目标联合分布的上界。与已有方法相比,新在两点:1)首次识别并形式化了文本与音频在依赖结构上的不对称性;2)提出了一个统一的架构和训练框架来适配这种不对称性,而非强行统一生成范式。主要实验结果显示,TtT在Audio-QA、ASR、AAC和URO-Bench等多个基准上,一致超越了纯AR和纯NAR的基线模型。例如,在3B参数规模下,TtT在多个ASR数据集上的WER大幅优于Qwen2.5-3B (AR),在Audio-QA任务上也显著提升。实际意义在于,为构建更自然、高效、符合生成特性的端到端语音交互系统提供了新思路。主要局限性包括:1)块级扩散推理的效率需要进一步评估;2)模型性能对大规模多模态预训练数据(约200B tokens)有一定依赖;3)尽管在轻量级模型中表现优异,但与某些超大参数量模型(如GLM-4-Voice)在综合基准上仍有差距。 ...

2026-05-04 · 更新于 2026-06-18 · 2 min · 367 words

Instilling an Active Mind in Avatars via Cognitive Simulation

📄 Instilling an Active Mind in Avatars via Cognitive Simulation #音视频 #多模态模型 #扩散模型 #大语言模型 ✅ 7.0/10 | 前25% | #音视频 | #多模态模型 #扩散模型 | #多模态模型 #扩散模型 学术质量 6.0/7 | 选题价值 1.0/2 | 复现加成 0.0 | 置信度 中 👥 作者与机构 第一作者:Jianwen Jiang(字节跳动 ByteDance) 通讯作者:Jianwen Jiang(字节跳动 ByteDance,论文中标注为“Project Lead and Corresponding author”) 作者列表:Jianwen Jiang, Weihong Zeng, Zerong Zheng, Jiaqi Yang, Chao Liang, Wang Liao, Han Liang, Weifeng Chen, Xing Wang, Yuan Zhang, Mingyuan Gao(均隶属于字节跳动 ByteDance) 💡 毒舌点评 亮点:将认知科学的“双系统”概念巧妙映射到模型设计中,用MLLM进行高层“计划”来指导扩散模型的“生成”,这个框架思路新颖且具有启发性,伪最后帧的设计也有效解决了参考图像约束运动动态的问题。 短板:论文声称模拟了“System 2”的审慎推理,但该过程实则依赖外部MLLM的推理能力,其输出的“计划”质量取决于所用MLLM,且推理延迟(20-30秒)在实时或交互应用中是个显著负担。多模态融合的内部机制(尤其是音频、文本与视觉token如何在Transformer内“对称融合”)描述略显笼统。 ...

2026-05-04 · 更新于 2026-06-18 · 2 min · 285 words

InterActHuman: Multi-Concept Human Animation with Layout-Aligned Audio Conditions

📄 InterActHuman: Multi-Concept Human Animation with Layout-Aligned Audio Conditions #视频生成 #扩散模型 #音频条件 #多概念定制 ✅ 7.5/10 | 前25% | #视频生成 | #扩散模型 | #音频条件 #多概念定制 学术质量 6.5/7 | 选题价值 2.0/2 | 复现加成 -0.5 | 置信度 高 👥 作者与机构 第一作者:Zhenzhi Wang*(香港中文大学) 通讯作者:论文中未明确标注通讯作者 作者列表:Zhenzhi Wang(香港中文大学)、Jiaqi Yang(字节跳动)、Jianwen Jiang*B(字节跳动)、Chao Liang(字节跳动)、Gaojie Lin(字节跳动)、Zerong Zheng(字节跳动)、Ceyuan Yang(字节跳动)、Yuan Zhang(字节跳动)、Mingyuan Gao(字节跳动)、Dahua Lin(香港中文大学) 💡 毒舌点评 论文提出的显式布局预测模块有效解决了多人动画中的“鸡和蛋”困境,是音视频对齐领域一个清晰的技术进步。但论文的致命短板是零开源支持——没有代码、模型权重或训练数据,这使得其标榜的“基线”价值大打折扣,复现难度极高。 🔗 开源详情 代码:论文中未提及代码仓库链接。 模型权重:未提及公开的模型权重。 数据集:论文中描述了自建的大规模数据集,但未提及如何获取。 Demo:论文中提供了视频演示的链接 (https://zhenzhiwang.github.io/interacthuman/)。 复现材料:论文提供了详细的算法伪代码(算法1)、训练超参数(学习率、batch size、硬件、步数等)、损失函数设计和数据处理流程的描述,为复现提供了重要信息。附录包含更多实验细节。 论文中引用的开源项目:Wan2.1(预训练模型基础)、Qwen2.5-VL(提示重述)、Qwen2-VL(数据标注)、Gemini-2.0-Flash(描述解析)、Grounding-SAM2(掩码生成)、wav2vec 2.0(音频特征)、Florence-2(主体检测)、CLIP/DINO(特征提取)、SyncNet(唇音同步)、Raft(光流)、RTMpose(人体关键点)、PaddleOCR(字幕检测)、PySceneDetect(视频剪辑)等。 📌 核心摘要 问题:现有的端到端人体动画方法大多假设单一主体并采用全局条件注入,无法处理需要精确区域控制的多概念(多人、人-物)交互场景,尤其是将不同音频信号准确分配给对应人物的挑战。 方法:本文提出InterActHuman框架,其核心是一个轻量级掩码预测模块,能自动从参考图像中推断每个身份在视频中的时空布局(掩码)。在推理时,利用迭代扩散过程,将上一步预测的掩码用于指导当前步的局部音频注入,解决了布局预测与条件注入的相互依赖问题。 创新:与隐式学习(如特征融合)的已有方法不同,该工作首次提出并验证了显式布局约束对于多概念、多模态人体动画的重要性。它提供了一个统一的接口,通过布局来同步注入图像和音频等全局与局部条件。 实验结果:在多人音频驱动动画测试集上,该方法在唇音同步距离(Sync-D)和视频FVD指标上显著优于基线(如OmniHuman),具体数值见表1。用户研究也表明其在唇音同步和主体一致性上大幅领先(表2)。在多概念视频定制任务中,其身份保真度指标(如CLIP-I, DINO-I)也达到最佳(表3)��� 实际意义:为高质量、可控的多角色对话视频生成和基于多参考图像的视频定制提供了新的技术路径,有望应用于数字内容创作、虚拟交互等领域。 局限性:训练数据域较窄(主要为人像),限制了文本提示的多样性;模型主要针对2-3人场景训练,对更多人数的泛化能力未充分验证。 🏗️ 模型架构 InterActHuman是一个基于扩散变换器(DiT)的视频扩散框架,旨在实现多概念、多模态条件的人体动画生成。 ...

2026-05-04 · 更新于 2026-06-18 · 2 min · 376 words

JavisDiT: Joint Audio-Video Diffusion Transformer with Hierarchical Spatio-Temporal Prior Synchronization

📄 JavisDiT: Joint Audio-Video Diffusion Transformer with Hierarchical Spatio-Temporal Prior Synchronization #音视频 #扩散模型 #Transformer #基准测试 🔥 8.5/10 | 前25% | #音视频 | #扩散模型 #Transformer | #扩散模型 #Transformer 学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Kai Liu (浙江大学, 新加坡国立大学) (*共同第一作者) 通讯作者:Hao Fei (新加坡国立大学) 作者列表: Kai Liu (浙江大学,新加坡国立大学) (*共同第一作者) Wei Li (中国科学技术大学) (*共同第一作者) Lai Chen (浙江大学) Shengqiong Wu (新加坡国立大学) Yanhao Zheng (浙江大学) Jiayi Ji (新加坡国立大学) Fan Zhou (浙江大学) Jiebo Luo (罗切斯特大学) Ziwei Liu (南洋理工大学) Hao Fei (新加坡国立大学) (†通讯作者) Tat-Seng Chua (新加坡国立大学) 💡 毒舌点评 论文提出了一个架构设计完整、实验验证充分的端到端音视频生成模型,其“分层时空先验估计”的思路有效提升了生成内容的同步性,配套的JavisBench基准和JavisScore指标也直指现有评估的痛点。然而,该模型的计算开销庞大(生成4秒240P视频在H100上耗时30秒),且其在更复杂、更高分辨率或更长时长场景下的泛化能力仍待验证。 ...

2026-05-04 · 更新于 2026-06-18 · 2 min · 370 words

JavisDiT++: Unified Modeling and Optimization for Joint Audio-Video Generation

📄 JavisDiT++: Unified Modeling and Optimization for Joint Audio-Video Generation #音视频 #流匹配 #扩散模型 #多模态模型 #偏好优化 🔥 9.0/10 | 前25% | #音视频 | #流匹配 | #扩散模型 #多模态模型 学术质量 6.5/7 | 选题价值 1.8/2 | 复现加成 0.8 | 置信度 高 👥 作者与机构 第一作者:Kai Liu (浙江大学) 通讯作者:Hao Fei (新加坡国立大学) 作者列表: Kai Liu (浙江大学) Yanhao Zheng (未说明) Kai Wang (多伦多大学) Shengqiong Wu (新加坡国立大学) Rongjunchen Zhang (HiThink Research) Jiebo Luo (罗切斯特大学) Dimitrios Hatzinakos (多伦多大学) Ziwei Liu (南洋理工大学) Hao Fei (新加坡国立大学) Tat-Seng Chua (新加坡国立大学) 💡 毒舌点评 这篇论文的亮点在于提出了一个极其简洁有效的统一架构(MS-MoE)和精确的时间对齐策略(TA-RoPE),以相对较低的模型参数(2.1B)和数据量(~1M)达到了接近商业模型(Veo3)的SOTA性能。短板是其核心贡献高度依赖特定的视频生成骨干(Wan2.1),这虽然加速了研发,但也意味着其音视频联合生成的泛化能力与独立性有待进一步验证,且其对训练数据质量与分布的敏感性(见消融研究)暗示了在开放域场景下的潜在挑战。 ...

2026-05-04 · 更新于 2026-06-18 · 2 min · 327 words

Latent Fourier Transform

📄 Latent Fourier Transform #音乐生成 #扩散模型 #音频生成 🔥 8.5/10 | 前25% | #音乐生成 | #扩散模型 | #音频生成 学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Mason Long Wang (MIT CSAIL) 通讯作者:未说明 作者列表:Mason Long Wang (MIT CSAIL), Cheng-Zhi Anna Huang (MIT CSAIL) 💡 毒舌点评 亮点在于,它提出了一个优雅且系统性的框架,将傅里叶分析引入生成模型的潜空间,为音乐生成提供了一个全新的、连续的“时间尺度”控制轴,概念上比现有的离散层次控制(如RVQ层)更直观。短板是,虽然实验在MTG-Jamendo等数据集上表现优异,但音乐生成模型的通用评估依然困难,且用户研究规模有限(29人),对“音乐连贯性”等主观感受的量化仍具挑战。 🔗 开源详情 代码:论文中提供了公开的代码仓库链接(https://github.com/maswang32/latentfouriertransform/)。 模型权重:论文中未明确提及是否公开预训练模型权重。 数据集:主要使用公开数据集MTG-Jamendo、GTZAN、Maestro,论文未提供其私有处理版本。 Demo:论文中提到提供在线音频演示(https://masonlwang.com/latentfouriertransform/)。 复现材料:论文附录(Appendix A)提供了极其详细的实验设置信息,包括:各版本编码器(MLP, U-Net, DAC)的具体架构和超参数、解码器(扩散模型)架构、训练细节(优化器、学习率、batch size、迭代次数、warmup、EMA等)、其他超参数(掩码生成参数、扩散参数)、数据集说明、实验具体设置(频率带划分、用户研究细节)、隔离实验和可解释性实验的方法。这些信息足以支持复现。 论文中引用的开源项目:BigVGAN(声码器)、DAC(音频编码器)、Essentia、Librosa、VGGish等。 📌 核心摘要 要解决什么问题:现有基于粗到细生成范式的音乐生成模型(如扩散模型、自回归模型)难以对生成过程进行中、小尺度特征的精细控制。用户通常只能控制全局属性(如文本描述)或特定语义属性(如音高、响亮),无法直接指定并控制音乐中不同时间尺度(如和弦进行、颤音)的模式。 方法核心是什么:论文提出了“潜空间傅里叶变换”(LATENTFT)框架。它使用一个扩散自编码器将音频编码为潜向量时间序列,并对该序列进行离散傅里叶变换(DFT),得到“潜频谱”。在训练时,对潜频谱进行随机掩码(保持频带相关性和对数频率轴),然后用掩码后的潜序列作为条件,训练扩散解码器重构音频。 与已有方法相比新在哪里: 控制维度新:首次在生成模型中引入对“潜空间频率”(对应音乐模式的时间尺度)的直接、连续控制,类似于音频均衡器(EQ)在音色上的作用,但作用对象是音乐结构。 训练策略新:核心创新在于训练时的潜频域掩码策略。通过在训练中随机遮蔽潜频谱的不同频段,使模型学会从部分频谱信息中恢复完整音乐,从而支持推理时用户指定的、针对特定时间尺度的控制。 任务定义新:将音乐生成/融合任务从属性条件或简单特征混合,提升到了基于时间尺度的、可解释的条件混合。 主要实验结果如何:论文在条件生成和融合两个任务上,与多种基线(掩码Token模型、引导梯度、ILVR、DAC/RAVE后处理、频谱图滤波、交叉合成)进行了对比。在MTG-Jamendo数据集上的关键结果如下表所示,LATENTFT在各项指标上均显著优于基线,尤其是在音频质量(FAD)和条件遵循(如响度、节奏相关性)方面。 方法 条件生成 FAD ↓ 条件生成 节奏相似度 ↑ 融合 FAD ↓ 融合 节奏相似度 ↑ LATENTFT-MLP 0.337 0.963 1.387 0.873 LATENTFT-UNet 0.348 0.966 1.357 0.878 ILVR 1.537 0.839 2.696 0.858 Guidance 1.061 0.813 1.466 0.832 DAC 7.016 0.838 6.257 0.792 (表1:MTG-Jamendo测试集上的条件生成与融合结果) ...

2026-05-04 · 更新于 2026-06-18 · 2 min · 294 words

LayerSync: Self-aligning Intermediate Layers

📄 LayerSync: Self-aligning Intermediate Layers #音频生成 #多模态模型 #扩散模型 #自监督学习 #生成模型 ✅ 7.5/10 | 前25% | #音频生成 | #扩散模型 | #多模态模型 #自监督学习 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.8 | 置信度 高 👥 作者与机构 第一作者:Yasaman Haghighi(Ecole Polytechnique Fédérale de Lausanne (EPFL)) 通讯作者:Alexandre Alahi(Ecole Polytechnique Fédérale de Lausanne (EPFL)) 作者列表:Yasaman Haghighi(EPFL)、Bastien van Delft(EPFL)、Mariam Hassan(EPFL)、Alexandre Alahi(EPFL) 💡 毒舌点评 这篇论文的亮点在于其极致的“自给自足”哲学——用模型自己最强的层当老师,去教最弱的层,完全抛开了笨重的外部模型(如DINOv2),这个想法既优雅又实用,在多个模态上都跑通了,训练加速效果非常惊人。但短板是,这种“强层指导弱层”的启发式规则选择(比如跳过最后20%的层)感觉有点“经验主义”,理论上的解释(良性循环)目前更多是一种假设,缺乏更深层次的数学证明或机理分析,让人忍不住想问:这种对齐会不会在后期“扼杀”特征多样性,或者让模型过早陷入某种次优的表示空间? 🔗 开源详情 代码:论文中提供了代码仓库链接:https://github.com/vita-epfl/LayerSync.git。 模型权重:论文中未提及公开预训练模型权重。 数据集:使用的是公开数据集(ImageNet, MTG-Jamendo, HumanML3D, CLEVRER, MixKit),论文中未说明获取方式,但这些是常见公开数据集。 Demo:论文中未提及在线演示。 复现材料:非常充分。论文附录(Section L, M)详细列出了所有实验的超参数设置(表18, 19)、训练硬件、采样器配置、评估指标细节等。算法伪代码(Algorithm 1)也在附录中给出。 依赖的开源项目:主要依赖于SiT(Ma et al., 2024)作为基础模型架构,以及Stable Diffusion的VAE用于图像编码。 📌 核心摘要 这篇论文旨在解决使用外部大型预训练模型(如视觉语言模型)来引导扩散模型中间层表示时所带来的计算开销大、数据依赖强、跨模态迁移难的问题。作者提出了一种名为LayerSync的自包含、即插即用的正则化方法。其核心思想是:扩散模型内部不同层学习的特征质量存在异质性,深层的特征语义更丰富。因此,可以利用模型自身的这些深层强特征作为“内在引导信号”,通过最大化浅层弱特征与深层强特征之间的相似度,来正则化和提升浅层特征的学习。与已有的外部引导方法(如REPA)相比,LayerSync完全不依赖额外的模型或数据,计算开销几乎为零;与同属自包含范畴的Dispersive Loss方法相比,它提供了更具方向性的学习信号。实验表明,LayerSync在图像生成任务上可将训练加速超过8.75倍(FID改善23.6%),并在音频、人类动作和视频生成任务上均一致提升了生成质量和训练效率。此外,该方法还改善了模型各层的内部表征质量。其局限性包括:关键的层选择策略依赖启发式规则,且“良性循环”的理论支撑有待加强。 ...

2026-05-04 · 更新于 2026-06-18 · 2 min · 311 words

PrismAudio: Decomposed Chain-of-Thought and Multi-dimensional Rewards for Video-to-Audio Generation

📄 PrismAudio: Decomposed Chain-of-Thought and Multi-dimensional Rewards for Video-to-Audio Generation #音频生成 #强化学习 #扩散模型 #流匹配 #基准测试 🔥 9.0/10 | 前10% | #音频生成 | #强化学习 | #扩散模型 #流匹配 学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 1.0 | 置信度 高 👥 作者与机构 第一作者:Huadai Liu(香港科技大学; 阿里巴巴通义团队) 通讯作者:Wei Xue(香港科技大学) 作者列表:Huadai Liu(香港科技大学; 阿里巴巴通义团队)、Kaicheng Luo(阿里巴巴通义团队)、Wen Wang(阿里巴巴通义团队)、Qian Chen(阿里巴巴通义团队)、Peiwen Sun(香港中文大学)、Rongjie Huang(香港中文大学)、Xiangang Li(阿里巴巴通义团队)、Jieping Ye(阿里巴巴通义团队)、Wei Xue(香港科技大学) 💡 毒舌点评 亮点:论文首次将强化学习与分解式思维链(CoT)相结合,应用于视频到音频生成,巧妙地将一个复杂的多目标优化问题分解为四个可解释、可优化的维度,并提供了高效训练算法(Fast-GRPO)和高质量评测基准(AudioCanvas)。短板:该框架高度依赖一个强大的多模态语言模型(如VideoLLaMA2)来生成高质量的CoT训练数据,且音频基础模型本身也采用了多种现有先进组件(如VideoPrism、T5-Gemma),其“从零到一”的原创性贡献相对有限。 🔗 开源详情 代码:论文承诺将公开完整代码,但未提供具体仓库链接。 模型权重:论文承诺将公开所有模型权重。 数据集:论文承诺将公开自建的AudioCanvas基准测试集。 Demo:论文中未提及在线演示链接。 复现材料:论文提供了非常详细的附录,包括训练细节、超参数、资源需求、CoT生成Prompt等,复现信息充分。 论文中引用的开源项目:依赖的开源项目/模型包括:Stability AI的VAE、VideoPrism、T5-Gemma、VideoLLaMA2、MS-CLAP、Synchformer、Meta Audiobox Aesthetics、StereoCRW、Gemini 2.5 Pro(用于数据生成)。 📌 核心摘要 本文针对视频到音频(V2A)生成任务中存在的“目标纠缠”(语义、时序、美学、空间等目标相互冲突)和缺乏人类偏好对齐的问题,提出了PrismAudio框架。其核心方法是将单一的推理路径分解为四个专门的CoT模块(语义、时序、美学、空间),并为每个模块设计对应的奖励函数,通过多维强化学习进行联合优化。与现有方法相比,新在:1)首次在V2A中整合分解CoT与多维RL;2)提出Fast-GRPO算法,通过混合ODE-SDE采样大幅降低训练开销;3)构建了更严谨的AudioCanvas基准测试集(包含300类单事件和501个多事件场景)。实验结果表明,在VGGSound测试集上,PrismAudio在语义一致性(CLAP: 0.47 vs. 0.43)、时序同步性(DeSync: 0.41 vs. 0.55)和空间准确性(CRW: 7.72 vs. 13.47)等指标上均优于此前SOTA的ThinkSound,并在主观评测中获得最高MOS分数。其实际意义在于为V2A生成提供了一个可解释、可精细控制且对齐人类偏好的新范式。主要局限性在于训练过程依赖LLM生成的CoT数据和多阶段训练,计算成本较高。 ...

2026-05-04 · 更新于 2026-06-18 · 2 min · 316 words

Scaling Speech Tokenizers with Diffusion Autoencoders

📄 Scaling Speech Tokenizers with Diffusion Autoencoders #语音识别 #语音合成 #扩散模型 #流匹配 #语音大模型 🔥 8.5/10 | 前25% | #语音识别 | #扩散模型 | #语音合成 #流匹配 学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Yuancheng Wang (Meta超级智能实验室、香港中文大学(深圳)) 通讯作者:未明确说明(论文中注明“*Work done during an internship at Meta”,但未指明通讯作者) 作者列表:Yuancheng Wang(Meta超级智能实验室、香港中文大学(深圳)),Zhenyu Tang(Meta超级智能实验室),Yun Wang(Meta超级智能实验室),Arthur Hinsvark(Meta超级智能实验室),Yingru Liu(Meta超级智能实验室),Yinghao Aaron Li(Meta超级智能实验室),Kainan Peng(Meta超级智能实验室),Junyi Ao(Meta超级智能实验室、香港中文大学(深圳)),Mingbo Ma(Meta超级智能实验室),Mike Seltzer(Meta超级智能实验室),Qing He(Meta超级智能实验室),Xubo Liu(Meta超级智能实验室) 💡 毒舌点评 亮点:论文抓住了语音标记化器“既要压缩效率,又要重建质量,还要语义丰富”的“不可能三角”,用一个统一的扩散自编码器框架给出了一个极具竞争力的解,并在12.5Hz的极低帧率下将多项指标推向了新高度。短板:尽管提出了shortcut fine-tuning等解码加速方案,但扩散模型固有的多步采样本质仍是其在实时流式应用中的阿喀琉斯之踵,论文对此的解决方案(如轻量扩散头)效果有待更严苛场景的验证。 🔗 开源详情 代码:论文未提及具体代码仓库链接,但在附录D提供了详细的伪代码,并承诺在发表后发布。 模型权重:承诺在发表后发布预训练模型检查点(在公开研究数据集上)。 数据集:使用200万小时内部数据,未提及公开。 Demo:提供了演示样例的链接 https://sitok-demo.github.io/。 复现材料:提供了非常详细的模型架构(附录A)、训练循环伪代码(附录D.2)、超参数(附录D.3)和评估协议。 依赖的开源项目:论文提到了依赖的开源项目或工具,如Llama Transformer架构、Vocos声码器、Whisper-large-v3用于评估。 📌 核心摘要 本文针对语音标记化器在低比特率下面临的语义编码、声学重建与压缩效率难以兼顾的核心问题,提出了Speech Diffusion Tokenizer (SiTok)。其核心是将向量量化与扩散自编码器进行端到端联合优化,使离散编码既能高度压缩,又与生成式解码器的分布显式对齐。与先前两阶段或仅依赖重建损失的方法相比,SiTok创新性地引入了CTC语义正则化,直接对量化后的潜在空间施加文本监督,迫使离散token保留丰富的语言结构。实验表明,在极端的12.5 Hz token率和200 bits/s比特率下,SiTok在语音重建(如WER 3.34, SIM 0.682)和下游理解任务(如ASR WER 4.95)上均显著优于强基线。此外,通过快捷微调技术,解码步骤可缩减至2-4步而几乎不损质量。该工作为构建统一的语音语言模型提供了一个高效且全面的接口,但其在流式生成和多语言支持上的潜力有待进一步挖掘。 ...

2026-05-04 · 更新于 2026-06-18 · 2 min · 342 words