Gogo: Group-wise granularity-ordered codec for stable and efficient speech generation

📄 Gogo: Group-wise granularity-ordered codec for stable and efficient speech generation #语音合成 #语音编解码 #流匹配 #自回归模型 #语音大模型 ✅ 7.5/10 | 前25% | #语音合成 | #语音编解码 | #流匹配 #自回归模型 学术质量 7.0/7 | 选题价值 2.0/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Weidong Chen (The Chinese University of Hong Kong) 通讯作者:Xixin Wu (The Chinese University of Hong Kong) 作者列表:Weidong Chen(The Chinese University of Hong Kong)、Helen M. Meng(The Chinese University of Hong Kong)、Xixin Wu(The Chinese University of Hong Kong) 💡 毒舌点评 这篇工作最大的亮点在于将“组”作为语音量化的基本单元,并系统性地设计了粗细有序的token序列,这确实比传统逐帧量化更适合后续的语言模型建模,逻辑自洽且实验支撑有力。然而,其核心的token分配器虽然有效,但训练方法(GRPO)的引入略显“重”,对于一个动态分配离散资源的简单策略问题,是否有更轻量优雅的解法值得商榷,且论文最终未能开源代码,让这套精心设计的系统停留在了“可望”的层面。 ...

2026-05-04 · 更新于 2026-06-12 · 3 min · 461 words

Hierarchical Semantic-Acoustic Modeling via Semi-Discrete Residual Representations for Expressive End-to-End Speech Synthesis

📄 Hierarchical Semantic-Acoustic Modeling via Semi-Discrete Residual Representations for Expressive End-to-End Speech Synthesis #语音合成 #自回归模型 #流匹配 #预训练 #端到端 🔥 8.0/10 | 前25% | #语音合成 | #自回归模型 | #流匹配 #预训练 学术质量 7.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Yixuan Zhou(清华大学深圳国际研究生院) 通讯作者:Zhiyong Wu(清华大学深圳国际研究生院) 作者列表:Yixuan Zhou(清华大学深圳国际研究生院),Guoyang Zeng(ModelBest Inc),Xin Liu(ModelBest Inc),Xiang Li(清华大学深圳国际研究生院),Renjie Yu(清华大学深圳国际研究生院),Ziyang Wang(ModelBest Inc),Runchuan Ye(清华大学深圳国际研究生院),Weiyue Sun(ModelBest Inc),Jiancheng Gui(ModelBest Inc),Kehan Li(清华大学深圳国际研究生院),Zhiyong Wu(清华大学深圳国际研究生院),Zhiyuan Liu(清华大学计算机科学与技术系) 💡 毒舌点评 亮点:论文提出的“半离散残差表示”框架设计精巧,通过一个可微的量化瓶颈在单一端到端模型中优雅地实现了语义和声学的隐式解耦,有效规避了传统连续模型的误差累积和离散模型的信息损失,堪称“鱼与熊掌兼得”的架构设计典范。短板:模型的高性能(VoxCPM)严重依赖海量内部数据(1百万小时),而公开验证(VoxCPM-Emilia)的性能与SOTA仍有差距,这使得其宣称的“架构优越性”在多大程度上可迁移到受限数据场景存疑,也削弱了其作为普适解决方案的说服力。 📌 核心摘要 解决的问题:现有端到端语音合成模型面临一个根本权衡:离散token方法稳定但会丢失声学细节(量化天花板),而连续表示方法保留了丰富声学信息但容易在长序列上因语义和声学任务纠缠而产生误差累积,影响稳定性。 方法核心:提出VoxCPM,一个端到端的层次化语义-声学建模框架。其核心是一个可微的有限标量量化(FSQ)瓶颈,它自然诱导出两个专门化模块:文本-语义语言模型(TSLM) 负责生成稳定的语义韵律骨架,残差声学语言模型(RALM) 负责恢复FSQ量化后丢失的精细声学细节。最终,由层次化表示共同引导一个局部扩散Transformer解码器(LocDiT) 生成高保真语音隐变量。 新意:与依赖外部离散语音token化器的多阶段管道不同,该框架将量化作为正则化机制内置于连续数据流中,实现了在单一端到端训练框架内的功能分离,消除了对外部预训练token化器的依赖,并缓解了连续模型中的任务纠缠。 主要结果:在超过1百万小时的双语数据上训练的0.5B参数VoxCPM,在SEED-TTS-EVAL基准上取得了开源系统中的最优性能,英语WER为1.85%,中文CER为0.93%,说话人相似度SIM分别为72.9%和77.2%。关键消融实验证明,去除FSQ瓶颈(w/o FSQ)会导致在困难测试集上性能急剧恶化(中文CER从18.19%升至24.92%),验证了其核心作用。 实际意义:该工作为构建表达力强、稳定性高的端到端语音合成系统提供了新的架构范式,有望推动更自然、更具情感的语音交互技术发展。 主要局限性:SOTA性能严重依赖大规模内部训练数据,在较小公开数据集上的验证(VoxCPM-Emilia)表现虽具竞争力但非顶尖,表明其对数据规模可能较为敏感。此外,框架的整体复杂度(包含LM、RALM、扩散解码器)对部署资源有一定要求。 详细分析 VoxCPM是一个层次化、端到端的自回归语音生成模型,其核心设计是通过内部半离散瓶颈实现语义和声学建模的解耦。 ...

2026-05-04 · 更新于 2026-06-12 · 4 min · 776 words

JavisDiT++: Unified Modeling and Optimization for Joint Audio-Video Generation

📄 JavisDiT++: Unified Modeling and Optimization for Joint Audio-Video Generation #音视频 #流匹配 #扩散模型 #多模态模型 #偏好优化 🔥 9.0/10 | 前25% | #音视频 | #流匹配 | #扩散模型 #多模态模型 学术质量 6.5/7 | 选题价值 1.8/2 | 复现加成 0.8 | 置信度 高 👥 作者与机构 第一作者:Kai Liu (浙江大学) 通讯作者:Hao Fei (新加坡国立大学) 作者列表: Kai Liu (浙江大学) Yanhao Zheng (未说明) Kai Wang (多伦多大学) Shengqiong Wu (新加坡国立大学) Rongjunchen Zhang (HiThink Research) Jiebo Luo (罗切斯特大学) Dimitrios Hatzinakos (多伦多大学) Ziwei Liu (南洋理工大学) Hao Fei (新加坡国立大学) Tat-Seng Chua (新加坡国立大学) 💡 毒舌点评 这篇论文的亮点在于提出了一个极其简洁有效的统一架构(MS-MoE)和精确的时间对齐策略(TA-RoPE),以相对较低的模型参数(2.1B)和数据量(~1M)达到了接近商业模型(Veo3)的SOTA性能。短板是其核心贡献高度依赖特定的视频生成骨干(Wan2.1),这虽然加速了研发,但也意味着其音视频联合生成的泛化能力与独立性有待进一步验证,且其对训练数据质量与分布的敏感性(见消融研究)暗示了在开放域场景下的潜在挑战。 ...

2026-05-04 · 更新于 2026-06-12 · 2 min · 327 words

MMAudio-LABEL: Audio Event Labeling via Audio Generation for Silent Video

📄 MMAudio-LABEL: Audio Event Labeling via Audio Generation for Silent Video #音频生成 #流匹配 #音频事件检测 #多任务学习 #多模态模型 ✅ 7.5/10 | 前25% | #音频生成 | #流匹配 | #音频事件检测 #多任务学习 | arxiv 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度 中 👥 作者与机构 第一作者:Kazuya Tateishi(索尼集团,日本) 通讯作者:未说明 作者列表:Kazuya Tateishi(索尼集团,日本)、Akira Takahashi(索尼集团,日本)、Atsuo Hiroe(索尼集团,日本)、Hirofumi Takeda(索尼集团,日本)、Shusuke Takahashi(索尼集团,日本)、Yuki Mitsufuji(索尼集团,日本 & 索尼AI,美国) 💡 毒舌点评 这篇论文的亮点在于它巧妙地利用视频到音频生成任务作为“桥梁”,将音频事件检测任务“融入”生成过程本身,通过联合建模显著提升了事件预测的准确性和生成音频的质量,这是一个思路清晰且实用的改进。但其短板也很明显:所有实验仅在一个高度受控、类别单一的“敲击”数据集(Greatest Hits)上进行,结论对于更复杂、声学环境多样的真实世界场景(如电影、自然录音)的泛化能力未经检验,显得说服力不足。 🔗 开源详情 代码:论文中未提及代码链接。 模型权重:论文中未提及预训练或微调后模型权重的下载链接。 数据集:论文中未提及具体的数据集下载链接或开源协议,仅说明使用了Greatest Hits dataset。 Demo:论文中未提及在线演示链接。 复现材料:论文中未提及训练配置文件、检查点文件或代码附录等具体复现材料的下载链接。但文中提供了详细的实现细节(3.2节),包括硬件环境、优化器、学习率策略、训练步数等超参数信息。 论文中引用的开源项目: MMAudio:论文中作为基础模型引用,但未提供其开源仓库链接。 MMAudioSep:论文中作为下游任务应用引用,但未提供链接。 VGGish:论文中作为基线模型引用,但未提供链接。 论文中引用的其他方法(如CondFoley等)也均未提供具体开源链接。 补充信息 [细节详述] 补充:论文明确指出,对于材质分类任务中官方测试集未涵盖的材料类别,评估时使用了验证集中的样本(“For materials not present in the test split, we used samples from the validation split.”)。这一做法可能影响评估结果的严格性与公平性,值得在复现和理解其性能数据时加以注意。 [实验结果] 补充:在材质分类任务的讨论中,论文具体指出了即使经过微调,模型在识别地毯、石膏板和玻璃等形状特征不明显的材质时仍面临挑战(“recognizing materials with less distinctive shapes, such as carpet, drywall, and glass remains a challenge”)。这指出了当前方法在细粒度视觉-声音关联建模上的局限性。 [实验结果] 补充:为确保测试时输入时长(2秒)与训练时(8秒)匹配,论文采用了循环拼接(loop and concatenate)策略(“we looped and concatenated each clip to 8 s before running inference. We used the predictions corresponding to the first 2 s for evaluation.”)。这是一种常见的处理方式,但可能引入不自然的重复内容,论文未讨论其对生成音频质量或事件检测的潜在影响。 [细节详述] 补充:论文在讨论联合头架构时指出,为将事件逻辑值(logits)与音频潜变量拼接,需要扩展潜变量维度。具体地,起始点检测任务为21维(20维音频+1维事件),材质分类任务为37维(20维音频+17维事件),并在流预测头输出后进行拆分(“we augmented the audio latent dimensionality with the number of event classes… and split them into audio and event components after the flow head.”)。 📌 核心摘要 这篇论文针对从静音视频生成音频的实用化需求,提出了MMAudio-LABEL框架。其要解决的问题是,现有方法要么只生成音频而缺乏事件级信息,要么采用“生成后检测”的流水线,易受误差累积影响且丢失视觉上下文。方法核心是构建一个“事件感知”的生成框架,联合学习音频生成和帧级声音事件预测,而不是后接独立的分类器。与已有方法相比,新在提出了“联合头”(Joint Heads)架构,将事件逻辑值视为连续变量并加入噪声,与音频潜变量拼接后,由统一的流匹配生成头在同一个生成轨迹内联合预测音频和事件,从而在共享的潜空间中更好地融合视觉、音频和事件信息。主要实验结果显示,在Greatest Hits数据集上,该方法在起始点检测(Onset Detection)的准确率从基线的46.7%提升至75.0%,材料分类(Material Classification)的准确率从40.6%提升至61.0%,同时生成音频的质量(MCD指标)也得到提升。实际意义在于,该方法为视频到音频合成提供了更可解释和实用的输出(音频+对齐的事件标签),有助于音视频内容创作。主要局限性是评估局限于特定的打击类动作数据集,缺乏更广泛音频事件和复杂场景的验证;此外,论文未提供开源代码或模型权重,影响了可复现性。 ...

2026-05-04 · 更新于 2026-06-12 · 2 min · 373 words

NExT-OMNI: Towards Any-to-Any Omnimodal Foundation Models with Discrete Flow Matching

📄 NExT-OMNI: Towards Any-to-Any Omnimodal Foundation Models with Discrete Flow Matching #多模态模型 #流匹配 #跨模态检索 #语音对话系统 #模型评估 🔥 8.0/10 | 前25% | #多模态模型 | #流匹配 | #跨模态检索 #语音对话系统 学术质量 5.8/7 | 选题价值 1.7/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Run Luo (中国科学院深圳先进技术研究院、中国科学院大学) 通讯作者:未明确说明(论文中未以“Corresponding author”标注单独作者,但提供了多个联系邮箱) 作者列表: Run Luo (中国科学院深圳先进技术研究院, 中国科学院大学) Xiaobo Xia (新加坡国立大学, 中国科学技术大学) * Lu Wang (Rtizz-AI) Longze Chen (中国科学院深圳先进技术研究院, 中国科学院大学) Renke Shan (Rtizz-AI) Jing Luo (中国科学院深圳先进技术研究院, 中国科学院大学) Min Yang (中国科学院深圳先进技术研究院, 深圳大学) * Tat-Seng Chua (新加坡国立大学) 标注的作者在作者列表中被提及为通讯作者。 💡 毒舌点评 亮点在于论文提出了一个干净利落的统一框架(DFM),避免了自回归范式在理解/生成任务间的先天矛盾,并且在跨模态检索这类需要深度融合表征的任务上展现了架构优势。短板在于其核心生成能力(如文本生成图像)的绝对质量与FLUX等专用模型的差距可能被“统一”的光环所掩盖,且论文中“动态长度生成策略”等优化的具体效果有待更细粒度的分析。 ...

2026-05-04 · 更新于 2026-06-12 · 2 min · 316 words

PrismAudio: Decomposed Chain-of-Thought and Multi-dimensional Rewards for Video-to-Audio Generation

📄 PrismAudio: Decomposed Chain-of-Thought and Multi-dimensional Rewards for Video-to-Audio Generation #音频生成 #强化学习 #扩散模型 #流匹配 #基准测试 🔥 9.0/10 | 前10% | #音频生成 | #强化学习 | #扩散模型 #流匹配 学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 1.0 | 置信度 高 👥 作者与机构 第一作者:Huadai Liu(香港科技大学; 阿里巴巴通义团队) 通讯作者:Wei Xue(香港科技大学) 作者列表:Huadai Liu(香港科技大学; 阿里巴巴通义团队)、Kaicheng Luo(阿里巴巴通义团队)、Wen Wang(阿里巴巴通义团队)、Qian Chen(阿里巴巴通义团队)、Peiwen Sun(香港中文大学)、Rongjie Huang(香港中文大学)、Xiangang Li(阿里巴巴通义团队)、Jieping Ye(阿里巴巴通义团队)、Wei Xue(香港科技大学) 💡 毒舌点评 亮点:论文首次将强化学习与分解式思维链(CoT)相结合,应用于视频到音频生成,巧妙地将一个复杂的多目标优化问题分解为四个可解释、可优化的维度,并提供了高效训练算法(Fast-GRPO)和高质量评测基准(AudioCanvas)。短板:该框架高度依赖一个强大的多模态语言模型(如VideoLLaMA2)来生成高质量的CoT训练数据,且音频基础模型本身也采用了多种现有先进组件(如VideoPrism、T5-Gemma),其“从零到一”的原创性贡献相对有限。 🔗 开源详情 代码:论文承诺将公开完整代码,但未提供具体仓库链接。 模型权重:论文承诺将公开所有模型权重。 数据集:论文承诺将公开自建的AudioCanvas基准测试集。 Demo:论文中未提及在线演示链接。 复现材料:论文提供了非常详细的附录,包括训练细节、超参数、资源需求、CoT生成Prompt等,复现信息充分。 论文中引用的开源项目:依赖的开源项目/模型包括:Stability AI的VAE、VideoPrism、T5-Gemma、VideoLLaMA2、MS-CLAP、Synchformer、Meta Audiobox Aesthetics、StereoCRW、Gemini 2.5 Pro(用于数据生成)。 📌 核心摘要 本文针对视频到音频(V2A)生成任务中存在的“目标纠缠”(语义、时序、美学、空间等目标相互冲突)和缺乏人类偏好对齐的问题,提出了PrismAudio框架。其核心方法是将单一的推理路径分解为四个专门的CoT模块(语义、时序、美学、空间),并为每个模块设计对应的奖励函数,通过多维强化学习进行联合优化。与现有方法相比,新在:1)首次在V2A中整合分解CoT与多维RL;2)提出Fast-GRPO算法,通过混合ODE-SDE采样大幅降低训练开销;3)构建了更严谨的AudioCanvas基准测试集(包含300类单事件和501个多事件场景)。实验结果表明,在VGGSound测试集上,PrismAudio在语义一致性(CLAP: 0.47 vs. 0.43)、时序同步性(DeSync: 0.41 vs. 0.55)和空间准确性(CRW: 7.72 vs. 13.47)等指标上均优于此前SOTA的ThinkSound,并在主观评测中获得最高MOS分数。其实际意义在于为V2A生成提供了一个可解释、可精细控制且对齐人类偏好的新范式。主要局限性在于训练过程依赖LLM生成的CoT数据和多阶段训练,计算成本较高。 ...

2026-05-04 · 更新于 2026-06-12 · 2 min · 316 words

Resp-Agent: An Agent-Based System for Multimodal Respiratory Sound Generation and Disease Diagnosis

📄 Resp-Agent: An Agent-Based System for Multimodal Respiratory Sound Generation and Disease Diagnosis #音频分类 #多模态模型 #流匹配 #数据增强 #生物声学 🔥 9.0/10 | 前10% | #音频分类 | #多模态模型 | #流匹配 #数据增强 学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 1.0 | 置信度 高 👥 作者与机构 第一作者:Pengfei Zhang (香港科技大学(广州)) 通讯作者:Li Liu (香港科技大学(广州), avrillliu@hkust-gz.edu.cn) 作者列表:Pengfei ZHANG (香港科技大学(广州)), Tianxin Xie (香港科技大学(广州)), Minghao Yang (香港科技大学(广州)), Li Liu* (香港科技大学(广州)) 💡 毒舌点评 亮点:这篇论文最漂亮的地方在于它提出了一个“分析-生成”闭环的智能体系统,用LLM(Thinker-A2CA)动态决定“合成什么”来弥补诊断器的短板,把数据增强从一个被动的预处理步骤变成了主动的、对抗性的课程学习,这个系统设计思想很有启发性。 短板:不过,整个系统有点像个精心组装的乐高,依赖多个重型组件(LLM, BEATs, Longformer, 流匹配模型),对于呼吸音这个相对垂直的应用场景,其工程复杂度和算力需求是否与性能增益完全匹配,值得商榷。另外,生成的“合成临床音频”虽然用于训练有效,但缺乏真实生理细节的验证,其临床保真度仍需医生在严格双盲测试中评判。 📌 核心摘要 要解决的问题:深度学习在呼吸音分析中面临两大挑战:一是将音频信号转为频谱图会导致瞬态事件(如啰音)的信息损失;二是缺乏大规模、高质量的多模态(音频+临床文本)标注数据,且存在严重的类别不平衡。 方法核心:提出Resp-Agent,一个由中央控制器(Thinker-A2CA)编排的多智能体闭环系统。该系统能主动分析诊断器的弱点,并调度生成器进行针对性合成,从而将诊断与生成任务统一。诊断器采用“模态编织”将文本与音频token融合,并用稀疏音频锚点捕捉瞬态事件;生成器采用两阶段设计,先用LLM在文本诊断和参考音频风格条件下生成离散音频单元,再用流匹配解码器重建波形。 新在何处:1) 系统范式:首次将呼吸音的分析(诊断)和生成整合到一个由LLM驱动的闭环智能体框架中。2) 诊断器架构:提出基于稀疏全局注意力的“模态编织”和“音频锚点”机制,实现高效且精细的文本-音频跨模态对齐。3) 生成器设计:将文本LLM改造为可控的多模态音频单元生成器,并采用流匹配进行波形重建。4) 基准数据:构建并开源了首个大规模、多来源、跨机构的多模态呼吸音基准Resp-229k(22.9万条记录)。 主要实验结果:在ICBHI基准上,Resp-Agent的诊断性能(ICBHI Score 72.7%)超越先前最佳音频模型超过5个百分点。在自建的跨机构Resp-229k基准上,使用Thinker指导合成的平衡数据后,多模态诊断器的宏观F1从0.212大幅提升至0.598,证实了闭环生成策略的有效性。生成器在可控性(风格/内容解耦)和保真度(FAD 1.13)上也优于强基线(如微调的StableAudio Open)。关键实验结果见下表: 模型/方法 数据集 指标 原始(不平衡) 平衡后 诊断器对比 Conformer (音频基线) Resp-229k Test-CD Macro-F1 0.1935 0.5360 Resp-Agent Diagnoser (Ours) Resp-229k Test-CD Macro-F1 0.2118 0.5980 生成器策略对比 No-Synth (基线) Resp-229k Test-CD Macro-F1 0.212 - Class-Prior Rebalancing Resp-229k Test-CD Macro-F1 - 0.512 Thinker-A2CA (Ours) Resp-229k Test-CD Macro-F1 - 0.598 生成器音频保真度对比 StableAudio Open (微调) 个体化重建 FAD ↓ 1.54 - Resp-Agent Generator (Ours) 个体化重建 FAD ↓ 1.13 - 实际意义:为数据稀缺且不平衡的医疗音频分析提供了一种强大的范式,即通过智能体驱动的闭环生成来主动构建更鲁棒的模型。开源的Resp-229k基准和代码将加速呼吸音领域的多模态研究。 主要局限性:1) 系统复杂度高,涉及多个大模型的训练与协调。2) 生成的合成音频虽用于训练有效,但其真实性和临床细节(如相位、微结构)仍需更严格的评估。3) 评估主要集中在诊断性能,对生成音频的直接临床效用(如用于教学或模拟)验证不足。 🏗️ 模型架构 Resp-Agent是一个由中央控制器协调的多智能体系统,包含三个核心模块:Thinker(规划者)、Generator(生成器) 和 Diagnoser(诊断器),形成一个“诊断->发现问题->指导合成->改进诊断”的闭环。 ...

2026-05-04 · 更新于 2026-06-12 · 3 min · 545 words

Scaling Speech Tokenizers with Diffusion Autoencoders

📄 Scaling Speech Tokenizers with Diffusion Autoencoders #语音识别 #语音合成 #扩散模型 #流匹配 #语音大模型 🔥 8.5/10 | 前25% | #语音识别 | #扩散模型 | #语音合成 #流匹配 学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Yuancheng Wang (Meta超级智能实验室、香港中文大学(深圳)) 通讯作者:未明确说明(论文中注明“*Work done during an internship at Meta”,但未指明通讯作者) 作者列表:Yuancheng Wang(Meta超级智能实验室、香港中文大学(深圳)),Zhenyu Tang(Meta超级智能实验室),Yun Wang(Meta超级智能实验室),Arthur Hinsvark(Meta超级智能实验室),Yingru Liu(Meta超级智能实验室),Yinghao Aaron Li(Meta超级智能实验室),Kainan Peng(Meta超级智能实验室),Junyi Ao(Meta超级智能实验室、香港中文大学(深圳)),Mingbo Ma(Meta超级智能实验室),Mike Seltzer(Meta超级智能实验室),Qing He(Meta超级智能实验室),Xubo Liu(Meta超级智能实验室) 💡 毒舌点评 亮点:论文抓住了语音标记化器“既要压缩效率,又要重建质量,还要语义丰富”的“不可能三角”,用一个统一的扩散自编码器框架给出了一个极具竞争力的解,并在12.5Hz的极低帧率下将多项指标推向了新高度。短板:尽管提出了shortcut fine-tuning等解码加速方案,但扩散模型固有的多步采样本质仍是其在实时流式应用中的阿喀琉斯之踵,论文对此的解决方案(如轻量扩散头)效果有待更严苛场景的验证。 🔗 开源详情 代码:论文未提及具体代码仓库链接,但在附录D提供了详细的伪代码,并承诺在发表后发布。 模型权重:承诺在发表后发布预训练模型检查点(在公开研究数据集上)。 数据集:使用200万小时内部数据,未提及公开。 Demo:提供了演示样例的链接 https://sitok-demo.github.io/。 复现材料:提供了非常详细的模型架构(附录A)、训练循环伪代码(附录D.2)、超参数(附录D.3)和评估协议。 依赖的开源项目:论文提到了依赖的开源项目或工具,如Llama Transformer架构、Vocos声码器、Whisper-large-v3用于评估。 📌 核心摘要 本文针对语音标记化器在低比特率下面临的语义编码、声学重建与压缩效率难以兼顾的核心问题,提出了Speech Diffusion Tokenizer (SiTok)。其核心是将向量量化与扩散自编码器进行端到端联合优化,使离散编码既能高度压缩,又与生成式解码器的分布显式对齐。与先前两阶段或仅依赖重建损失的方法相比,SiTok创新性地引入了CTC语义正则化,直接对量化后的潜在空间施加文本监督,迫使离散token保留丰富的语言结构。实验表明,在极端的12.5 Hz token率和200 bits/s比特率下,SiTok在语音重建(如WER 3.34, SIM 0.682)和下游理解任务(如ASR WER 4.95)上均显著优于强基线。此外,通过快捷微调技术,解码步骤可缩减至2-4步而几乎不损质量。该工作为构建统一的语音语言模型提供了一个高效且全面的接口,但其在流式生成和多语言支持上的潜力有待进一步挖掘。 ...

2026-05-04 · 更新于 2026-06-12 · 2 min · 342 words

Stable Video Infinity: Infinite-Length Video Generation with Error Recycling

📄 Stable Video Infinity: Infinite-Length Video Generation with Error Recycling #视频生成 #扩散模型 #流匹配 #多模态模型 ✅ 7.0/10 | 前25% | #视频生成 | #扩散模型 | #流匹配 #多模态模型 学术质量 5.5/7 | 选题价值 1.0/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Wuyang Li (VITA@EPFL) 通讯作者:未说明 (论文末尾致谢部分提及Alexandre Alahi教授,但未明确标注为通讯作者) 作者列表:Wuyang Li (VITA@EPFL), Wentao Pan (VITA@EPFL), Po-Chien Luan (VITA@EPFL), Yang Gao (VITA@EPFL), Alexandre Alahi (VITA@EPFL) 💡 毒舌点评 论文最大的亮点在于提出了“错误回收”这一新颖且直觉上合理的范式来解决长视频生成中的误差累积问题,通过让模型“吃自己生成的错误”来提升鲁棒性,理论分析深刻且实验效果显著。短板在于其核心理论框架(尤其是错误注入与计算的数学部分)稍显复杂,部分实现细节(如错误银行的动态更新)的工程可行性分析略显不足,且在超长视频(15分钟)展示中,角色身份一致性等更高级挑战的解决方案尚处萌芽阶段。 🔗 开源详情 代码:论文提及将开源完整代码库,项目主页为 https://stable-video-infinity.github.io/homepage/,但具体代码仓库链接未在文中提供。 模型权重:论文承诺将提供模型,但具体发布平台(如Hugging Face)和权重链接未提及。 数据集:论文承诺将公开所有基准数据集。 Demo:提供了项目主页,但未明确说明是否提供在线交互式Demo。 复现材料:论文提供了详细的超参数表(表12)、数据集描述和部分实现细节(如基于Wan 2.1,使用LoRA),为复现提供了重要信息。 引用的开源项目:明确基于 Wan 2.1 视频生成模型;音频说话任务参考了 Hallo 3;舞蹈任务参考了 UniAnimate-DiT;自动提示流生成使用了 Qwen2.5 大语言模型。 论文中未提及开源计划的具体时间表或权重文件的最终发布地址。 📌 核心摘要 这篇论文旨在解决长视频生成中的关键瓶颈——误差累积(drifting)问题。现有方法多通过调整噪声调度器或引入参考帧来缓解而非根除误差,导致生成的视频长度有限且场景单一。为此,论文提出了Stable Video Infinity (SVI),其核心是“错误回收微调”方法:在训练时,人为地将模型(DiT)历史生成中可能出现的误差注入到干净的输入数据中,模拟推理时的误差累积场景;模型随后学习从这些“被污染”的输入中恢复出正确的预测结果,相当于学会了自我纠错。与已有方法相比,SVI的根本创新在于它弥合了训练时假设输入无误差与推理时条件中包含误差之间的“假设鸿沟”,使模型能够主动修正错误而非被动缓解。实验在一致性、创意和条件生成三个基准上进行,结果显示SVI在视频质量、一致性和动态程度等核心指标上均显著超越Wan 2.1、StreamingT2V、FramePack等最新方法(例如,在超长一致性生成中,SVI-Shot的Subject Consistency达到97.89%,比最强基线FramePack高出约11%)。该工作的实际意义在于首次将视频生成从“秒级”推进到“无限长度”,并支持文本流、音频、骨架等多条件控制。主要局限性包括:训练数据规模较小(仅数千条视频),可能导致风格泛化不足;当前版本为并行生成,暂不支持实时流式输出;以及超长片段中的身份一致性等高级语义控制仍有提升空间。 ...

2026-05-04 · 更新于 2026-06-12 · 2 min · 280 words

Syncphony: Synchronized Audio-to-Video Generation with Diffusion Transformers

📄 Syncphony: Synchronized Audio-to-Video Generation with Diffusion Transformers #音视频 #扩散模型 #流匹配 #跨模态 #生成模型 🔥 8.0/10 | 前25% | #音视频 | #扩散模型 | #流匹配 #跨模态 学术质量 5.8/7 | 选题价值 1.8/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Jibin Song (延世大学人工智能系, CineLingo) 通讯作者:Jibin Song (邮箱:sjbpsh1@yonsei.ac.kr, jibinsong@cinelingo-labs.com) 作者列表:Jibin Song (延世大学, CineLingo)、Mingi Kwon (延世大学, CineLingo)、Jaeseok Jeong (延世大学, CineLingo)、Youngjung Uh (延世大学, CineLingo) 💡 毒舌点评 亮点:本文没有空谈同步的重要性,而是针对“MSE损失对动态区域监督不足”和“条件引导策略”这两个关键痛点,分别提出了动作感知损失(Loss层面)和音频同步引导(推理层面)的成套解决方案,并辅以新的评估指标CycleSync,形成了一个完整、闭环的技术方案,实验也证明了有效性。 短板:新提出的CycleSync指标本质上是“视频->音频->对比”的循环测试,其准确性严重依赖于所使用的预训练V2A模型的保真度和泛化能力,这给评估引入了一个不透明的、外部的“黑箱”偏差,使得绝对分数的解读需要更加谨慎。 🔗 开源详情 代码:论文明确承诺将发布代码,但文中未提供具体的GitHub或其他代码仓库链接。 模型权重:论文明确承诺将发布训练好的模型,但未提供具体链接。 数据集:使用的是公开数据集AVSync15和TheGreatestHits,论文中未提及是否发布新的数据集。 Demo:论文未提及提供在线演示。 复现材料:提供了详细的实现细节,包括模型架构选择、损失函数公式、训练硬件、训练步数、关键超参数(如λ, w, δ, 批大小虽未明确但其他信息详尽),以及用户研究设置。这些信息充足,具备较高的可复现性。 论文中引用的开源项目: 视频生成骨干:Pyramid Flow (Jin et al., 2024a) 音频编码器:DenseAV (Hamilton et al., 2024) 文本编码器:CLIP (Radford et al., 2021) V2A模型(用于CycleSync评估):V-AURA (Viertola et al., 2025) 其他对比基线:TempoTokens (Yariv et al., 2023), AVSyncD (Zhang et al., 2024) 📌 核心摘要 本文致力于解决音频到视频(A2V)生成中,现有模型难以实现音频与视频运动之间精细时间同步的问题。论文提出了Syncphony,一个基于预训练扩散Transformer(DiT)骨干的生成框架。其方法核心是在DiT架构的后期层中引入音频交叉注意力,并通过两个关键技术提升同步性能:1) 动作感知损失,在训练时对高运动区域施加更大的损失权重,引导模型更关注与音频事件因果相关的运动;2) 音频同步引导,在推理时通过一个禁用了音频层的“异步模型”来引导完整模型,放大音频信号对运动的影响而不损害视觉质量。与已有的间接映射(如调制注意力权重、投影到文本空间)或从零构建时序层的方法不同,本文直接、精细地注入音频特征,并利用强大的预训练视频骨干保证生成质量。为评估同步性,论文还提出了新指标CycleSync,通过视频重建音频来间接衡量生成视频是否保留了原始音频的时序结构。在AVSync15和TheGreatestHits数据集上的实验表明,Syncphony在同步准确性(CycleSync得分更高)和视觉质量(FVD/FID更低)上均优于现有方法。该工作的实际意义在于为高质量、高同步性的视频生成提供了有效方案,但其局限性包括:动作感知损失的权重基于真值运动幅度,未显式区分音频相关与无关运动;CycleSync指标的可靠性受底层V2A模型影响;生成的视频分辨率(380×640)和时长(5秒)仍有提升空间。 ...

2026-05-04 · 更新于 2026-06-12 · 2 min · 358 words