Lip Forcing: Few-Step Autoregressive Diffusion for Real-time Lip Synchronization

📄 Lip Forcing: Few-Step Autoregressive Diffusion for Real-time Lip Synchronization #自回归模型 #扩散模型 #流式处理 6.8/10 | 创新 1.5/2 | 严谨 1.2/1.5 | 实验 1/1.5 | 清晰 1/1 | 影响 0.4/1.5 | 开源 0/1.5 | 复现 0.5/0.5 | 工程 1.2/1.5 ✅ 6.8/10 | 前50% | #语音合成 | #自回归模型 | #扩散模型 #流式处理 | arxiv 👥 作者与机构 论文标题: Lip Forcing: Few-Step Autoregressive Diffusion for Real-time Lip Synchronization arXiv ID: 2606.11180 作者: Paul Hyunbin Cho, Jinhyuk Jang, SeokYoung Lee, Joungbin Lee, Siyoon Jin, Heeseong Shin, Jung Yi, Yunjin Park, Chulmin Park, Seungryong Kim† 机构: 1KAIST AI, 2AIPARK ...

2026-06-11 · 更新于 2026-06-12 · 3 min · 437 words

ANCHOR: Autoregressive Non-intrusive Chunk-Ordered Refinement for Joint Multi-Resolution Speech Quality Modeling

📄 ANCHOR: Autoregressive Non-intrusive Chunk-Ordered Refinement for Joint Multi-Resolution Speech Quality Modeling #语音质量评估 #自回归模型 #多任务学习 #流式处理 8/10 | 创新 1.4/2 | 严谨 1.1/1.5 | 实验 1.3/1.5 | 清晰 1/1 | 影响 0.8/1.5 | 开源 0.4/1.5 | 复现 0.5/0.5 | 工程 1.5/1.5 🔥 8/10 | 前25% | #语音质量评估 | #多任务学习 | #自回归模型 #流式处理 | arxiv 👥 作者与机构 Zhuoyan Tao (University of Southern California, USA), Jiatong Shi (Carnegie Mellon University, USA), Hye-jin Shim, Shinji Watanabe ...

2026-06-10 · 更新于 2026-06-12 · 2 min · 318 words

Overcoming Decoder Inconsistencies in Whisper for Dravidian and Low-Resource Languages

📄 Overcoming Decoder Inconsistencies in Whisper for Dravidian and Low-Resource Languages #语音识别 #低资源 #多语言 #自回归模型 6.2/10 | 创新 1.3/2 | 严谨 1/1.5 | 实验 1.1/1.5 | 清晰 1/1 | 影响 0.5/1.5 | 开源 0.2/1.5 | 复现 0.5/0.5 | 工程 0.6/1.5 ✅ 6.2/10 | 后50% | #语音识别 | #低资源 | #多语言 #自回归模型 | arxiv 👥 作者与机构 作者:Venkata Kumar Tripathi, Chowdam Kumar, Pankaj Wasnik 机构:Media Analysis Group, Sony Research India 邮箱:kumud.tripathi@sony.com, chowdam.kumar@sony.com, pankaj.wasnik@sony.com 💡 毒舌点评 这篇论文切中了多语言ASR中一个真实且重要的痛点:Whisper等模型在达罗毗荼语上的表现显著落后于印地语等。作者通过语言学分析将问题归因于形态复杂性导致的解码器注意力失衡,这个动机是合理且有启发性的。提出的Weighted-Attention和Self-Conditioning是直接针对这一问题的工程化尝试,方法本身是合理且可理解的。然而,最大的问题在于贡献的“天花板”较低。两个模块都是对现有Transformer解码器的微小调整(门控和残差连接),创新深度有限。实验规模(仅微调解码器、使用Medium模型、8种印度语言+2种泛化语言)和与当前最强基线(如Whisper-large-v3或专有SOTA)的差距分析不足,使得结论的说服力打了折扣。更关键的是,完全未开源,对于一项声称解决“公平性”问题的工作来说,这限制了其社会影响力和可复现性。总的来说,这是一篇扎实的、解决特定问题的工作,但离顶会论文所期望的突破性贡献仍有距离。 ...

2026-06-09 · 更新于 2026-06-12 · 2 min · 396 words

TLDR: Compressing Audio Tokens for Efficient Autoregressive Text-to-Speech

📄 TLDR: Compressing Audio Tokens for Efficient Autoregressive Text-to-Speech #语音合成 #自回归模型 #参数高效微调 #模型压缩 8.2/10 | 创新 1.5/2 | 严谨 1.3/1.5 | 实验 1.2/1.5 | 清晰 1/1 | 影响 1.5/1.5 | 开源 0.2/1.5 | 复现 0.5/0.5 | 工程 1/1.5 🔥 8.2/10 | 前25% | #语音合成 | #参数高效微调 | #自回归模型 #模型压缩 | arxiv 👥 作者与机构 Yejin Lee, Junwon Moon, Hyoeun Kim, Hyunjin Choi:成均馆大学(Sungkyunkwan University) Heeseung Kim:首尔市立大学(University of Seoul) Kyuhong Shim:成均馆大学(Sungkyunkwan University) 💡 毒舌点评 这篇论文的立意很好,直击了当前AR-TTS模型“又慢又占内存”的痛点。方法设计上,“换汤不换药”(用patch替代token)的思路虽然不算石破天惊,但胜在实用,能直接嫁接到现有模型上,工程价值明显。然而,几个“但是”不得不提:1) 实验上有点“温室里的花朵”,只在CosyVoice3这一个“温室”里做实验,数据也是相对纯净的LibriTTS,面对更多样、更嘈杂的现实数据时,性能如何是个问号;2) “固定patch大小”像是给模型戴上了镣铐,语音的疏密变化明显,自适应patch才是更优雅的解法;3) 主观评测就找了25个英语母语者,这个样本量在顶会论文里略显寒酸,说服力打了折扣。总的来说,这是一篇扎实的工程优化论文,但离“令人眼前一亮”的理论突破或全面系统的实验验证还有距离。 ...

2026-06-09 · 更新于 2026-06-12 · 2 min · 319 words

dots.tts Technical Report

📄 dots.tts Technical Report #语音合成 #流匹配 #自回归模型 #多语言 #低资源 #数据增强 #模型压缩 9/10 | 创新 1.5/2 | 严谨 1.2/1.5 | 实验 1/1.5 | 清晰 1/1 | 影响 1.2/1.5 | 开源 1.5/1.5 | 复现 0.5/0.5 | 工程 1.1/1.5 🔥 9/10 | 前25% | #语音合成 | #数据增强 | #流匹配 #自回归模型 | arxiv 👥 作者与机构 作者:Shi Lian, Changtao Li, Bohan Li, Hankun Wang, Da Zheng, Junfeng Tian, Yufeng Ma, Colin Zhang, Kai Yu。 机构:dots团队,小红书公司(Xiaohongshu Inc.),上海交通大学X-LANCE实验室。 ...

2026-06-08 · 更新于 2026-06-12 · 1 min · 188 words

Read What You Hear: Reference-Free Hypotheses Evaluation with Acoustic Discrepancy

📄 Read What You Hear: Reference-Free Hypotheses Evaluation with Acoustic Discrepancy #语音识别 #语音合成 #自回归模型 #无监督学习 #鲁棒性 #多任务学习 8.6/10 | 创新 1.7/2 | 严谨 1.4/1.5 | 实验 1.4/1.5 | 清晰 1/1 | 影响 1.3/1.5 | 开源 0/1.5 | 复现 0.3/0.5 | 工程 1.5/1.5 🔥 8.6/10 | 前25% | #语音识别 | #多任务学习 | #语音合成 #自回归模型 | arxiv 👥 作者与机构 作者:Zhihan Li, Hankun Wang, Yiwei Guo, Bohan Li, Kai Xie, Yu Chen(论文中作者列表顺序与此不同,但姓名与邮箱可对应) 机构:X-LANCE Lab, School of Computer Science, Shanghai Jiao Tong University, China;MoE Key Lab of Artificial Intelligence, Jiangsu Key Lab of Language Computing, China(合作机构) ...

2026-06-04 · 更新于 2026-06-12 · 1 min · 121 words

LiveBand: Live Accompaniment Generation in the Audio Domain

📄 LiveBand: Live Accompaniment Generation in the Audio Domain #对抗训练 #自回归模型 #生成对抗网络 8/10 | 创新 1.5/2 | 严谨 1.3/1.5 | 实验 1/1.5 | 清晰 1/1 | 影响 1.2/1.5 | 开源 0.2/1.5 | 复现 0.5/0.5 | 工程 1.3/1.5 🔥 8/10 | 前25% | #音乐生成 | #对抗训练 | #自回归模型 #生成对抗网络 | arxiv 👥 作者与机构 索尼计算机科学实验室(Sony Computer Science Laboratories, SCS Paris) 💡 毒舌点评 这篇论文瞄准了一个非常具体且困难的实际问题:如何在零前瞻(lookahead)的严格实时约束下,根据混合音频流生成伴奏。它提出的解决方案核心思想——用对抗训练替代自回归损失以消除教师强制偏差——是清晰且合理的。然而,论文的评估部分存在显著的漏洞,严重削弱了其结论的可信度。主观测试中,低质量锚点在“一致性”上的得分竟高于基线模型,这一反常结果未得到任何解释或讨论,暴露出实验设计的重大缺陷。此外,FAD等客观指标在部分配置下优于真实音频,这更可能指向评估指标的局限性或生成模式的坍塌,而非模型真的超越了人类水平,但论文对此缺乏批判性分析。在声称解决了“根本性障碍”之前,先得把自家后院的篱笆扎牢。技术细节扎实,但实验论证链条的这一环太薄弱了。 📌 核心摘要 问题背景:解决在严格因果约束和实时延迟要求下,根据实时输入的混合音频(mix)生成高质量音乐伴奏(accompaniment)的任务。传统方法依赖教师强制训练,导致训练与推理间存在分布偏移(暴露偏差),需要未来信息前瞻(lookahead)来维持一致性。 核心方法:提出LiveBand系统,它在一个预训练的因果音频自编码器(CoDiCodec的因果变体)的连续潜在空间中训练一个因果Transformer生成器。生成器每一步仅接收因果可用的混合上下文和独立高斯噪声,不接收之前生成的目标隐状态,从而在训练时即可实现与推理完全匹配的序列生成,消除了暴露偏差。对抗性训练由一个非因果的卷积判别器提供序列级监督,评估完整生成序列的真实性。 主要贡献:1. 提出首个无需未来信息前瞻的严格因果Transformer,用于实时音乐伴奏生成。2. 通过设计实现了训练与推理的完全匹配(平行掩码前向传播与自回归推理等价),无需序列回滚即可消除教师强制带来的暴露偏差。3. 提出一种自适应梯度惩罚权重(AdaGP),通过维持目标判别器优势来稳定对抗训练,减少超参数调整。 实验数据集:主要使用Slakh2100数据集的官方划分。另有一个基于约2万条非合成多轨立体声录音的内部语料库,仅用于训练一个CLAP条件变体(LiveBand_int)。 评估指标:使用Fréchet Audio Distance(FAD,VGGish和CLAP嵌入空间,↓)、节拍对齐F1分数(BA F1,↑)、COCOLA(衡量混合-伴奏一致性,包括full/harm/perc版本,↑)等客观指标,并进行了主观听音测试评估音频质量和混合一致性。同时报告了从第10秒到第20秒生成内容的指标漂移(Δ)。 主要结果:在Slakh2100基准测试上,LiveBand(包括τ=0, 0.1, 1秒前瞻)在所有客观指标上均优于自回归基线模型StreamMusicGen(SMG)。即使在τ=1秒的强前瞻设置下,LiveBand的BA和COCOLA指标仍优于SMG在τ=0(严格同步)下的表现。在20秒生成中,LiveBand表现出极低或有利的指标漂移,而SMG性能随时间下降。主观测试显示LiveBand在质量和混合一致性上显著优于SMG。在消费级硬件(RTX 3090)上,配合torch.compile,系统可实现实时推理(RTF > 1)。 代码与数据:论文提供了演示页面链接:https://sonycslparis.github.io/liveband-companion。未提供训练代码、模型权重或数据集下载链接。 资源需求:在单块RTX 3090 GPU上,使用bfloat16混合精度,训练约75万次迭代(约1周)。生成器和判别器各约1.5亿参数。 局限性:论文承认生成的音频保真度与真实音频相比仍有提升空间。实验设计(如主观测试锚点)存在可讨论的问题。 伦理考量:论文提及了该技术在作者权、对音乐家影响及潜在滥用方面的伦理问题。 🔗 开源详情 代码:论文中未提及代码链接 模型权重:论文中未提及 数据集:主要使用 Slakh2100 数据集(论文中引用了其官方 train/test split [48])。另有一个基于约20k首非合成多轨立体声录音的内部语料库,用于训练CLAP条件变体,但该内部数据集未公开。Slakh2100 数据集是公开的,可通过其原论文或官方渠道获取。 Demo:https://sonycslparis.github.io/liveband-companion 复现材料:论文中详细描述了模型架构超参数、训练细节(如优化器设置、学习率、批大小、训练迭代次数、硬件等),但未提供具体的训练脚本、配置文件或检查点下载链接。 论文中引用的开源项目: CoDiCodec:论文中引用了其因果音频自编码器变体 [40](“retraining a causal variant of CoDiCodec”)。未提供直接链接。 R3GAN:论文中引用了该相对论GAN框架 [24](“We adopt R3GAN”)。未提供直接链接。 BeatThis:用于节拍对齐评估 [52]。 Madmom:用于节拍对齐评估 [53]。 COCOLA:用于衡量mix-accompaniment对齐度 [54]。 (注:论文未提供以上所有引用项目的具体URL。) 🏗️ 方法概述和架构 LiveBand系统旨在解决实时、因果的音乐伴奏生成问题,其方法核心在于消除训练与推理的不匹配,并利用序列级监督。整个系统在预训练的因果音频自编码器的连续隐空间内操作。 ...

2026-06-03 · 更新于 2026-06-12 · 3 min · 502 words

AnyMo: Scaling Any-Modality Conditional Motion Generation with Masked Modeling

📄 AnyMo: Scaling Any-Modality Conditional Motion Generation with Masked Modeling #多模态模型 #自回归模型 #数据增强 7/10 | 创新 2/2 | 严谨 1.2/1.5 | 实验 1/1.5 | 清晰 0.8/1 | 影响 1/1.5 | 开源 0.5/1.5 | 复现 0.5/0.5 | 工程 0/1.5 ✅ 7/10 | 前50% | #多模态模型 | #数据增强 | #自回归模型 | arxiv 👥 作者与机构 作者:Yiheng Li (中国科学院计算技术研究所, 中国科学院大学),Zhuo Li (独立作者),Ruibing Hou (中国科学院计算技术研究所),Yingjie Chen (北京大学),Hong Chang (中国科学院计算技术研究所, 中国科学院大学),Hao Liu (独立作者),Shiguang Shan (中国科学院计算技术研究所, 中国科学院大学) 通讯作者:Hao Liu (lewes6369@gmail.com) 💡 毒舌点评 这篇论文试图解决运动生成领域的一个“贪心”问题:想要一个模型吃下所有条件(文本、语音、音乐、轨迹),还想要数据足够大、模型能缩放。野心不小,也确实做出了些东西。数据集OmniHuMo规模号称最大,这算是个实在的工程贡献,对社区后续研究有价值。AnyMo框架的设计思路清晰,把R-FSQ和并行掩码建模结合起来处理多流token,算是一个合理的技术集成。缩放研究展示了从111M到3B参数的效果趋势,尤其是文本任务上FID的显著下降,验证了 scaling law 在这个任务上的有效性。 ...

2026-06-02 · 更新于 2026-06-12 · 3 min · 618 words

Towards Streaming Synchronized Spatial Audio Generation via Autoregressive Diffusion Transformer

📄 Towards Streaming Synchronized Spatial Audio Generation via Autoregressive Diffusion Transformer #自回归模型 #扩散模型 #多模态模型 #对比学习 ✅ 6.5/10 | 前50% | #自回归模型 | #对比学习 | #扩散模型 #多模态模型 | arxiv 学术质量 6.5/7 | 影响力 7.0/2 | 可复现性 0.2/2 | 置信度 高 👥 作者与机构 作者:Ke Lei, Yu Zhang, Changhao Pan, Xueyi Pu, Wenxiang Guo, Ruiqi Li, Zhou Zhao。论文中未明确提及作者所属机构。(审校注:根据其arXiv提交历史及相关信息,通常隶属于阿里巴巴集团,但本文原文未明确声明) 💡 毒舌点评 概念包装大于实质新颖:将“分块生成”(Patch-wise generation)包装为“流式自回归扩散Transformer”,听起来高大上,但其核心思想——用一个较小的局部扩散模型(LocDiT)在自回归生成的语义条件下进行块内去噪——在语音和音频生成领域已有先例。创新更多体现在具体架构的组合,而非范式突破。 “流式”宣传需打折:论文反复强调0.21s的首块延迟,但报告了总推理时间为9.13s(生成10秒音频)。这意味着在生成完第一个chunk(约0.5秒音频)后,用户需等待约8.9秒才能获得完整音频。这种“流式”对实时交互的支持非常有限,更像是一种延迟优化的序列生成,而非真正的低延迟流式传输。 实验对比存在“田忌赛马”:将SwanSphere(1.09B参数)与多个级联管线(如MMAudio+AS)和一个参数更小的专用模型(ViSAGe, 0.36B)对比,并声称全面超越,说服力有限。更公平的对比应与最新、参数量相当的端到端空间音频模型进行。 ODPO的必要性存疑:消融实验显示ODPO将FD从133.91降至120.28。虽然有效,但奖励函数设计(空间误差、语义相似度、保真度)高度依赖外部预训练模型(ImageBind, Audiobox Aesthetics),这引入了额外的复杂性和偏差。论文并未探讨这些奖励模型本身的局限性如何影响最终生成质量。 数据集构建与评估的“自产自销”:SwanSphere数据集由论文作者自己构建,测试集也从中划分。虽然附录提供了细节,但使用自己构建、自己评估的数据集来证明方法优越性,存在固有的乐观偏差。跨数据集泛化能力(如YT360-Test)虽然有所展示,但仍是同一评估体系下的结果。 “通用”方法的狭窄适用性:尽管声称适用于VR/AR等沉浸式场景,但模型输入严格限定于全景视频+文本,输出为FOA。这与当前市场上更通用的双耳渲染或基于对象的音频格式存在差距。技术路线过于专精,可能限制其实际应用广度。 📌 核心摘要 本文提出SwanSphere,一个统一的流式框架,用于从全景视频和文本提示生成高保真第一阶环绕声(FOA)空间音频。该框架旨在解决现有技术在生成质量与推理延迟之间的权衡,以及从多模态输入中捕捉精确空间信息的困难。其核心贡献包括:1) 提出因果自回归扩散Transformer架构,通过将语义规划(自回归语言模型)与局部声学渲染(局部扩散Transformer)解耦,实现流式高质量生成;2) 设计空间视频-音频对比学习(SVAC)策略,通过四类物理感知的正负样本对齐视频与音频编码器的空间语义表征;3) 引入多目标在线直接偏好优化(ODPO),从空间、语义和保真度三个维度对齐生成结果与人类偏好;4) 开发基于多模态大语言模型(MLLM)的自动化空间字幕标注管道,以缓解空间音频数据稀缺问题。实验表明,SwanSphere在视频到空间音频和文本到空间音频任务上,在语义保真度、空间精度和主观评估方面均优于现有基线模型,同时实现了更低的首块生成延迟。 ...

2026-06-01 · 更新于 2026-06-12 · 2 min · 426 words

Decoding Strategies for Diffusion-Based ASR: A Systematic Evaluation of Confidence-Based Thresholding

📄 Decoding Strategies for Diffusion-Based ASR: A Systematic Evaluation of Confidence-Based Thresholding #扩散模型 #自回归模型 ✅ 6.8/10 | 前50% | #语音识别 | #扩散模型 | #自回归模型 | arxiv 学术质量 4.6/7 | 影响力 1.2/2 | 可复现性 1/2 | 置信度 中 👥 作者与机构 Jeong Hun Yeo: KAIST (韩国科学技术院),通讯/主要联系作者。 Minsu Kim: Google DeepMind (东京),合作者(论文注明贡献为咨询角色)。 Hyeongseop Rha: KAIST。 Yong Man Ro: KAIST,通讯作者。 💡 毒舌点评 这是一篇“工整”但缺乏突破性的实证分析论文。作者们非常聪明地选择了一个“安全区”——用已有的扩散语言模型解码策略,在另一个领域(ASR)进行“搬家”式验证,并套用了一套听起来高大上的分析框架(NLL不确定性轨迹)。论文最大的问题在于创新性的严重不足:三种解码策略本身均非本文提出,核心贡献仅在于“比较”和“解释”。将论文包装成“系统评估”虽有一定价值,但本质上是在填补一个由先前研究(主要是DLM在NLP中的应用)留下的、并非关键的知识空白。实验仅在单一、干净的LibriSpeech数据集上进行,严重限制了结论的普适性和影响力,作者自己也承认了这点,但审稿人必须强调这极大地削弱了其作为“系统评估”的分量。分析部分看似精细,但核心洞察(ASR置信度分数高度集中)更像是一种现象观察而非深刻的机制解析。总而言之,这是一篇合格的、中规中矩的领域应用分析,但离顶会要求的“significant contribution”尚有距离。 📌 核心摘要 本文针对基于扩散语言模型(DLM)的自动语音识别(ASR)解码策略进行了系统性评估。研究比较了三种解码方案:固定数量解码(top-k)、静态置信度阈值解码和动态置信度阈值解码,在准确率(WER)与速度(RTF)的权衡上,阈值策略(尤其是静态阈值)显著优于固定数量解码。作者提出使用基于负对数似然(NLL)的不确定性轨迹来量化分析并行解码的逐轮进展。研究发现,ASR任务中置信度分数高度集中于高值区域(>90%的令牌置信度超过0.9),这解释了阈值策略为何能高效利用早期高置信度令牌,从而加速解码。静态阈值策略在块大小为4、阈值\(C=0.95\)时,达到了接近自回归基线的WER(2.81% vs. 2.78%),同时速度快1.7倍。 🔗 开源详情 代码:论文指出可通过其arXiv页面(https://arxiv.org/abs/2605.29613v1)上的“Code”按钮访问作者提供的代码仓库。但在论文正文、参考文献或附录中均未直接给出代码仓库的URL。 模型权重: Whisper-medium.en:在HuggingFace Hub公开,链接如 https://huggingface.co/openai/whisper-medium.en。 LLaDA-8B-Instruct:在HuggingFace Hub公开,链接如 https://huggingface.co/MLNLPCN/LLaDA-8B-Instruct。 论文训练的Whisper-LLaDA模型:未提供下载链接。 数据集: LibriSpeech:公开数据集,可从 https://www.openslr.org/12 获取。 GSM8K:公开数据集,可从 https://huggingface.co/datasets/gsm8k 获取。 复现材料:论文提供了主要的训练超参数(100k步,8xA6000 GPU),但未提供���整的训练脚本、详细配置或预训练检查点。完整复现强烈依赖作者未在文中详述的代码仓库。 🏗️ 方法概述和架构 本文采用并评估的基线DLM-ASR系统为 Whisper-LLaDA。其核心架构包含以下组件: ...

2026-05-29 · 更新于 2026-06-12 · 2 min · 359 words