Lip Forcing: Few-Step Autoregressive Diffusion for Real-time Lip Synchronization

📄 Lip Forcing: Few-Step Autoregressive Diffusion for Real-time Lip Synchronization #自回归模型 #扩散模型 #流式处理 6.8/10 | 创新 1.5/2 | 严谨 1.2/1.5 | 实验 1/1.5 | 清晰 1/1 | 影响 0.4/1.5 | 开源 0/1.5 | 复现 0.5/0.5 | 工程 1.2/1.5 ✅ 6.8/10 | 前50% | #语音合成 | #自回归模型 | #扩散模型 #流式处理 | arxiv 👥 作者与机构 论文标题: Lip Forcing: Few-Step Autoregressive Diffusion for Real-time Lip Synchronization arXiv ID: 2606.11180 作者: Paul Hyunbin Cho, Jinhyuk Jang, SeokYoung Lee, Joungbin Lee, Siyoon Jin, Heeseong Shin, Jung Yi, Yunjin Park, Chulmin Park, Seungryong Kim† 机构: 1KAIST AI, 2AIPARK ...

2026-06-11 · 更新于 2026-06-12 · 3 min · 437 words

PianoKontext: Expressive Performance Rendering from Deadpan Context

📄 PianoKontext: Expressive Performance Rendering from Deadpan Context #音乐生成 #流匹配 #扩散模型 9.1/10 | 创新 1.5/2 | 严谨 1.3/1.5 | 实验 0.9/1.5 | 清晰 1/1 | 影响 1.5/1.5 | 开源 1.2/1.5 | 复现 0.5/0.5 | 工程 1.2/1.5 🔥 9.1/10 | 前50% | #音乐生成 | #流匹配 | #扩散模型 | arxiv 👥 作者与机构 Dmitrii Gavrilev (机构未在提供的原文中明确提及) 💡 毒舌点评 这篇论文的出发点很巧,把“如何让钢琴弹得有感情”这个玄学问题,转化成了“如何把死气沉沉的MIDI合成音频变得好听”这个工程问题。思路清晰,像用DTW在潜在空间对齐数据这招,算是个实用的小trick。但是,作者你这实验做得也太“精打细算”了吧?就一个MAESTRO子集、一张RTX 4090卡,就想定义“表现力演奏”的未来?连个人类主观听感测试都舍不得做,就敢在结论里谈“音乐性”?这跟用泡面调料包评测米其林餐厅有啥区别。最后那个“缺乏理想 articulation”的自我批评倒是挺诚实,但光承认问题不解决,顶会审稿人可不会买账。 📌 核心摘要 本文提出了PianoKontext,一个用于表现力钢琴演奏渲染(EPR)的潜在流匹配模型。其核心思想是将问题建模为以合成的死板音频为条件,在潜在空间中生成变长、富有表现力的钢琴音频。关键方法包括:1)利用动态时间规整(DTW)在预训练的Music2Latent模型的潜在空间中,对齐MIDI分数合成的死板音频与真实表现力音频,构建训练数据对;2)采用借鉴自FLUX Kontext的DiT架构,通过拼接条件序列和噪声化的目标序列,并使用2D旋转位置编码(RoPE)进行联合自注意力建模,以学习两者间的依赖关系。实验表明,与无监督基线CFG Bridge相比,PianoKontext在音频质量(FAD/KAD)和内容保真度(Pitch DTW、对齐精确率/召回率)上均有提升。 🔗 开源详情 代码仓库:github.com/realfolkcode/pianokontext 提供代码,有助于复现方法。未提供模型权重或完整数据集。 🏗️ 方法概述和架构 PianoKontext的方法可分为数据准备和模型架构两大部分,整体流程如图1所示。 ...

2026-06-11 · 更新于 2026-06-12 · 2 min · 252 words

Inside the Latent Flow: Causal Deciphering of Attention Dynamics in Audio Separation Foundation Models

📄 Inside the Latent Flow: Causal Deciphering of Attention Dynamics in Audio Separation Foundation Models #扩散模型 #语音分离 7.3/10 | 创新 1.5/2 | 严谨 1.3/1.5 | 实验 1.2/1.5 | 清晰 1/1 | 影响 0.7/1.5 | 开源 0.1/1.5 | 复现 0.5/0.5 | 工程 1/1.5 ✅ 7.3/10 | 前50% | #语音分离 | #扩散模型 | arxiv 👥 作者与机构 Yuxuan Chen: Jilin University Haoyuan Xu: Hunan University Peize He: University of Electronic Science and Technology of China 💡 毒舌点评 这篇论文像一份非常精致的建筑结构分析报告——它精准测量了一座特定建筑(SAM Audio)的钢筋承重和管线布局,甚至基于此提出了优化管线排布的建议(LSAC),但整份报告的说服力建立在“其他建筑可能也这样”的模糊假设之上。作者的方法论工具箱(因果干预)堪称豪华,实验设计滴水不漏(统计检验规范),但结论的翅膀被牢牢拴在SAM Audio这一个树桩上。所谓“双通路机制”和“异步收敛”更像对模型行为的精细描述而非深刻的机理揭示,而“先验抑制”的证据链更是薄弱得像是基于一个巧合的观测。最致命的是,在模型权重、代码、复现细节全部缺位的情况下,这份报告更像是一个封闭的黑箱性能测评,而非开放的科学发现。 ...

2026-06-10 · 更新于 2026-06-12 · 2 min · 387 words

Optimality of FSQ Tokens for Continuous Diffusion for Categorical Data with Application to Text-to-Speech

📄 Optimality of FSQ Tokens for Continuous Diffusion for Categorical Data with Application to Text-to-Speech #扩散模型 #语音合成 7.3/10 | 创新 1.5/2 | 严谨 1.2/1.5 | 实验 1.1/1.5 | 清晰 1/1 | 影响 1/1.5 | 开源 0/1.5 | 复现 0.5/0.5 | 工程 1/1.5 ✅ 7.3/10 | 前50% | #语音合成 | #扩散模型 | arxiv 👥 作者与机构 论文作者为Vadim Popov, Wenju Gu, Tasnima Sadekova, Georgii Aparin, Assel Yermekova。作者所属机构未在论文中明确说明。 💡 毒舌点评 这篇论文试图为“连续扩散分类数据”这个略显尴尬的混血儿(CDCD)寻找最佳的“灵魂容器”(潜在空间)。理论部分像在为一场精心设计的约会(扩散路径的KL散度)量体裁衣,结论是“FSQ这套西装最合身”。实验部分则直接把这身行头拉到语音合成这个高级秀场(TTS)走秀,结果发现,不仅比原来的自回归西装(CosyVoice2的LLM)更合身,跑得还更快,身材(模型)更苗条。理论部分的“最佳性”证明在高维时有点“理论不够,实验来凑”的意思,而TTS实验的胜利,很大程度上是“非自回归”对“自回归”的结构性胜利,FSQ本身有多大功劳,论文自己都给了“扰动对比”留了后门。总的来说,一篇不错的工程理论结合论文,但离“最佳”的封号还有距离,更适合被看作一个有启发性的工作。 📌 核心摘要 本文研究了用于生成分类数据的连续扩散模型(CDCD)的潜在空间结构。作者通过理论分析发现,潜在空间中token嵌入的几何结构可以通过逆向扩散路径度量之间的Kullback-Leibler散度来表征。他们证明了有限标量量化(FSQ)编码本在该度量下具有最优或近优性质,并提出了“最佳精度假设”,即在最优训练的扩散模型中,FSQ潜在空间能最大化token预测准确率。为验证理论,作者训练了基于CDCD的文本到语音(TTS)模型,发现使用FSQ token的模型在性能和效率上均优于其自回归(LLM)基线模型(CosyVoice2),其DiT骨干网络小10倍,推理速度快5倍以上。 ...

2026-06-10 · 更新于 2026-06-12 · 2 min · 289 words

Speech Meets ELF: Audio Conditional Continuous-Target Diffusion for Speech Recognition and Translation

📄 Speech Meets ELF: Audio Conditional Continuous-Target Diffusion for Speech Recognition and Translation #语音识别 #语音翻译 #扩散模型 #流匹配 8.3/10 | 创新 1.7/2 | 严谨 1.4/1.5 | 实验 1.3/1.5 | 清晰 1/1 | 影响 1.2/1.5 | 开源 0/1.5 | 复现 0.5/0.5 | 工程 1.2/1.5 🔥 8.3/10 | 前25% | #语音识别 | #语音翻译 | #扩散模型 #流匹配 | arxiv 👥 作者与机构 论文作者包括 Xuanchen Li(共同第一作者), Tianrui Wang(共同第一作者), Yuheng Lu, Zikang Huang, Yu Jiang, Chenghan Lin, Chenrui Cui, Ziyang Ma, Xingyu Ma, Chunyu Qiang, Guochen Yu, Xie Chen, Longbiao Wang, Jianwu Dang(通讯作者)。机构在作者列表中未明确标注,但根据通讯作者信息及论文常见模式,推测主要来自小米和相关合作机构。 ...

2026-06-10 · 更新于 2026-06-12 · 3 min · 430 words

HoliDubber: Holistic Video Dubbing for Complex Acoustic Scenes via Text-Guided Audio Synthesis

📄 HoliDubber: Holistic Video Dubbing for Complex Acoustic Scenes via Text-Guided Audio Synthesis #语音合成 #音频生成 #多模态模型 #扩散模型 #自监督学习 9/10 | 创新 1.6/2 | 严谨 1.4/1.5 | 实验 1.5/1.5 | 清晰 1/1 | 影响 1.5/1.5 | 开源 0/1.5 | 复现 0.5/0.5 | 工程 1.5/1.5 🔥 9/10 | 前10% | #语音合成 | #自监督学习 | #音频生成 #多模态模型 | arxiv 👥 作者与机构 Wenhao Guan (厦门大学, 上海创新研究院), Yifan Duan (上海交通大学), Junxi Liu (上海交通大学), Yu Gu (未来工场), Feng Dang (未来工场), Kaidi Wang (厦门大学), Qingyang Hong (厦门大学), Lin Li (厦门大学), Xie Chen (上海交通大学, 上海创新研究院) ...

2026-06-09 · 更新于 2026-06-12 · 3 min · 576 words

Your U-Net Dereverberation Model is Secretly an RIR Encoder

📄 Your U-Net Dereverberation Model is Secretly an RIR Encoder #对比学习 #扩散模型 #U-Net 8.3/10 | 创新 1.5/2 | 严谨 1.1/1.5 | 实验 0.9/1.5 | 清晰 1/1 | 影响 0.9/1.5 | 开源 1/1.5 | 复现 0.5/0.5 | 工程 1.4/1.5 🔥 8.3/10 | 前50% | #对比学习 | #自监督学习 | #扩散模型 #U-Net | arxiv 👥 作者与机构 作者:Sina Khanagha, Timo Gerkmann 机构:Signal Processing Group, University of Hamburg, Germany 💡 毒舌点评 这篇论文试图为“扩散模型如何处理非加性失真(如混响)”这个有点玄学的问题提供一个实证角度的解释,即它们“偷偷”学了个RIR编码器。想法有趣,验证也花了不少功夫,尤其是可视化部分做得不错,让人信服U-Net深层确实在捕捉环境信息。但作为顶会论文,其“惊天发现”的力度可能稍弱,毕竟模型架构(NCSN++)并非作者提出。核心贡献更多是“观察到现象并利用它”——用一个外部编码器给现有模型“开小灶”来提升性能,这在方法论上更像一个实用的工程技巧(FiLM条件化)而非根本性的突破。实验主要在自建的模拟数据集上跑,缺乏真实场景或与最新SOTA方法的广泛对比,说服力打个折扣。作者自称揭示了“混合行为”,但论证链条(相关性 -> 因果性)还不够严密。总而言之,是一篇扎实的、有点意思的分析工作,但离“颠覆认知”的级别还有距离。 📌 核心摘要 本文分析了基于NCSN++ U-Net的单通道语音去混响模型(包括判别式和扩散式)的内部表示。通过可视化中间层特征,发现这些模型都隐式学习了与房间脉冲响应(RIR)强相关的表示,且这种表示的区分度与去混响性能相关。受此启发,作者提出通过对比学习预训练一个RIR编码器,并使用特征线性调制(FiLM)将外部RIR嵌入条件化注入到U-Net中。实验表明,该方法提升了模型对RIR的表示能力,加速了训练收敛,并显著提高了扩散模型在较少推理步数下的去混响性能(PESQ提升0.17-0.28)。 ...

2026-06-09 · 更新于 2026-06-12 · 2 min · 224 words

DirectAudioEdit: Inversion-Free Text-Guided Audio Editing via Diffusion Prediction Contrast

📄 DirectAudioEdit: Inversion-Free Text-Guided Audio Editing via Diffusion Prediction Contrast #扩散模型 #对比学习 7.5/10 | 创新 1.5/2 | 严谨 1/1.5 | 实验 1.2/1.5 | 清晰 1/1 | 影响 0.9/1.5 | 开源 0.5/1.5 | 复现 0.5/0.5 | 工程 0.9/1.5 ✅ 7.5/10 | 前25% | #扩散模型 | #对比学习 | arxiv 👥 作者与机构 Zhengkun Ge, Xiaoqian Liu, Haoran Zhang, Yuan Ge, Junxiang Zhang:School of Computer Science and Engineering, Northeastern University, Shenyang, China. Zhengtao Yu:Kunming University of Science and Technology. Jingbo Zhu, Tong Xiao:Northeastern University, Shenyang, China; NiuTrans Research, Shenyang, China. ...

2026-06-08 · 更新于 2026-06-12 · 3 min · 530 words

Entropy as a Structural Prior: How a Log-Barrier on DiT Belief Space Drives Musical Diversity and Development

📄 Entropy as a Structural Prior: How a Log-Barrier on DiT Belief Space Drives Musical Diversity and Development #音乐生成 #生成模型 #扩散模型 4.2/10 | 创新 1.5/2 | 严谨 0.5/1.5 | 实验 0.3/1.5 | 清晰 1/1 | 影响 0.5/1.5 | 开源 0/1.5 | 复现 0.2/0.5 | 工程 0.2/1.5 📝 4.2/10 | 后50% | #音乐生成 | #生成模型 | #扩散模型 | arxiv 👥 作者与机构 未提及 💡 毒舌点评 这篇论文的核心想法,即“用熵来调节梯度权重”,本身并非石破天惊。它的全部价值在于一个“意外”的实验结果:在监督微调扩散模型做音乐时,这种理应提升稳定性的加权反而提升了多样性。这确实有点意思,但作者似乎被这个“意外”冲昏了头脑,忘记了科研的基本功。整篇论文就是一份实验备忘录,连个正式的实验报告都算不上。没有数学公式定义方法,没有量化指标评估结果,没有与任何基线对比,没有消融实验证明不是玄学。作者用“在线课程学习”来包装,但连课程的“学习曲线”都没画出来。对于一篇投稿论文来说,这种完成度几乎是不可接受的。它提出了一个可以深入研究的问题,但自身远未准备好回答这个问题。 📌 核心摘要 本文针对监督扩散模型微调中置信度可能放大错误的传统观点,提出一种反直觉的解决方案。作者引入名为“Eisbach log-barrier”的无参数权重,该权重基于扩散变换器(DiT)输出空间能量分布的熵计算:高熵(高不确定性)抑制梯度,低熵(高确定性)保留梯度。将该权重应用于在MusicCaps数据集上对Stable Audio 3 Medium模型进行LoRA微调时,作者观察到与预期相反的现象:该方法不仅未导致模式崩溃,反而生成了主题发展更强、声学区分更清晰、纹理更多样的音乐。作者解释其机制在于,在监督扩散训练中梯度方向固定于真实数据,置信度仅缩放步长;时间维度熵的加权压平了平淡样本,保留了高对比度样本。这导致了一个纯粹从单次前向传播中涌现的、自指涉的在线数据课程。论文分析了噪声级别动态,并提出了可验证的预测。 ...

2026-06-08 · 更新于 2026-06-12 · 2 min · 279 words

TargetSEC: Plug-and-Play In-the-Wild Speech Emotion Conversion via Arousal-Conditioned Latent Style Diffusion

📄 TargetSEC: Plug-and-Play In-the-Wild Speech Emotion Conversion via Arousal-Conditioned Latent Style Diffusion #语音转换 #扩散模型 #自监督学习 6.8/10 | 创新 1.4/2 | 严谨 1.3/1.5 | 实验 1/1.5 | 清晰 1/1 | 影响 0.7/1.5 | 开源 0.1/1.5 | 复现 0.5/0.5 | 工程 0.8/1.5 ✅ 6.8/10 | 前50% | #语音转换 | #自监督学习 | #扩散模型 | arxiv 👥 作者与机构 作者:Constantin Alexander Auga 机构:Hasso Plattner Institute / University of Potsdam, Potsdam, Germany 💡 毒舌点评 这篇工作挺扎实,属于“把已有好工具用对地方”的典范。用潜在扩散模型处理风格嵌入,而不是在声谱图上硬刚,这思路很聪明,直接避免了生成声谱图常见的相位撕裂问题,保住了语音自然度(WVMOS 3.25 vs. 2.56)。消融实验设计得很规矩,一步步把MLP换成扩散、再加说话人条件,证明了每一步都有收益。作者也很诚实地承认了自己方法在极端情绪(如极度愤怒或无聊)上的短板,因为没做时长预测,语速跟不上。但问题是,这论文的“新颖性”有点虚。说是“首次”在嘈杂环境SEC中用LDM,但本质上是把DreamVoice或PromptVC那套“文本驱动LDM生成风格”的框架,里的文本条件换成了情绪嵌入,再套上一个现成的SEC任务。这更像是工程上的适配和验证,理论或方法论上的突破有限。实验只做了客观指标,主观听感完全缺失,对于语音合成任务来说,这是个明显的评审漏洞。开源方面几乎为零,连复现的关键细节(如完整的损失权重、优化器设置)都没给,让“plug-and-play”打了折扣。 ...

2026-06-08 · 更新于 2026-06-12 · 2 min · 319 words