SwiftAudio: Data-Efficient Caption-Only Distillation for One-Step Text-to-Audio Diffusion-based Generation

📄 SwiftAudio: Data-Efficient Caption-Only Distillation for One-Step Text-to-Audio Diffusion-based Generation #知识蒸馏 #扩散模型 #生成模型 10/10 | 创新 2/2 | 严谨 1.5/1.5 | 实验 1.5/1.5 | 清晰 1/1 | 影响 1.5/1.5 | 开源 0.5/1.5 | 复现 0.5/0.5 | 工程 1.5/1.5 🔥 10/10 | 前50% | #知识蒸馏 | #知识蒸馏 | #扩散模型 #生成模型 | arxiv 👥 作者与机构 论文作者为Binh Mai, Tran Quoc Bao Le, Hung Dinh, Cong Tran,均隶属于越南邮电技术学院 (Posts and Telecommunications Institute of Technology, Hanoi, Vietnam)。通讯作者为Cong Tran (congtt@ptit.edu.vn)。 ...

2026-07-01 · 更新于 2026-07-02 · 4 min · 644 words

SyncCache: Exploiting Asymmetric Dynamics for Fast Audio-Driven Portrait Animation

📄 SyncCache: Exploiting Asymmetric Dynamics for Fast Audio-Driven Portrait Animation #语音合成 #扩散模型 7.5/10 ✅ 7.5/10 | 前25% | #语音合成 | #扩散模型 | arxiv 👥 作者与机构 作者:Juncheng Ma, Yuxuan Du, Yanan Sun, Zhening Xing, Changlin Li, Zhenyu Tang, Bo Li, Peng-Tao Jiang, Li Yuan, Daquan Zhou, Yonghong Tian 机构:北京大学深圳研究生院,上海人工智能实验室,腾讯混元,vivo 💡 毒舌点评 这工作方向挺实在,但读下来感觉“非对称性”这个点子虽然合理,可有点被过度包装了。说白了不就是知道人脸动背景不动,音频信号得一直算嘛?方法上,那个空间掩码探查和模态解耦的思路在同类工作里不算新鲜,亮点主要在于把缓存选择建模成动态规划,这算是个不错的工程优化。不过,论文自我标榜为“首个”针对DiT音频动画的缓存方法,这“首创性”的宣称值得商榷,毕竟核心思想(缓存稳定特征、跳过计算)在很多领域都有应用。实验上,在两个特定模型上刷点确实不错,但缺乏对不同掩码质量、不同音频复杂度的鲁棒性分析,结论显得有点过于乐观。最大的问题是,方法高度依赖预训练模型(HunyuanVideo-Avatar, Wan-S2V)的内部结构和现有掩码,通用性和可迁移性存疑。开源方面,只给了基础模型链接,自己的代码没放,这对顶会论文来说是扣分项。 📌 核心摘要 本文提出SyncCache,一种针对基于扩散Transformer (DiT) 的音频驱动肖像动画的训练无关推理加速方法。核心思想是识别并利用任务固有的两种非对称性:空间上,高频动态(人脸、唇部)集中于前景,低频静态背景稳定;模态上,音频块轻量但控制高频同步信号,视觉DiT块计算密集。方法包含三个组件:1)空间非对称探测:利用人类掩码加权第一层输出的误差,对人脸区域变化更敏感,以决定何时刷新缓存;2)模态解耦缓存:在完整计算步骤中缓存视觉块间的稳定残差,在复用步骤中跳过视觉块计算但持续计算音频块;3)内存自适应最优选择:通过一个连续缓存比率σ控制缓存容量,并使用动态规划离线确定在给定σ下最优的缓存边界子集,以最小化残差的时间不稳定性,实现零在线开销的内存自适应。实验在两个主流模型和公开数据集上进行,结果表明SyncCache在大幅降低延迟(最高4.12倍加速)的同时,能保持甚至略微提升生成质量和唇形同步精度,显著优于现有缓存方法。 🔗 开源详情 代码:论文未提供 SyncCache 自身实现代码的明确链接。 模型权重:论文使用了两个开源模型进行评估,其权重可从官方仓库获取: HunyuanVideo-Avatar: https://github.com/Tencent-Hunyuan/HunyuanVideo-Avatar Wan-S2V: https://github.com/Wan-Video/Wan2.1 数据集:评估数据集为 EMTD Dataset。论文未提供该数据集的直接获取链接。根据描述,该数据集“主要由单人说话和半身人视频组成”。 Demo:论文未提及在线演示链接。 复现材料:论文未提供详细的训练配置、检查点或完整附录。报告了关键实验设置(如使用8块A800 GPU、FlashAttention、FSDP配置、人类掩码权重\(\omega=2\)等)。 论文中引用的开源项目:包括Diffusion Transformers (DiT)、HunyuanVideo、Wan2.1、FlashAttention、Hallo3、FantasyTalking、Hallo、OmniAvatar、EchoMimic、TeaCache、MagCache、TaylorSeer、HiCache、EasyCache、DeltaDiT、ClusCa、SpeCa、CGCache、FoRA、OmniCache等。 🏗️ 方法概述和架构 SyncCache的框架如图3所示,旨在通过解耦空间和模态的非对称动力学来加速基于DiT的音频驱动肖像动画推理。其核心流程可分为三个相互关联的组件: ...

2026-07-01 · 更新于 2026-07-02 · 2 min · 420 words

UniSAE: Unified Speech Attribute Editing on Speaker, Emotion and Low-Level Content via Discrete Phonetic Posteriorgram Modelling

📄 UniSAE: Unified Speech Attribute Editing on Speaker, Emotion and Low-Level Content via Discrete Phonetic Posteriorgram Modelling #语音合成 #语音编辑 #扩散模型 #数据增强 7.3/10 | 创新 1.3/2 | 严谨 1.1/1.5 | 实验 1/1.5 | 清晰 1/1 | 影响 0.8/1.5 | 开源 0.8/1.5 | 复现 0.5/0.5 | 工程 0.8/1.5 ✅ 7.3/10 | 前50% | #语音合成 | #数据增强 | #语音编辑 #扩散模型 | arxiv 👥 作者与机构 第一作者 Chuanbo Zhu 与合作者 Wuyou Zhou, Rongxiu Zhong, Shilei Zhang, Kun Qian 来自上海交通大学。通讯作者 Yike Guo 与 Wei Xue 同样来自上海交通大学,并关联北京通用人工智能研究院(BigAI)。 ...

2026-07-01 · 更新于 2026-07-02 · 1 min · 143 words

语音/音乐/音频论文速递 2026-07-01

语音/音乐/音频论文速递 2026-07-01 共分析 35 篇论文 ⚡ 今日概览 📥 抓取 35 篇 → 🔬 深度分析完成 🏷️ 热门方向 方向 数量 分布 #语音识别 8篇 ████████ #语音合成 7篇 ███████ #自监督学习 2篇 ██ #音频分类 2篇 ██ #生成模型 2篇 ██ #语音情感识别 2篇 ██ #数据集 1篇 █ #知识蒸馏 1篇 █ 📊 论文评分排行榜(35 篇,按分数降序) 排名 论文 总分 分档 主任务 🥇 Dilemmadata: On the Interoperability of Heterogeneous R 10.0分 前50% #数据集 🥈 SwiftAudio: Data-Efficient Caption-Only Distillation fo 10.0分 前50% #知识蒸馏 🥉 Attacking UTMOS: Probing the Robustness of a Speech Qua 8.6分 前25% #语音质量评估 4. Enhancing BEST-RQ Pseudo-Label Quality through Online R 8.6分 前50% #语音识别 5. Linguistic Bias Mitigation for Spoofing Detection via G 8.6分 前25% #自监督学习 6. Building an ASR Solution for Training and Assessing Chi 8.5分 前50% #语音识别 7. Beyond Cross-Reconstruction: Probing-Based Disentanglem 8.1分 前50% #语音编码 8. MuseBench: Benchmarking Intent-Level Audiovisual Arts U 7.9分 前50% #语音合成 9. Detecting Audio Deepfakes on the Edge:Lightweight SSL-B 7.7分 前25% - 10. Beyond Binary Instrument QA: Probing Instrument Groundi 7.6分 前25% #音频分类 11. SyncCache: Exploiting Asymmetric Dynamics for Fast Audi 7.5分 前25% #语音合成 12. Probing-Guided Layer Selection from Self-Supervised Spe 7.5分 前25% #集成学习 13. A First Exploration of Neuromorphic OT-CFM for Multi-Sp 7.5分 前25% #生成模型 14. LuxEmo: Expressive Text-to-Speech Corpus for Luxembourg 7.5分 前25% #语音合成 15. A Fair and Transparent Framework for Speech-Based Depre 7.4分 前50% #语音情感识别 16. ALM2Vec: Learning Audio Embeddings for Universal Audio 7.4分 前50% #音频检索 17. ASR-Agnostic Multimodal Spectrotemporal Modeling for Ea 7.4分 前50% #多模态模型 18. UniSAE: Unified Speech Attribute Editing on Speaker, Em 7.3分 前50% #语音合成 19. Tone-Conditioned Curriculum Learning for Low-Resource B 7.3分 前50% #语音识别 20. What Counts as an Error? Dual-Reference Benchmarking fo 7.3分 前50% #语音识别 21. Is Natural Always Appropriate? Investigating Naturalnes 7.2分 前25% #语音合成 22. FlexiSLM: A Dynamic and Controllable Frame Rate Spoken 7.2分 前25% #语音合成 23. ZEBRA: Zero-Shot Entropy-Regularized Prompt Learning fo 7.1分 前50% #音频分类 24. Preserving Speech-to-Text LLM Capabilities in Speech-to 7.0分 前50% #语音识别 25. Listening Between the Lines: Joint Learning of ASR Embe 7.0分 前50% #数据增强 26. BEST-RQ-2: Contextualize-Then-Predict, a Two-Step Appro 6.9分 前50% #语音识别 27. Improving multichannel speech enhancement through accur 6.8分 前50% #语音增强 28. Amplifying Membership Signal Through Chained Regenerati 6.6分 前50% #生成模型 29. AVTok: 1D Unified Tokenization for Holistic Audio-Video 6.5分 前25% #语音合成 30. LOPA: Enhancing Spoken Language Assessment via Latent O 6.2分 前50% #低资源 31. Adapting Foundation ASR Models to Dysarthric Speech: A 6.2分 前50% #语音识别 32. How Bilingual Are SSL Speech Models? Cross-Lingual Prob 5.8分 前50% #自监督学习 33. Gated Multi-Graph Fusion via Graph Attention Networks f 5.2分 后50% #语音情感识别 34. Building a Multimodal Dataset of Academic Paper for Key 5.2分 后50% #语音识别 35. Reference-Based Prosody and Rhythm Evaluation for Spoke 4.7分 后50% #语音对话系统 📋 论文列表 🥇 Dilemmadata: On the Interoperability of Heterogeneous Roman Numeral Datasets 10.0/10 | 创新 2/2 | 严谨 1.5/1.5 | 实验 1.5/1.5 | 清晰 1/1 | 影响 1.5/1.5 | 开源 1.5/1.5 | 复现 0.5/0.5 | 工程 1.5/1.5 ...

2026-07-01 · 更新于 2026-07-02 · 20 min · 4207 words

CTC-Seeded Token Edit Refinement for Non-Autoregressive Speech Recognition

📄 CTC-Seeded Token Edit Refinement for Non-Autoregressive Speech Recognition #语音识别 #扩散模型 7.7/10 | 创新 1.5/2 | 严谨 1.2/1.5 | 实验 1.4/1.5 | 清晰 1/1 | 影响 1/1.5 | 开源 0.2/1.5 | 复现 0.5/0.5 | 工程 0.9/1.5 ✅ 7.7/10 | 前25% | #语音识别 | #扩散模型 | arxiv 👥 作者与机构 作者:Wanting Huang, Weiran Wang。论文中未明确说明作者所属机构。 💡 毒舌点评 这篇论文提出了一个巧妙的思路:与其让扩散模型从零开始“盲猜”一句话,不如先让CTC模型给个大概的草稿(哪怕错误百出),然后让另一个模型在这个草稿上“精修”。这种“编辑”而非“生成”的范式确实比从纯噪声中恢复信息更高效、更直观。方法的技术包装很扎实,连续时间流匹配和变量长度编辑路径的设计避免了传统NAR方法中的序列填充和长度预测问题,显得优雅。实验也做得相当全面,从模型规模到各种推理策略的消融都覆盖了。然而,论文最大的短板在于“效率”的宣称缺乏实锤——说两步就搞定,但一步到底要花多少时间?和自回归模型比延迟到底谁快?这都是一笔糊涂账。此外,方法的通用性也存疑,只在英语LibriSpeech上验证,离真正的“通用语音识别”还有距离。最后,代码虽然说“将开源”,但此刻啥都没有,对于想复现的同行来说等于画饼。总的来说,想法是好的,技术是扎实的,但关键实验数据缺失,实际应用价值的论证不完整。 📌 核心摘要 本文提出了一种非自回归(NAR)语音识别方法,其核心是将解码过程重新定义为对一个贪心CTC假设进行可变长度的令牌级编辑修正。具体而言,首先使用CTC模型生成一个折叠后的初始假设序列。然后,训练一个声学条件化的Edit Flow解码器,该解码器基于连续时间离散扩散损失,以声学特征为条件,并行地学习从含噪CTC假设到真实转录之间的插入、删除和替换操作。该解码器与CTC模型联合进行端到端训练。在推理时,仅需两个迭代编辑步骤即可显著降低词错误率。此外,论文引入了分类器自由引导和基于CTC置信度的编辑约束策略,以进一步提升识别准确性。在LibriSpeech数据集上的实验表明,该方法相比CTC基线取得了显著的性能提升,验证了CTC种子化的变量长度编辑范式的有效性。 🔗 开源详情 代码:论文中提及“代码将开源”,但未提供任何代码仓库链接(如GitHub)。因此当前状态为未开源。 模型权重:论文中未提及。 数据集:LibriSpeech (960小时英文语音训练集,含文本数据用于解码器预训练)。获取链接:https://www.openslr.org/12/ Demo:论文中未提及。 复现材料:论文中详细描述了训练配置(如使用ESPNet框架、35个训练周期、平均最后5个模型、Edit Flow解码器预训练强度 \(\rho=0.03\)、音频分类器自由引导尺度 \(w=0.30\)、推理两步优化等),但未提供具体的配置文件或检查点下载链接。 论文中引用的开源项目: ESPnet: https://github.com/espnet/espnet Whisper: https://github.com/openai/whisper LibriSpeech: https://www.openslr.org/12/ 🏗️ 方法概述和架构 本方法的核心思想是将非自回归ASR解码视为一个对CTC假设进行精修的编辑问题,而非从头生成。整体框架分为三个部分:初始CTC假设生成、Edit Flow解码器训练与联合训练、以及推理时的编辑精修策略。 ...

2026-06-30 · 更新于 2026-07-02 · 3 min · 479 words

LeVo 2: Stable and Melodious Song Generation via Hierarchical Representation Modeling and Progressive Post-Training

📄 LeVo 2: Stable and Melodious Song Generation via Hierarchical Representation Modeling and Progressive Post-Training #音乐生成 #大语言模型 #扩散模型 #多模态模型 #对比学习 #数据增强 9.4/10 | 创新 1.5/2 | 严谨 1.2/1.5 | 实验 1.5/1.5 | 清晰 1/1 | 影响 1.2/1.5 | 开源 1.5/1.5 | 复现 0.5/0.5 | 工程 1/1.5 🔥 9.4/10 | 前10% | #音乐生成 | #对比学习 | #大语言模型 #扩散模型 | arxiv 👥 作者与机构 论文作者来自清华大学深圳国际研究生院(清华-港中文联合研究中心)、腾讯、武汉大学以及香港理工大学。通讯作者为清华大学的吴志勇教授和腾讯的于东博士。第一作者Lei Shun在论文完成时为腾讯实习生。 💡 毒舌点评 这篇工作是典型的“大力出奇迹”式的系统工程论文,扎实有余,灵光乍现不足。其核心贡献——分层LeLM架构和渐进式后训练——本质上是将已有的Transformer LM、VQ-VAE、扩散模型和DPO/RLHF技术进行了精心的组合与流水线化设计。分层思想虽解决了序列长度和协调性问题,但并非首创;训练范式虽设计精巧(美学引导、阶段解耦),但更像是一套针对数据和任务特性的工程化解决方案,而非普适性的算法创新。论文最大的优点在于诚实和全面:它坦诚地承认了与顶级商业系统的差距,详细公开了训练细节和代码,消融实验做得非常扎实,证明了每个设计模块的必要性。对于领域内的实践者来说,这是一份极佳的参考蓝图和可复现的基线;但对于追求颠覆性创新的顶会审稿人来说,其方法论上的“新瓶装旧酒”会是主要扣分点。分数给到8.0,是对其工程完整度、实验严谨性和开源贡献的高度认可,但也明确反映了其在根本性创新上的局限。 📌 核心摘要 本文提出了LeVo 2,一个用于可控且富有旋律性的完整歌曲生成的混合LLM-Diffusion框架。其核心架构LeLM采用分层表示建模,首先由混合语义LM预测混合令牌以捕获全局音乐结构(旋律、节奏、人声与伴奏协调),随后特定音轨LM基于前者的隐藏状态并行预测人声与伴奏令牌,以精化声学细节,最后由基于扩散的音乐编解码器将预测的令牌重建为波形。论文的主要贡献在于提出了一套由自动化音乐美学评估框架引导的三阶段训练范式,该范式包含解耦的渐进式后训练策略(SFT、大规模离线DPO、闭环半在线DPO),旨在依次优化生成质量、可控性(歌词和提示对齐)和音乐性,以缓解多目标优化冲突和静态数据集的局限。实验表明,LeVo 2在六个主观维度上显著超越所有开源基线,并在部分指标上接近领先的商业系统(Suno v5, Mureka v8),消融研究验证了其架构和训练策略各组件的有效性。 ...

2026-06-30 · 更新于 2026-07-02 · 1 min · 100 words

SICAGE: Speaker-Independent Culture-Aware Gesture Generation using TED4C-L Dataset

📄 SICAGE: Speaker-Independent Culture-Aware Gesture Generation using TED4C-L Dataset #扩散模型 8.7/10 | 创新 1.7/2 | 严谨 1.3/1.5 | 实验 1.4/1.5 | 清晰 1/1 | 影响 0.8/1.5 | 开源 1/1.5 | 复现 0.5/0.5 | 工程 1/1.5 🔥 8.7/10 | 前25% | #语音合成 | #扩散模型 | arxiv 👥 作者与机构 Ariel Gjaci* (意大利技术研究所,热那亚,意大利; 热那亚大学,热那亚,意大利) Antonio Sgorbissa (意大利技术研究所,热那亚,意大利) Vittorio Murino (意大利技术研究所,热那亚,意大利) 💡 毒舌点评 论文试图解决一个有趣且重要的问题——手势生成中的文化偏见,但其“文化”定义极其粗糙(直接用国家/语言分组),这就像试图用“所有穿格子衬衫的程序员”来定义一个文化群体,忽视了巨大的组内变异,使得“文化感知”的声称打了折扣。 作者声称ALaDiT是“实时”的(生成4秒动作<14ms),但这只是在单张GPU上的推理延迟,论文并未在实验部分与其他基线方法(如MDM, DSG+)进行直接的实时性对比,这个声称缺乏严格的实验支撑。 用户研究部分,N=20的样本量对于跨文化、多维度的主观评估来说偏小,统计功效可能不足,尤其是论文报告了多个文化组和多项评分,容易出现偶然显著性。 一个根本性的疑问是:论文将每个说话人视为一个独立的“域”来学习文化表征,但每个说话人本身可能具有高度一致的个人风格,这种方法学到的到底是“文化不变性”还是“高度泛化的个人风格”?消融实验中NoDG(无域正则化)的表现并未与FI(有域正则化)拉开巨大差距,可能暗示了这一点。 论文提出TED4C-L数据集,但并未提供公开下载链接,仅指向一个项目主页。这限制了工作的可复现性和社区验证,对于声称“大规模”和“基准”的数据集来说,开源承诺的实现至关重要。 📌 核心摘要 本文针对现有共话语手势生成方法忽视文化差异且缺乏在说话人无关条件下评估的问题,提出了一个名为SICAGE的模块化框架。该框架的核心思想是学习说话人不变的文化表征。具体实现上,论文构建了一个大规模、多语言的手势数据集TED4C-L(764位TED演讲者,4个文化组,106小时)。文化表征的学习被建模为一个域泛化问题:将每个说话人视为一个独立的域,使用两种策略——对抗学习和Fishr正则化——来训练一个从音频和文本特征中预测文化标签的前馈网络,同时抑制其对说话人身份的依赖性。学习到的文化嵌入随后被用于条件化一个名为ALaDiT的扩散模型手势生成器。ALaDiT整合了音频(mel谱、起始强度、wav2vec)、文本(LaBSE句子嵌入)、种子动作和文化嵌入等多种模态,并通过交叉注意力和自适应实例归一化(AdaIN)等机制进行融合。实验在严格的说话人分割设置下进行,结果表明,基于Fishr正则化的文化嵌入(ALaDiT/FI)在运动真实性(FGD↓)、文化一致性(CE F1↑)等客观指标以及用户研究中的主观评分上均取得了最佳性能,优于无文化条件、对抗学习条件及其它消融变体,并显著超越了MDM和DSG+等基线模型。 🔗 开源详情 代码:论文中声明代码、数据集和项目主页将发布于 https://arielgjaci.com/sicage。截至审稿,未提供独立的代码仓库链接(如 GitHub)。 模型权重:论文中未提及预训练模型权重的下载链接。 数据集:论文提出了TED4C-L数据集,但未提供独立的下载链接或开源协议。获取方式指向上述项目主页。 Demo:论文中未提及在线演示链接。 复现材料:论文主文及补充材料(附录A-E)提供了详细的模型架构(VQVAE、ALaDiT、文化分类器)、训练超参数、损失函数配置和评估流程,为复现提供了充分的文本信息。 论文中引用的开源项目: MMPose:用于3D关键点提取。链接:https://github.com/open-mmlab/mmpose Language-Agnostic BERT Sentence Embeddings (LaBSE):用于文本嵌入。模型可通过 Hugging Face 获取:https://huggingface.co/sentence-transformers/LaBSE wav2vec:用于音频特征提取。预训练模型可通过 Hugging Face 获取:https://huggingface.co/facebook/wav2vec2-large-xlsr-53 Motion Diffusion Model (MDM):基线模型之一。链接:https://github.com/GuyTevet/motion-diffusion-model DiffuseStyleGesture+ (DSG+):基线模型之一。链接:https://github.com/youngsik94/DSG+ VQ-VAE:论文在补充材料中描述了自定义架构,参考了相关工作(如 [46]),未提供独立仓库。 🏗️ 方法概述和架构 SICAGE是一个包含三个主要组件的模块化框架:1)一个文化多样的数据集;2)一个学习说话人不变文化表征的模型;3)一个以文化和其他特征为条件的动作生成器。其具体实现如下: ...

2026-06-30 · 更新于 2026-07-02 · 2 min · 363 words

Closing the Quality Gap in Low-Resource Text-to-Speech: LoRA Fine-Tuning of VoxCPM2 for Khmer and Korean

📄 Closing the Quality Gap in Low-Resource Text-to-Speech: LoRA Fine-Tuning of VoxCPM2 for Khmer and Korean #语音合成 #参数高效微调 #低资源 #扩散模型 6/10 | 创新 1.2/2 | 严谨 1/1.5 | 实验 0.8/1.5 | 清晰 1/1 | 影响 0.8/1.5 | 开源 0/1.5 | 复现 0.5/0.5 | 工程 0.7/1.5 ✅ 6/10 | 后50% | #语音合成 | #参数高效微调 | #低资源 #扩散模型 | arxiv 👥 作者与机构 Phannet Pov, Sovandara Chhoun, Hyun Woo Park, Wan-Sup Cho, Saksonita Khoeurn 机构:柬埔寨数字研究与创新研究所、韩国相关机构(论文未明确列出具体机构全称) ...

2026-06-26 · 更新于 2026-07-02 · 2 min · 351 words

UnityShots: Memory-Driven Multi-Shot Audio-Video Generation with Boundary-Aware Gating

📄 UnityShots: Memory-Driven Multi-Shot Audio-Video Generation with Boundary-Aware Gating #扩散模型 #多模态模型 8.9/10 | 创新 1.5/2 | 严谨 1.2/1.5 | 实验 1.4/1.5 | 清晰 1/1 | 影响 0.8/1.5 | 开源 1.3/1.5 | 复现 0.5/0.5 | 工程 1.2/1.5 🔥 8.9/10 | 前25% | #扩散模型 | #多模态模型 | arxiv 👥 作者与机构 第一作者Jiehui Huang来自香港科技大学(†表示该工作在快手技术Kling团队实习期间完成),通讯作者Jiaya Jia同样来自香港科技大学。合作机构包括香港中文大学、清华大学、中山大学以及快手技术Kling团队。论文为作者列表提供了机构归属上标和脚注。 💡 毒舌点评 这篇论文在解决一个真实且重要的问题:如何在长序列中保持身份和场景的一致性。双存储器槽(LTM/STM)加边界感知门控的思路直观且有效,工程实现也颇为扎实,特别是发布的多文化基准测试集很有价值。然而,审稿人(也就是我)必须指出几点:第一,这篇工作的核心贡献(记忆驱动的视频生成)并非语音/音乐/音频领域的直接突破,其“音频”部分主要是一个固定的说话人锚点注入,缺乏对音频内容动态生成的深入建模,因此对纯音频读者的吸引力有限。第二,部分技术细节的阐述流于表面,例如门控函数的具体形式为何选择线性?Strata-RoPE的自动衰减效果有无可视化验证?这些关键设计选择缺乏令人信服的理论或实验支撑。第三,消融实验存在明显缺口,未能单独验证“边界条件门控”(尤其是音频信号融合)的必要性。最后,将Gemini-2.5-Pro作为唯一的“裁判”来评估所有多模态一致性指标,这种做法的鲁棒性和公平性值得怀疑。总体来说,这是一篇工程做得不错、想法也靠谱的音视频生成论文,但若想冲击顶级会议,还需要在技术深度的挖掘和评估方法的严谨性上再下功夫。 📌 核心摘要 UnityShots是一个基于双流扩散Transformer(LTX-2.3)的、由记忆驱动的多镜头音视频生成系统。其核心设计是引入了两个固定大小的视频记忆槽:一个长期记忆(LTM)槽锚定于初始镜头,用于保持全局身份一致;一个短期记忆(STM)槽保存前一镜头的尾帧,用于维持局部连续性。这两个记忆槽在每次镜头切换时,通过一个边界条件门控机制进行更新,该机制融合了视觉切割概率和音频节拍信号。音频方面,系统在每个镜头注入一个固定的参考说话人令牌以保持音色一致性,而非使用滑动的音频记忆窗口。论文还构建了一个包含200个序列、覆盖六大文化区域的多文化多镜头评估基准。实验表明,在I2V、T2V、R2V三种条件下,UnityShots在跨镜头一致性指标(如NC, Story, Char)上领先所有开源基线,并与强大的闭源系统Kling相当。 🔗 开源详情 代码:https://github.com/JIA-Lab-research/UnityShots (已提供) 模型权重:论文中未提供模型权重的直接下载链接。论文基于LTX-2.3模型进行构建。 数据集:论文中提及发布了一个包含200个多文化多镜头序列的评估基准测试集,但未在论文中提供具体下载链接。训练数据集(146,000个标注镜头)的构建流程在附录C中详细描述,但未提供独立的数据集下载链接。 Demo:论文中未提及在线演示链接。 复现材料: 训练配置:详细的阶段2训练超参数列于附录A的表1中。 数据集构建流程:训练数据和基准测试集的构建流水线在附录C中详细描述。 推理伪代码:完整的内存更新和推理循环伪代码在附录F中提供(算法1和算法2)。 模型检查点:论文中提到会发布模型检查点,但未提供具体下载地址。 论文中引用的开源项目: LTX-2.3:核心基础模型。 TransNetv2:用于镜头分割和视觉剪切概率计算。 WhisperX:用于转录和说话人分割。 DEMUCS:用于音频源分离。 Qwen3-VL:用于初始的多模态标注。 Gemini3-Pro:用于细粒度叙述性字幕生成。 ElevenLabs eleven_multilingual_v2:用于生成基准测试集中的参考音频。 DeepSpeed:用于分布式训练优化。 DDIM:用于推理的去噪方法。 VBench, ViCLIP:用于文本-视频对齐评估。 DINOv2:用于计算镜头间相似度(TSIM)。 Audiobox:用于音频美学评估。 CLAP:用于音频-字幕相似度评估。 (注:上述项目均为论文中明确提及或使用的工具/模型,但论文文本中未提供它们的独立开源链接。) 🏗️ 方法概述和架构 UnityShots旨在生成内容连贯、身份一致的多镜头音视频序列。其整体架构基于预训练的22B参数双流扩散Transformer(LTX-2.3),该模型能够同时去噪视频和音频潜变量。系统的核心创新在于引入了显式的、结构化的跨镜头记忆机制,该机制主要由以下组件构成: ...

2026-06-26 · 更新于 2026-07-02 · 3 min · 508 words

Adaptive Oscillatory Inductive Bias for Modeling Sharp Prosodic Dynamics in Diffusion-Based TTS

📄 Adaptive Oscillatory Inductive Bias for Modeling Sharp Prosodic Dynamics in Diffusion-Based TTS #语音合成 #扩散模型 #情感语音合成 7/10 | 创新 1/2 | 严谨 1/1.5 | 实验 1.5/1.5 | 清晰 1/1 | 影响 0.8/1.5 | 开源 0.3/1.5 | 复现 0.5/0.5 | 工程 0.9/1.5 ✅ 7/10 | 前50% | #语音合成 | #扩散模型 | #情感语音合成 | arxiv 👥 作者与机构 Sandipan Dhar, Nirmesh Shah, Ashishkumar P. Gudmalwar, Pankaj Wasnik. Sony Research India. 💡 毒舌点评 这篇论文本质上是给一个强大的现有系统(StyleTTS2)换了个激活函数,然后包装成“自适应振荡感应偏置”这样一个听起来高深的概念。创新性实在有限,相当于在 Snake 激活函数的基础上加了个可学习的缩放参数和一个恒等映射,然后声称这能更好地捕捉“尖锐的韵律转换”。论文的理论分析部分,那个四层回归模型的收敛性实验,说服力约等于零——用最简单的玩具任务来论证一个复杂的TTS模型中的关键组件,这操作有点“挂羊头卖狗肉”。实验部分倒是跑了不少指标,但分析流于表面,尤其是 WER 的剧烈变化完全没给出合理解释。最让人皱眉的是,论文声称“开源”,但根据原文,代码、模型权重链接统统没给,只给了个演示链接,这算哪门子开源?整体感觉像是一篇“增量式”的工作,包装得比实质贡献要好。 ...

2026-06-25 · 更新于 2026-07-02 · 3 min · 637 words