CoInteract: Physically-Consistent Human-Object Interaction Video Synthesis via Spatially-Structured Co-Generation

📄 CoInteract: Physically-Consistent Human-Object Interaction Video Synthesis via Spatially-Structured Co-Generation #视频生成 #扩散模型 #多模态 #人机交互 ✅ 7.5/10 | 前25% | #视频生成 | #扩散模型 | #多模态 #人机交互 | arxiv 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 中 👥 作者与机构 第一作者:Xiangyang Luo(清华大学,†阿里巴巴集团实习期间完成) 通讯作者:Xiaozhe Xin(阿里巴巴集团) 作者列表: Xiangyang Luo(清华大学,†阿里巴巴集团) Xiaozhe Xin(阿里巴巴集团,‡通讯作者) Tao Feng(阿里巴巴集团) Xu Guo(阿里巴巴集团) Meiguang Jin(阿里巴巴集团) Junfeng Ma(阿里巴巴集团) 💡 毒舌点评 亮点在于其“训练时注入物理约束,推理时零开销”的双流范式设计非常巧妙,有效平衡了生成质量与效率;但短板是论文对所用数据集的具体构成、清洗标准和规模描述模糊(仅称“12K high-quality clips”),且未公开数据集,这严重限制了工作的可复现性和公平比较的基础。 🔗 开源详情 代码:论文中提及了GitHub项目页面链接(https://xinxiaozhe12345.github.io/CoInteract_Project/),表明有开源计划,但未明确说明代码是否已公开及仓库地址。 模型权重:论文中未提及是否公开预训练或微调后的模型权重。 数据集:论文中描述了自建数据集的规模和内容,但明确未提及是否公开或如何获取。 Demo:论文中未提及是否提供在线演示。 复现材料:论文提供了部分训练细节(如优化器、学习率、迭代次数、损失权重)和推理设置,但缺少关键信息如batch size、总训练时长、GPU配置、完整的超参数列表。 论文中引用的开源项目:引用了Qwen-Edit(用于数据解耦)、SAM3和SAM3D-body(用于生成几何监督)、MediaPipe和DWPose(用于手脸检测)、WanS2V(作为初始化基础)、以及多种基线模型。 开源计划:论文中未明确提及具体的开源时间表或承诺。 📌 核心摘要 问题:现有视频扩散模型在生成人机交互(HOI)视频时,常出现手/脸结构崩溃和人机物理穿透等问题,根源在于模型缺乏对3D空间关系和交互结构的理解。 方法核心:提出CoInteract框架,核心是“空间结构化协同生成”范式。在一个共享的DiT骨干中联合训练RGB外观流和辅助的HOI结构流(去除纹理的轮廓图),后者通过非对称注意力机制向RGB流注入几何约束。同时,引入“人感知混合专家”模块,通过空间监督路由将手/脸区域的token分配给专用专家处理。 新意:首次将物理交互先验直接嵌入视频生成骨干网络的训练过程,并通过非对称掩码设计确保推理时无需辅助分支,实现了零额外开销。相比依赖外部预处理或后处理的方法,这是一种更端到端的解决方案。 结果:在多个指标上显著超越现有方法。例如,在VLM-QA(HOI合理性)上达到0.72(最佳),HQ(手部质量)达到0.724(最佳),用户研究在交互合理性上排名第一(平均排名1.79)。消融实验证明每个组件都有效。 意义:推动了高质量、物理一致的HOI视频合成技术发展,对电商直播、虚拟广告等应用有直接价值。 局限性:所用数据集未公开,具体规模和细节不足;模型在极端复杂或罕见交互上的泛化能力未充分验证;训练所需的计算资源(如GPU时长)未说明。 🏗️ 模型架构 CoInteract是一个端到端的视频生成框架,基于Diffusion Transformer(DiT)骨干构建。 ...

2026-04-23 · 更新于 2026-05-20 · 2 min · 276 words

Anonymization, Not Elimination: Utility-Preserved Speech Anonymization

📄 Anonymization, Not Elimination: Utility-Preserved Speech Anonymization #语音匿名化 #流匹配 #扩散模型 #模型评估 #音频安全 🔥 评分:8.5/10 | arxiv 👥 作者与机构 第一作者:Yunchong Xiao*, Yuxiang Zhao*(上海交通大学,计算机科学与技术学院,X-LANCE实验室) 通讯作者:Jiachun Liao(南湖实验室,大数据技术研究中心),Xie Chen(上海交通大学,计算机科学与技术学院,X-LANCE实验室) 其他作者: Ziyang Ma(上海交通大学,计算机科学与技术学院,X-LANCE实验室) Shuai Wang(南京大学,智能科学与技术学院) Kai Yu(上海交通大学,计算机科学与技术学院,X-LANCE实验室) 💡 毒舌点评 这篇论文的亮点在于把“匿名化”和“消除”分得门儿清,用流匹配生成千变万化的新“声纹”,而不是粗暴地抹掉或替换,还煞有介事地设计了从头训练下游模型的评估协议,这比那些拿预训练模型在匿名数据上跑个分就完事的“表面功夫”扎实多了。槽点嘛,内容匿名化部分对“语言风格”这种更隐蔽的PII保护力度似乎还不够,而且这么复杂的两阶段框架,真要部署到实时系统里,估计得把服务器累得够呛。 🔗 开源详情 代码:论文中提到“GitHub Issue”,并在摘要后提供了“GitHub”链接(但未在提供的文本中显示具体URL)。论文正文也提到“Please view the build logs for errors. Generated by L A T E xml.”,表明其HTML版本由LaTeXML生成,但这不是代码仓库。推断代码已开源或计划开源,具体地址需查看原论文PDF或arXiv页面。 模型权重:论文中未明确提及是否公开预训练模型权重(如骨干网络、匿名器、SECA管道中的各组件)。 数据集:实验使用公开数据集:LibriSpeech, LibriTTS, IEMOCAP, WikiAnn。论文未提及发布新的数据集。 预训练权重:论文中引用了多个预训练模型:HuBERT-large, CAM++, ECAPA-TDNN (用于评估), Flair NER, F5-TTS, Whisper-large-v3 (用于评估), Emotion2Vec (用于评估)。这些均非本文作者训练。 在线 Demo:论文中未提及。 依赖的开源项目:PyTorch, icefall (ASR训练配方), F5-TTS仓库, SpeechBrain (ECAPA-TDNN), HuggingFace Transformers/Models (多个模型), RMVPE等。 📌 核心摘要 这篇论文针对语音数据隐私保护中“隐私泄露”与“数据效用损失”的核心矛盾,提出了一个新颖的两阶段框架。首先,为解决语音匿名化(保护“谁在说”)中身份多样性不足和可控性差的问题,提出了基于流匹配的说话人嵌入匿名器(F3-VA),它能生成多样且与原始说话人充分分离的新身份。其次,为解决内容匿名化(保护“说了什么”)中传统删除/替换方法导致的声学不连续问题,提出了基于生成式语音编辑的管道(SECA),能无缝替换个人隐私信息。更重要的是,论文提出了一种更真实的效用评估协议,即通过在匿名化数据上从头训练ASR、TTS和SER模型来评估其作为训练资源的价值,而非仅在预训练模型上测试。实验表明,该框架在VoicePrivacy Challenge基线对比中,在提供更强隐私保护(更高的声学和内容验证等错误率)的同时,显著降低了下游任务性能的损失。 ...

2026-04-21 · 更新于 2026-05-20 · 3 min · 568 words

Latent Fourier Transform

📄 Latent Fourier Transform #音乐生成 #扩散模型 #生成模型 #数据集 #音频生成 ✅ 评分:7.5/10 | arxiv 👥 作者与机构 第一作者:Mason L. Wang (MIT CSAIL) 通讯作者:Cheng-Zhi Anna Huang (MIT CSAIL) 其他作者:无 💡 毒舌点评 亮点:这篇论文最妙的地方在于,它没有去折腾音频波形本身,而是聪明地给音乐模型的“脑内活动”(潜在表示)做了一次傅里叶体检,然后像调EQ一样去调节音乐在不同时间尺度上的特征,思路非常清奇且有效。槽点:目前这“脑内手术”需要专门训练一套模型才能做,还不能直接给一个现成的音乐生成模型(如MusicLM)装上这个“傅里叶控制插件”,限制了其即插即用的潜力。 🔗 开源详情 代码:已开源。GitHub地址:https://github.com/maswang32/latentfouriertransform/。包含模型训练、推理、混合、可解释性分析代码,以及所有基线实现和实验管道。 模型权重:论文中未明确提及是否公开预训练模型权重。 数据集:使用了公开数据集MTG-Jamendo、GTZAN和Maestro。 在线Demo:论文中未提及。 📌 核心摘要 这篇论文旨在解决现有音乐生成模型难以对任意时间尺度上的音乐模式进行精确控制的问题。作者提出了潜在傅里叶变换(LatentFT) 框架,其核心是将离散傅里叶变换应用于由扩散自编码器编码得到的潜在向量序列,从而得到“潜在频谱”。通过在训练过程中对潜在频谱进行随机频率掩码,迫使解码器学会从部分频率信息中重建音乐,使得训练后的模型潜在空间对频率域操作具有鲁棒性。这使得用户可以在推理时,通过指定潜在频率(对应音乐模式的时间尺度)来生成保留特定尺度特征的变体,或将两首乐曲按不同时间尺度进行混合。实验表明,LatentFT在条件生成和混合任务的保真度与质量上均优于多个基线方法。用户研究也证实了其生成质量和混合效果更受青睐。此外,论文还展示了隔离特定潜在频率以“聆听”对应音乐模式,以及分析不同音乐属性(如流派、和声、节奏)在潜在频谱中分布的能力。该工作为生成模型引入了一种直观、连续的频率域控制维度,推动了更可解释、可交互的音乐生成模型的发展。其局限性在于需要端到端训练特定模型,且目前主要应用于音乐领域。 🏗️ 模型架构 LatentFT 是一个端到端的编码器-解码器架构,其完整流程如下: 编码阶段: 输入:音频波形或梅尔频谱图 x₀。 编码器:将 x₀ 映射为一个时间序列的潜在向量 z ∈ R^(C'×T')。论文尝试了三种编码器:帧级MLP、1D U-Net(基于梅尔谱)和基于Descript音频编解码器(DAC)的编码器+1D U-Net。 潜在傅里叶变换:对潜在序列 z 沿时间轴应用离散傅里叶变换(DFT),得到潜在频谱 Z ∈ C^(C'×K)。Z 的频率轴称为潜在频率轴,其上的频率(Hz)对应于潜在序列振荡的速率,即音乐模式的时间尺度。 频率掩码(训练时随机,推理时用户指定): 采样一个随机阈值 η 和一组频率分箱得分 s(通过相关矩阵 K 生成,使相邻分箱得分相关)。 生成二进制掩码 M,保留得分高于阈值的分箱。 应用掩码:Z_masked = Z ⊙ M。 逆变换:对掩码后的频谱 Z_masked 应用逆DFT,得到频率掩码后的潜在序列 z_masked。 解码/生成阶段: 解码器:一个基于扩散模型的U-Net。其输入是:(a) 频率掩码后的潜在序列 z_masked(作为条件),(b) 带噪的梅尔频谱图 x_τ(训练时为加噪的真实数据,推理时为随机噪声),(c) 噪声水平 τ。 输出:预测的干净梅尔频谱图 x̂₀。最终通过BigVGAN声码器将梅尔谱转换为音频波形。 关键设计理由: 使用扩散自编码器:结合了表示学习(编码器)和强大的生成能力(扩散解码器),且其潜在表示具有语义意义。 在潜在空间而非音频空间做傅里叶变换:音频的频谱对应音色,而潜在序列的频谱对应音乐模式的时间变化(如和弦变化、节奏型)。这使得控制直接作用于音乐结构。 训练时频率掩码:这是核心创新。它迫使解码器学会从不完整的频率信息中连贯地重建音乐,从而使潜在空间对频率域操作(如掩码、混合)变得鲁棒。没有这一步,直接对预训练模型的潜在表示进行频率滤波会导致生成质量严重下降(如消融实验所示)。 相关分组与对数频率缩放:生成连续的掩码区域,更符合用户实际操作习惯,并平衡了1/f频谱中高低频能量不均的问题。 💡 核心创新点 潜在傅里叶变换(Latent Fourier Transform)的概念: ...

2026-04-21 · 更新于 2026-05-20 · 2 min · 342 words

Beyond Monologue: Interactive Talking-Listening Avatar Generation with Conversational Audio Context-Aware Kernels

📄 Beyond Monologue: Interactive Talking-Listening Avatar Generation with Conversational Audio Context-Aware Kernels #音视频 #扩散模型 #多模态模型 #数据集 #全双工交互 🔥 评分:9.0/10 | arxiv 👥 作者与机构 第一作者:Yuzhe Weng (翁宇哲),中国科学技术大学 (USTC) 通讯作者:Jun Du (杜俊),中国科学技术大学 (USTC),邮箱:jundu@ustc.edu.cn 其他作者: Haotian Wang (王浩天),中国科学技术大学 (USTC) Xinyi Yu (余欣怿),中国科学技术大学 (USTC) Xiaoyan Wu (吴晓燕),科大讯飞 (iFLYTEK) Haoran Xu (徐浩然),科大讯飞 (iFLYTEK) Shan He (何山),科大讯飞 (iFLYTEK) 💡 毒舌点评 亮点:用“多尺度高斯核注意力”这个优雅的数学工具,把“看口型”和“懂语境”这两个打架的脑区给整合到一个模型里了,思路清晰又有效。槽点:虽然建模了上半身反应,但离生成真正富有表现力的、带手势的全身交互动作还有距离,算是给未来挖了个大坑。 🔗 开源详情 代码:论文提到了GitHub仓库(Report GitHub Issue ×),表明代码部分开源(可能指推理代码或核心模块)。 项目主页:提供了BeyondMonologue-Page链接,用于展示更多结果和信息。 模型权重:论文中未明确说明是否公开预训练模型权重。 数据集:构建了大规模数据集VoxHear(1206小时),论文中未明确说明是否完全公开,但通常此类工作会部分公开或提供获取方式。 在线Demo:论文中未提及在线Demo。 依赖的开源项目:论文中明确提及的开源工具/模型包括:Wan2.2(视频生成骨干)、Wav2Vec 2.0(音频编码)、MossFormer2(语音分离,来自ClearVoice工具包)、SyncNet(唇同步验证)、DWPose(姿态估计)、IP-Adapter(适配器范式)。 📌 核心摘要 本文旨在解决从单向“独白”式虚拟人生成迈向自然“全双工”交互式生成的核心挑战。核心问题在于,现有方法要么因严格的帧对齐而反应僵硬,要么因引入全局注意力而破坏唇同步。关键方法是提出一个基于多头高斯核(MHGK)的统一注意力架构,该机制通过为不同的注意力头分配从窄到宽的高斯分布感受野,使模型能同时学习精细的唇形对齐(窄感受野)和长程的对话上下文(宽感受野)。此外,论文构建了双流架构以处理同步的说话与聆听音频,并引入任意位置引导训练策略以提升长视频生成的稳定性。为支撑研究,还构建了大规模、音视频解耦的对话数据集VoxHear(1206小时)。主要发现表明,该方法在唇同步精度、身份保持、视觉质量和用户感知自然度等多个维度上均显著优于现有技术。实际意义在于为构建能理解对话上下文并做出自然反应的下一代交互式数字人提供了坚实的技术框架和数据基础。局限性在于目前主要聚焦于上半身反应,对更复杂全身姿态和手势的生成能力有待探索。 🏗️ 模型架构 本模型是一个基于流匹配(Flow Matching) 和扩散Transformer(DiT) 的端到端视频生成框架,旨在根据一张参考肖像图、一段说话音频和一段聆听音频,生成对应的交互式视频。 ...

2026-04-20 · 更新于 2026-05-20 · 3 min · 528 words

Elucidating the SNR-t Bias of Diffusion Probabilistic Models

📄 Elucidating the SNR-t Bias of Diffusion Probabilistic Models #扩散模型 #生成模型 #模型评估 🔥 评分:8.0/10 | arxiv 👥 作者与机构 第一作者:Meng Yu (兰州大学,AMAP阿里巴巴集团) 通讯作者:Kun Zhan (兰州大学) 其他作者:Lei Sun (AMAP阿里巴巴集团), Jianhao Zeng (AMAP阿里巴巴集团), Xiangxiang Chu (AMAP阿里巴巴集团) 注:论文说明工作是在AMAP阿里巴巴集团实习期间完成的。 💡 毒舌点评 亮点在于,它像一个侦探,揪出了扩散模型里一个藏得很深的“内鬼”——SNR-t偏差,并给出了“犯罪动机”(理论证明)和“抓捕方案”(DCW校正)。槽点是,这个“抓捕方案”虽然有效,但更像是对现有工具(小波变换、差分引导)的精巧组装,而不是发明了全新的武器,理论深度和方法的新颖性相比其提出的问题深度略有逊色。 🔗 开源详情 代码:已开源。GitHub地址:https://github.com/AMAP-ML/DCW。论文中提到“The code is at …”。 模型权重:论文中未提及公开预训练的扩散模型权重。DCW是推理方法,无需特定权重。 数据集:实验使用标准公开学术数据集(CIFAR-10, CelebA, ImageNet, LSUN),未提供新数据集。 在线Demo:论文中未提及。 依赖开源项目:论文中引用的开源模型/框架包括:IDDPM, ADM, DDIM, A-DPM, EA-DPM, EDM, DiT, PFGM++, FLUX, Qwen-Image等。DCW的实现可能依赖于这些模型的官方代码库。 📌 核心摘要 这篇论文的核心贡献是识别并系统分析了扩散概率模型(DPMs)中一个基础性问题——信噪比-时间步(SNR-t)偏差。该偏差指推理时去噪样本的实际SNR与其所分配时间步t所理论对应的SNR不匹配,这种错位源于训练时的严格耦合在推理时被累积误差打破。作者通过详实的实验(滑动窗口测试、前向与反向过程对比)揭示了网络对SNR不匹配样本的预测规律,并提供了理论证明。为缓解此偏差,论文提出了一种无需训练、即插即用的动态差分校正方法(DCW),它在小波域对不同频率分量进行校正,以对齐反向样本分布与前向扰动分布。实验表明,DCW能显著提升包括IDDPM、ADM、EDM、FLUX等在内的多种DPMs在CIFAR-10、ImageNet等数据集上的生成质量(如FID降低),且计算开销可忽略不计。 🏗️ 模型架构 本文的核心并非提出一个全新的扩散模型架构,而是对现有DPMs(如DDPM、ADM、EDM等)的推理过程进行分析并提出一个即插即用的校正模块。整体流程如下: 输入:标准高斯噪声 x_T。 标准扩散推理过程:使用任意现有的DPM(如ADM)及其采样器(如DDIM),进行T步迭代去噪。在每一步t,网络 ε_θ(·, t) 根据当前样本 x_t 和时间步t预测噪声,并据此计算去噪样本 x_{t-1} 和重建样本 x_θ^0(x_t, t)。 SNR-t偏差分析:论文发现,由于误差累积,反向过程得到的样本 x̂_t 的实际SNR低于其时间步t对应的理论SNR(Key Finding 2),这导致网络预测出现系统性偏差(Key Finding 1:低SNR输入导致噪声预测高估)。 DCW校正模块(核心贡献):在每一步去噪后,不直接使用 x_{t-1} 作为下一步输入,而是对其进行校正。 a. 差分校正信号生成:计算当前步的去噪结果 x̂_{t-1} 与重建样本 x_θ^0(x̂_t, t) 之间的差值信号 d = x̂_{t-1} - x_θ^0(x̂_t, t)。理论分析(Eq. 16)表明,该差值信号包含了指向理想扰动样本 x_{t-1} 的梯度信息。 b. 小波域分解:为对齐DPM“先低频后高频”的去噪特性并减少噪声干扰,将 x̂_{t-1} 和 x_θ^0(x̂_t, t) 通过离散小波变换(DWT)分解为四个子带:低频(ll)和三个高频(lh, hl, hh)。 c. 分频率校正:对每个子带 f 分别应用差分校正:x̃_{t-1}^f = x̂_{t-1}^f + λ_t^f * (x̂_{t-1}^f - x_θ^0_f(x̂_t, t))。其中 λ_t^f 是动态权重。 d. 动态权重策略:权重 λ_t^f 根据时间步和频率分量动态调整。利用反向过程方差 σ_t 作为去噪进度指示器。低频权重 λ_t^l = λ_l * σ_t(早期去噪阶段权重高),高频权重 λ_t^h = (1 - λ_h) * σ_t(后期去噪阶段权重高)。 e. 重构:将校正后的各子带通过逆离散小波变换(iDWT)合并,得到校正后的样本 x̃_{t-1},作为下一步迭代的输入。 输出:经过T步(包含DCW校正)后,得到最终生成的干净样本 x_0。 关键设计理由: ...

2026-04-20 · 更新于 2026-05-20 · 3 min · 439 words

Hierarchical Codec Diffusion for Video-to-Speech Generation

📄 Hierarchical Codec Diffusion for Video-to-Speech Generation #语音合成 #扩散模型 #多模态模型 #零样本 #跨模态 🔥 评分:8.5/10 | arxiv 👥 作者与机构 第一作者:Jiaxin Ye(Fudan University) 通讯作者:Hongming Shan(Fudan University,hmshan@fudan.edu.cn) 其他作者: Gaoxiang Cong(Institute of Computing Technology, Chinese Academy of Sciences;University of Chinese Academy of Sciences) Chenhui Wang(Fudan University) Xin-Cheng Wen(Harbin Institute of Technology (Shenzhen)) Zhaoyang Li(Fudan University) Boyuan Cao(Fudan University) 💡 毒舌点评 亮点:这篇论文像个严谨的“交通协管员”,终于把 RVQ 不同层级当成了不同的车道——让嘴唇和身份去底层飙内容,让表情去高层管情绪,治好了 VTS 领域长期存在的“视觉条件瞎注入”的拥堵病。 槽点:虽然口口声声“首个”层次化离散扩散,但骨子里是 SEDD + MaskGCT Codec + DiT AdaLN 的“学术拼好饭”;更妙的是训练时偷偷用真实音频的 GE2E 特征来 stabilize 模型,推理时却只能看脸硬撑,这算不算一种“开卷考试练出的学霸”? ...

2026-04-20 · 更新于 2026-05-20 · 6 min · 1219 words

ControlFoley: Unified and Controllable Video-to-Audio Generation with Cross-Modal Conflict Handling

📄 ControlFoley: Unified and Controllable Video-to-Audio Generation with Cross-Modal Conflict Handling #音频生成 #多模态模型 #扩散模型 #基准测试 🔥 评分:9.2/10 | arxiv 👥 作者与机构 第一作者:Jianxuan Yang(小米 MiLM Plus) 通讯作者:Jian Luan(小米 MiLM Plus) 其他作者: Xinyue Guo(小米 MiLM Plus) Zhi Cheng(小米 MiLM Plus,武汉大学) Kai Wang(小米 MiLM Plus,武汉大学) Lipan Zhang(小米 MiLM Plus) Jinjie Hu(小米 MiLM Plus) Qiang Ji(小米 MiLM Plus) Yihua Cao(小米 MiLM Plus) Yihao Meng(小米 MiLM Plus,武汉大学) Zhaoyue Cui(小米 MiLM Plus,武汉大学) Mengmei Liu(小米 MiLM Plus) Meng Meng(小米 MiLM Plus) (所有作者均来自“Xiaomi LLM Core Team”或“MiLM Plus, Xiaomi Inc.”,部分作者有武汉大学的联合署名) 💡 毒舌点评 亮点:这篇论文精准地抓住了当前视频到音频生成领域的两大痛点——“文本说啥视频不听”和“参考音频带节奏还抢戏”,并给出了系统性的解决方案,尤其是提出的VGGSound-TVC基准,简直是给“视觉霸权”模型们准备的“照妖镜”。 槽点:方法虽然精巧,但本质上是“堆料”的艺术——双视觉编码器、多模态对齐损失、复杂的训练策略,对算力和数据的需求不低,感觉是在用“钞能力”解决“控制力”问题,小团队复现起来可能要掉头发。 ...

2026-04-19 · 更新于 2026-05-20 · 2 min · 370 words

CoSyncDiT: Cognitive Synchronous Diffusion Transformer for Movie Dubbing

📄 CoSyncDiT: Cognitive Synchronous Diffusion Transformer for Movie Dubbing #语音克隆 #扩散模型 #流匹配 #多模态 🔥 评分:8.5/10 | arxiv 👥 作者与机构 第一作者:Gaoxiang Cong(推测,因其在作者列表中排首位,且为论文主要工作贡献者) 通讯作者:Qingming Huang(推测,因其为资深作者,且通常通讯作者在最后) 其他作者及机构: Gaoxiang Cong, Liang Li, Jiaxin Ye, Zhedong Zhang, Hongming Shan:中国科学院计算技术研究所(Institute of Computing Technology, Chinese Academy of Sciences)/ 中国科学院大学(University of Chinese Academy of Sciences) Yuankai Qi:复旦大学(Fudan University) Qingming Huang:中国科学院计算技术研究所 / 杭州电子科技大学(Hangzhou Dianzi University) / 麦考瑞大学(Macquarie University) 💡 毒舌点评 亮点:把配音演员“听-看-说”的认知过程拆解成模型的三阶段流水线,这个思路相当优雅,不仅解决了特征早期纠缠的问题,还让复杂的对齐任务变得模块化、可解释。槽点:论文里“认知同步”、“渐进式引导”这类高大上的词汇层出不穷,但核心的JSAR机制本质上还是对比学习+CTC损失的“老三样”,创新包装大于内核突破。另外,号称完全消除外部对齐工具依赖,但训练时却用上了预训练的AV-HuBERT,这算不算一种“隐形”的依赖呢? 🔗 开源详情 代码:论文中明确表示“We will open-source all detailed experimental settings, source code, and pre-trained weights.”(我们将开源所有详细的实验设置、源代码和预训练权重)。但截至分析时,未提供具体的GitHub链接。 模型权重:承诺开源预训练权重。 数据集:实验中使用了Chem, CelebV-Dub, CinePile-Dub数据集。论文未提及是否会开源新的数据集。 在线Demo:论文中未提及。 引用的开源项目:论文中提及并依赖了多个开源工具/模型:AV-HuBERT(用于唇部特征提取和JSAR中的对比目标)、ConvNeXtV2(文本编码器)、Whisper-large-V3(用于计算WER)、Emotion2Vec(用于计算EMOSIM)、WavLM-TDNN(用于计算SPKSIM)。 📌 核心摘要 本文针对电影配音(视觉语音克隆)中音色保真度与唇形同步难以兼得的痛点,提出了一种基于流匹配的认知同步扩散Transformer(CoSyncDiT)框架。该方法受专业配音员认知过程启发,将噪声到语音的生成过程解耦为三个顺序阶段:声学风格适应、细粒度视觉校准和时间感知上下文对齐,从而渐进式地引导生成轨迹,避免了早期多模态特征干扰。为进一步稳定训练并提升对齐精度,作者设计了联合语义与对齐正则化(JSAR)机制,在中间上下文输出上施加帧级对比学习以强化时间一致性,在最终隐藏状态上施加CTC损失以保障语义正确性。在多个标准数据集及具有挑战性的“野外”场景下的实验表明,CoSyncDiT在说话人相似度、发音清晰度、情感相似度和音视频同步等关键指标上均取得了当前最佳性能,尤其在零样本和跨领域设定下展现出卓越的鲁棒性。 ...

2026-04-19 · 更新于 2026-05-20 · 3 min · 482 words

Diffusion Language Models for Speech Recognition

📄 Diffusion Language Models for Speech Recognition #语音识别 #扩散模型 #大语言模型 🔥 评分:8.5/10 | arxiv 👥 作者与机构 第一作者:Davyd Naveriani (推断为RWTH Aachen University) 通讯作者:Albert Zeyer (推断为RWTH Aachen University) 其他作者:Ralf Schlüter (RWTH Aachen University), Hermann Ney (RWTH Aachen University) 机构推断:所有作者均来自德国亚琛工业大学(RWTH Aachen University)的计算机科学系,具体为Human Language Technology and Pattern Recognition (HLTPR) 课题组。论文中未直接标注机构,但根据论文作者一贯的归属以及arXiv上该团队的历史论文可以明确推断。 💡 毒舌点评 亮点:把当下火热的扩散模型从图像领域“跨界”应用到语音识别的文本重打分上,思路新颖,并且很务实地设计了结合传统CTC的混合解码方法,不是为了用扩散而用扩散。槽点:创新更多在于“应用”和“组合”,而非提出全新的扩散模型架构;作为一篇方法论论文,实验部分在摘要中略显单薄,缺乏具体的数字支撑其“显著提升”的结论。 🔗 开源详情 代码:论文明确声明“We publish all our code and recipes.”(我们发布了所有代码和配方)。这通常意味着代码将在论文被接收或公开后发布在GitHub等平台。论文摘要中未提供具体链接,需在全文或作者主页查找。 模型权重:未提及是否公开预训练好的扩散语言模型权重。很可能需要使用公开的预训练模型(如从HuggingFace获取的MDLM/USDM检查点)或自行训练。 数据集:实验所用的数据集应为公开的语音识别基准数据集(如LibriSpeech),论文中会说明。 预训练权重:联合解码中的ASR编码器和扩散语言模型都依赖预训练权重,论文应说明其来源。 在线Demo:未提及。 引用的开源项目:很可能依赖于HuggingFace Transformers库(用于加载预训练模型)、KenLM(用于语言模型)、以及标准的语音处理工具包(如ESPnet, Kaldi的组件)。 📌 核心摘要 这篇论文探索了将扩散语言模型(DLM)应用于自动语音识别(ASR)任务的新方法。其核心目标是利用扩散模型的双向注意和并行生成能力,来提升基于传统编码器(如CTC)生成的ASR候选假设的准确性。论文主要贡献包括:1)系统性地介绍了如何将掩码扩散语言模型(MDLM)和均匀状态扩散模型(USDM)用于ASR假设的重打分(Rescoring);2)创新性地提出了一种CTC与USDM的联合解码(Joint-Decoding)方法,在解码的每一步融合CTC的帧级声学概率分布与USDM的标签级语言概率分布,从而生成兼具声学与强大语言先验知识的新候选。实验表明,这两种扩散模型都能显著提升识别文本的准确率。该研究为将前沿的生成式语言模型整合到成熟的语音识别 pipeline 中提供了实用的指南和新的混合解码范式。 🏗️ 模型架构 论文并未提出一个全新的端到端模型,而是探索如何将预训练好的扩散语言模型(MDLM或USDM) 集成到现有的ASR解码流程中。整体流程分为两个主要应用场景: ...

2026-04-19 · 更新于 2026-05-20 · 2 min · 253 words

Tora3: Trajectory-Guided Audio-Video Generation with Physical Coherence

📄 Tora3: Trajectory-Guided Audio-Video Generation with Physical Coherence #音频生成 #音视频 #多模态模型 #扩散模型 ✅ 评分:7.8/10 | arxiv 👥 作者与机构 第一作者:Junchao Liao (阿里巴巴云计算) 通讯作者:Long Qin (阿里巴巴云计算,复旦大学),Weizhi Wang (阿里巴巴云计算) 其他作者: Zhenghao Zhang (阿里巴巴云计算) Xiangyu Meng (阿里巴巴云计算) Litao Li (阿里巴巴云计算) Ziying Zhang (阿里巴巴云计算) Siyu Zhu (复旦大学) 机构信息:主要来自阿里巴巴云计算(具体为阿里云智能集团)和复旦大学。论文未明确标注具体实验室。 💡 毒舌点评 亮点:论文的核心洞察——将稀疏的物体轨迹从单纯的视频控制信号,提升为跨模态共享的“运动学先验”,并以此统一约束视频中的物体运动与音频中的事件时序和强度,这个切入点非常聪明且具有物理直觉,是解决音画不同步“老大难”问题的一次优雅尝试。 槽点:论文在方法描述上过于“学术八股”,把一个直观的想法包裹在复杂的公式和模块命名里(比如“Hybrid Flow Matching”本质上就是区域自适应的噪声调度)。另外,新构建的PAV数据集号称有46万条,但数据清洗和轨迹提取的细节(如CoTracker3在复杂场景下的失败案例)对结果可靠性的影响被一笔带过,有“大力出奇迹”之嫌。 🔗 开源详情 代码:论文中提到“Please view the build logs for errors. Generated by L A T E xml.” 并指向一个GitHub issue页面,暗示代码可能计划开源或部分开源,但未提供明确的GitHub仓库地址。论文中未明确提供开源代码链接。 模型权重:论文未提及是否公开预训练模型权重。 数据集:论文构建了PAV数据集(46万片段),但未提及是否公开该数据集。 预训练权重:模型从预训练的Ovi检查点初始化。 在线Demo:论文中未提及在线演示地址。 引用的开源项目:论文引用了多个开源工具和模型,包括:Qwen3-VL、SAM2、CoTracker3、Ovi、CLIP、CLAP、AudioBox-Aesthetics、MANIQA、MUSIQ、CAV-MAE Sync等。 📌 核心摘要 本文针对现有音视频(AV)生成模型中存在的运动不真实、声音与运动事件不同步、声音强度与运动强度不匹配等问题,提出了Tora3框架。其核心创新在于将物体轨迹视为连接视觉与听觉模态的共享运动学先验,而非仅用于控制视频。为实现这一目标,Tora3包含三个关键技术组件:1)轨迹对齐的运动表示,通过在视频潜在空间中直接沿轨迹传播首帧特征来注入运动线索,避免了额外运动编码器的引入;2)运动学-音频对齐模块,从轨迹中推导出位置、速度、加速度等二阶运动学状态,并通过交叉注意力注入音频扩散模型,为声音生成提供精确的事件时序和强度提示;3)混合流匹配机制,对轨迹区域和非轨迹区域采用不同的概率流,以在保持轨迹保真度的同时维持局部外观一致性。此外,论文构建了一个大规模、以运动为中心的PAV数据集(46万片段)。实验表明,Tora3在视频质量(FVD 784.1)、轨迹跟随精度(TE 12.13)、音视频同步(FGAS 0.234)以及运动-声音相关性(MAIC 0.63)上均优于强基线模型。局限性在于其效果高度依赖于输入轨迹的质量与准确性,且对复杂物理交互(如材质、3D声学)的建模能力有限。 ...

2026-04-19 · 更新于 2026-05-20 · 3 min · 531 words