Wave-Trainer-Fit: Neural Vocoder With Trainable Prior And Fixed-Point Iteration Towards High-Quality Speech Generation From SSL Features

📄 Wave-Trainer-Fit: Neural Vocoder With Trainable Prior And Fixed-Point Iteration Towards High-Quality Speech Generation From SSL Features #语音合成 #生成模型 #自监督学习 #扩散模型 #鲁棒性 ✅ 7.0/10 | 前25% | #语音合成 | #生成模型 | #自监督学习 #扩散模型 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度 高 👥 作者与机构 第一作者:Hien Ohnaka(Nara Institute of Science and Technology) 通讯作者:未说明 作者列表: Hien Ohnaka(Nara Institute of Science and Technology) Yuma Shirahata(LY Corporation, Tokyo, Japan) Masaya Kawamura(LY Corporation, Tokyo, Japan) 💡 毒舌点评 亮点:该工作敏锐地抓住了将基于梅尔谱设计的声码器(WaveFit)迁移到SSL特征时遇到的两个核心痛点(初始噪声和增益调整),并提出了优雅的解决方案。在说话人相似度指标(S-MOS)上取得了显著且一致的提升,尤其是使用Whisper特征时,这证明了方法的有效性。短板:方法在自然度(N-MOS)上的表现并不稳定,甚至在使用某些SSL特征时被基线反超,这暗示了“可训练先验”可能引入了新的不稳定性或对超参数过于敏感,论文对此的讨论和验证尚不充分。 ...

2026-04-29 · 更新于 2026-06-19 · 2 min · 338 words

Wavenext 2: Convnext-Based Fast Neural Vocoders with Residual Denoising and Sub-Modeling for Gan And Diffusion Models

📄 Wavenext 2: Convnext-Based Fast Neural Vocoders with Residual Denoising and Sub-Modeling for Gan And Diffusion Models #语音合成 #卷积神经网络 #扩散模型 #对抗生成网络 🔥 9.0/10 | 前25% | #语音合成 | #卷积神经网络 | #扩散模型 #对抗生成网络 学术质量 7.5/7 | 选题价值 1.5/2 | 复现加成 0.3 | 置信度 高 👥 作者与机构 第一作者:Wangzixi Zhou(奈良先端科学技术大学院大学 & 日本信息通信研究机构) 通讯作者:未说明 作者列表:Wangzixi Zhou(奈良先端科学技术大学院大学 & 日本信息通信研究机构)、Takuma Okamoto(日本信息通信研究机构)、Yamato Ohtani(日本信息通信研究机构)、Sakriani Sakti(奈良先端科学技术大学院大学)、Hisashi Kawai(日本信息通信研究机构) 💡 毒舌点评 该论文的最大亮点在于其“统一框架”的野心和务实的工程优化,用一个基于ConvNeXt的模块巧妙兼容了GAN与扩散两条技术路线,特别是将扩散模型声码器的训练时间压缩到32小时,对资源敏感场景极具吸引力。然而,其创新更多是架构整合与效率优化,而非底层原理突破,且随着迭代次数增加,模型大小线性膨胀(从15M到75M)的短板在资源严格受限的边缘设备上可能会抵消其部分速度优势。 🔗 开源详情 代码:论文中提供了演示页面链接 (https://37integer.github.io/WAVENEXT-2),但未提及WaveNeXt 2代码仓库链接。论文中引用了多个开源项目作为基线实现。 模型权重:未提及是否公开预训练模型权重。 数据集:使用的是公开的LibriTTS-R数据集。 Demo:提供在线演示页面。 复现材料:提供了部分复现信息,包括训练硬件(A100 40GB)、训练时长、关键超参数(如梅尔谱维度、跳步大小、噪声调度等),但未提供完整的训练脚本、配置文件或检查点。 论文中引用的开源项目:ParallelWaveGAN(用于HiFi-GAN实现)、wavefit-pytorch、FastDiff官方实现、Vocos官方实现、BDDM(用于噪声调度预测)。 📌 核心摘要 要解决什么问题:现有神经声码器大多局限于GAN或扩散模型中的一种,难以统一;且原始的ConvNeXt声码器(如WaveNeXt)在多说话人场景下性能有限。 方法核心是什么:提出WaveNeXt 2,一个统一的ConvNeXt生成器框架,其核心是残差去噪子模型设计。生成器预测的是每一步的噪声分量,而非直接预测波形,从而使同一架构可适配GAN(采用固定点���代)和扩散模型(采用分阶段子模型训练)两种训练范式。 与已有方法相比新在哪里:首次将ConvNeXt架构同时应用于GAN和扩散声码器;通过子模型训练策略改进了原始WaveNeXt在多说话人上的不足;简化了WaveFit的训练流程(移除了不必要的初始噪声和增益调整)。 主要实验结果如何:在多说话人数据集LibriTTS-R上进行验证,结果如下表所示。GAN-WaveNeXt 2在推理速度上显著优于WaveFit和HiFi-GAN,同时保持质量相当;Diff-WaveNeXt 2在训练效率(仅需32小时)和CPU推理速度上远超FastDiff,并取得竞争性的质量。 模型 RTF (CPU) ↓ UTMOS ↑ NISQA ↑ 训练时间 (GPU) GAN-WaveNeXt 2 (4 iter) 0.20 4.04 ± 0.09 4.01 ± 0.20 410 小时 WaveFit (5 iter) 5.36 4.04 ± 0.09 4.02 ± 0.19 410 小时 HiFi-GAN V1 0.80 4.05 ± 0.11 3.99 ± 0.22 270 小时 Diff-WaveNeXt 2 0.16 3.87 ± 0.05 3.81 ± 0.19 32 小时 FastDiff w/ sub-modeling 0.80 3.78 ± 0.06 3.67 ± 0.20 96 小时 实际意义是什么:为声码器选择提供了灵活方案:GAN-WaveNeXt 2适用于对合成质量要求极高的场景,而Diff-WaveNeXt 2则以其极快的训练速度和优秀的CPU推理能力,非常适合资源受限或需要快速迭代的应用。 主要局限性是什么:采用子模型策略后,模型总体参数量随子模型数量线性增长(如Diff-WaveNeXt 2达57.68M),增加了存储和部分计算负担。论文中未明确讨论其在流式处理中的应用。 🏗️ 模型架构 WaveNeXt 2 的整体架构旨在成为一个兼容GAN与扩散模型的统一生成器。 ...

2026-04-29 · 更新于 2026-06-19 · 3 min · 553 words

CineAGI: Character-Consistent Movie Creation through LLM-Orchestrated Multi-Modal Generation and Cross-Scene Integration

📄 CineAGI: Character-Consistent Movie Creation through LLM-Orchestrated Multi-Modal Generation and Cross-Scene Integration #跨模态 #多模态模型 #角色一致性 #大语言模型 #扩散模型 🔥 8.0/10 | 前25% | #跨模态 | #多模态模型 | #角色一致性 #大语言模型 | arxiv 学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度 中 👥 作者与机构 第一作者:Tianyidan Xie(南京大学,具体院系未说明) 通讯作者:Zili Yi(南京大学,具体院系未说明) 作者列表:Tianyidan Xie(南京大学)、Mingjie Wang(未说明)、Qiang Tang(未说明)、Feixuan Liu(未说明)、Rui Ma(未说明)、Lanjun Wang(未说明)、Zili Yi(南京大学) 💡 毒舌点评 这篇论文最亮眼的地方在于它没有试图发明一个从零开始的端到端“电影生成大模型”,而是务实地将当下最强的几种单点技术(LLM、扩散模型、换脸、语音驱动)通过精心设计的多智能体流程“胶水”集成起来,形成一个可用的系统,展现了强大的工程整合能力和清晰的解决问题思路。但其核心短板也十分明显:它本身几乎没有底层算法或模型的创新,更像是一个前沿技术的应用系统集成报告,且所有组件均依赖现有开源模型或商用API,使得其“新颖性”和“可复现性”大打折扣。 🔗 开源详情 代码:论文中未提及代码链接。 模型权重:论文中未提及公开框架权重。其依赖的组件(RealVisXL 3.0, ChatTTS, HunyuanVideo-13B, SimSwap, Wav2Lip, MusicGen)均为外部项目。 数据集:论文中构建了包含100个故事提示的基准测试集,但未说明是否公开及如何获取。 Demo:论文中未提及在线演示。 复现材料:论文提供了一些组件的技术细节(如SimSwap的人脸替换分析、ChatTTS的嵌入一致性分析)于附录中,但缺乏整合整个框架所需的训练/推理配置、多智能体协议等详细复现信息。 论文中引用的开源项目:Grounded-SAM2, SimSwap, Wav2Lip, MusicGen, ChatTTS。此外还提及了作为基线或生成器的CogVideoX, VideoCrafter, HunyuanVideo, RealVisXL 3.0。 开源计划:论文中未提及开源计划。 📌 核心摘要 本文旨在解决自动化电影生成中的三大核心挑战:跨场景角色身份不一致、视觉风格/转场不连贯以及音视频(对口型、表情、音乐)跨模态不同步。其方法核心是提出了一个名为CineAGI的分层多智能体框架,该框架通过三个主要模块(叙事合成、角色生成、电影合成)将复杂的电影生成任务分解并交由专门的LLM智能体(如角色设计师、编剧)和专用生成模型(如HunyuanVideo、SimSwap、Wav2Lip)协作完成。与已有方法相比,其创新点在于通过系统化的“分层解耦”而非端到端生成来处理长序列和多角色问题。主要实验结果显示,在总体一致性(OC)上较最强基线(Hunyuan)提升40%,在主题一致性(SC)上提升4.4%,美学质量(AQ)提升5.4%,在人物一致性(CC)的人工评估上提升28.7%,证明了该系统框架的有效性。其实际意义在于为自动化、模块化的AI电影生产提供了一种可行的架构思路。主要局限性在于整个框架依赖大量现有的第三方模型,未讨论各模块联合训练或优化的可能性,且推理成本较高(每个场景约11.3分钟),限制了其实际部署和大规模应用。 ...

2026-04-28 · 更新于 2026-06-19 · 2 min · 265 words

Hallo-Live: Real-Time Streaming Joint Audio-Video Avatar Generation with Asynchronous Dual-Stream and Human-Centric Preference Distillation

📄 Hallo-Live: Real-Time Streaming Joint Audio-Video Avatar Generation with Asynchronous Dual-Stream and Human-Centric Preference Distillation #音视频 #扩散模型 #知识蒸馏 #流式处理 #实时处理 🔥 8.5/10 | 前25% | #音视频 | #扩散模型 | #知识蒸馏 #流式处理 | arxiv 学术质量 6.0/7 | 选题价值 1.8/2 | 复现加成 0.8 | 置信度 高 👥 作者与机构 第一作者:Chunyu Li(上海创新研究院, 复旦大学) , Jiaye Li(复旦大学) *并列第一 通讯作者:Siyu Zhu(复旦大学) 作者列表: Chunyu Li(上海创新研究院, 复旦大学) Jiaye Li(复旦大学) Ruiqiao Mei(复旦大学) Haoyuan Xia(复旦大学, 中国科学技术大学) Hao Zhu(南京大学) Jingdong Wang(百度) Siyu Zhu(复旦大学) 💡 毒舌点评 亮点:论文精准瞄准了当前音视频数字人模型“慢”和“蒸馏后变糊”的两大痛点,用“未来扩展注意力”这个巧妙设计让模型“偷看”未来几帧音频来预判唇形,同时用多模态奖励加权的蒸馏方法“择优录取”,最终在H200上跑出了20 FPS、延迟不足1秒的惊人速度,且质量损失可控。短板:尽管速度飞起,但在同步性(Sync-C)和语音识别准确率(WER)等绝对指标上,依然能看到与教师模型Ovi的明显差距,而且论文并未与另一个强劲的实时竞争者OmniForcing进行正面比较,说服力稍打折扣。 ...

2026-04-28 · 更新于 2026-06-19 · 3 min · 491 words

Scaling Properties of Continuous Diffusion Spoken Language Models

📄 Scaling Properties of Continuous Diffusion Spoken Language Models #语音大模型 #预训练 #扩散模型 #多语言 🔥 8.0/10 | 前25% | #语音生成 | #扩散模型 | #语音大模型 #预训练 | arxiv 学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度 中 👥 作者与机构 第一作者:Jason Ramapuram(†工作完成于Apple) 通讯作者:Jason Ramapuram (jason@ramapuram.net);Eeshan Gunesh Dhekane (eeshan@apple.com);Amitis Shidani (amitis_shidani@apple.com);Tatiana Likhomanenko (antares@apple.com) (论文未明确指定单一通讯作者,以上四位均列出) 作者列表: Jason Ramapuram† Eeshan Gunesh Dhekane* Amitis Shidani* Dan Busbridge Bogdan Mazoure† Zijin Gu Russ Webb Tatiana Likhomanenko⋆ Navdeep Jaitly†⋆ 所属机构:全部隶属于 Apple。⋆和†符号分别表示核心建议者和工作在Apple完成,但作者单位均标注为Apple。 💡 毒舌点评 本文严谨地证明了连续扩散语音模型同样遵循缩放定律,且在高计算预算下展现出比自回归模型更优的“效率前沿”,为语音生成范式之争提供了坚实的数据支撑。然而,最精妙的16B模型实验仍未能攻克长篇连贯性的终极难题,无情地揭示了当前范式与文本模型之间的能力鸿沟,可能预示着语音原生生成道路的艰辛。 ...

2026-04-28 · 更新于 2026-06-19 · 2 min · 415 words

Talker-T2AV: Joint Talking Audio-Video Generation with Autoregressive Diffusion Modeling

📄 Talker-T2AV: Joint Talking Audio-Video Generation with Autoregressive Diffusion Modeling #语音合成 #音视频 #自回归模型 #扩散模型 #流匹配 ✅ 7.5/10 | 前25% | #语音合成 | #自回归模型 | #音视频 #扩散模型 | arxiv 学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Zhen Ye(根据作者列表顺序推断,论文中未明确标注“第一作者”) 通讯作者:未说明(论文中未明确标注通讯作者) 作者列表:Zhen Ye, Xu Tan, Aoxiong Yin, Hongzhan Lin, Guangyan Zhang, Peiwen Sun, Yiming Li, Chi-Min Chan, Wei Ye, Shikun Zhang, Wei Xue(所有作者所属机构均未在论文正文中明确说明,仅提供了个人姓名。机构信息可能在论文PDF的其他部分或补充材料中,但未在所提供的全文文本中提及。) 💡 毒舌点评 亮点: 论文提出的“解耦”设计哲学很聪明——把高层次的跨模态语义对齐(自回归骨干网络负责)和低层次的信号渲染(独立的扩散头负责)分开,不仅逻辑清晰,而且实验证明在同步性和质量上都优于全流程纠缠的Dual-DiT方案,同时用一个模型统一了三种任务。短板: 视频生成质量的天花板明显受限于所选的LIA-X运动自编码器,论文也坦承了这一点;此外,自回归模型在长序列上误差累积的问题可能导致生成超长语音时质量下降,这在实际应用中是个潜在痛点。 🔗 开源详情 代码: 论文明确承诺提供代码仓库链接:https://github.com/zhenye234/Talker-T2AV。 模型权重: 论文明确承诺提供预训练模型权重。 数据集: 提到了构建的约100万条说话头数据(来源公开)和使用的Emilia TTS数据集,但未说明是否公开其构建的数据集。 Demo: 提供了在线演示链接:https://talker-t2av.github.io/。 复现材料: 论文详细提供了训练细节(优化器、学习率、batch size、步数)、模型配置(各组件层数、维度、补丁大小)、损失函数权重、推理参数(采样步数、温度、CFG尺度)等。附录详细说明了两个自编码器(LIA-X, WhisperX-VAE)的选择理由和架构。 论文中引用的开源项目: 论文中提及并依赖了以下开源项目/模型:Qwen3-0.6B(骨干初始化)、LIA-X(视频运动自编码器)、Whisper Large-v3(音频自编码器中的语义特征提取器)、Descript Audio Codec (DAC)(音频自编码器架构基础)、Emilia数据集(TTS训练数据)。 📌 核心摘要 要解决什么问题: 现有联合音视频生成模型(如Dual-DiT)在整个去噪过程中通过密集的跨模态注意力耦合音频和视频,将高层语义和底层信号细节混为一体,导致建模效率低下。同时,这些模型通常输出固定长度,无法适应文本长度和说话节奏的变化。 方法核心是什么: 提出Talker-T2AV,一个两阶段的自回归扩散框架。第一阶段(跨模态建模):将音频和视频编码为时间对齐的潜在序列(25Hz),通过元素级求和融合后,输入到一个共享的自回归语言模型骨干网络中,以补丁级进行自回归生成,捕捉高层跨模态时序结构。第二阶段(模态特定渲染):使用两个独立的轻量级扩散Transformer头,分别将共享的隐状态解码为音频和视频的潜在补丁。 与已有方法相比新在哪里: ① 架构解耦: 首次将联合生成解耦为“高层语义对齐”与“底层信号渲染”两个明确阶段,避免了不必要的全过程跨模态纠缠。② 灵活性: 通过元素级求和设计,一个模型无需修改即可支持文本到音视频、音频到视频(说话头生成)、视频到音频(配音)三种任务。③ 可变长度输出: 基于自回归范式和停止预测器,支持生成任意长度的输出。 主要实验结果如何: 联合生成 (T2AV): 在中英文测试集上,与5个Dual-DiT基线(MoVA, Ovi, LTX-2, UniVerse-1, UniAVGen)相比,本文方法在语音可懂度(CER/WER最低)、视频保真度(FVD最佳)和唇音同步(SyncNet C最高, D最低)上均取得最佳或并列最佳结果。 音频驱动 (A2V): 在中英文测试集上,与5个专用方法(FLOAT, EchoMimic, Sonic, Ditto, AniPortrait)相比,本文方法在视频质量和同步性上综合表现最优(例如,英文Sync-C为5.85,最高)。 视频配音 (V2A): 在Chem数据集上,与5个专用配音系统相比,本文方法在情感相似度(EMO-SIM)、语音可懂度(WER)和自然度(UTMOS)三项指标上均达到最佳,时长对齐(DD)接近最佳。 消融实验: 验证了“元素级求和”融合方式在同步性和效率上优于“交错”或“延迟”排列。 (详细结果表格见“详细分析”部分) 实际意义是什么: 该工作推动了更自然、同步且灵活的虚拟人交互技术的发展。统一的框架降低了构建和部署多模态生成系统的复杂度,为实时对话、虚拟主播、多模态翻译等应用提供了新的技术路径。 主要局限性是什么: ① 自回归骨干在连续潜在空间上的预测误差会随序列增长而累积,影响长音频生成质量。② 视频的最终保真度受限于所采用的LIA-X运动自编码器的表达能力。③ 论文未提及训练所使用的具体硬件和时长,硬件消耗未知。 🏗️ 模型架构 论文整体架构如图1所示,采用“自回归扩散”的两阶段解耦设计。 ...

2026-04-28 · 更新于 2026-06-19 · 3 min · 612 words

UniSonate: A Unified Model for Speech, Music, and Sound Effect Generation with Text Instructions

📄 UniSonate: A Unified Model for Speech, Music, and Sound Effect Generation with Text Instructions #音频生成 #流匹配 #扩散模型 #统一音频模型 #语音合成 🔥 8.5/10 | 前25% | #音频生成 | #流匹配 | #扩散模型 #统一音频模型 | arxiv 学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Chunyu Qiang(天津大学, 快手科技) 通讯作者:Longbiao Wang(天津大学), Jianwu Dang(天津大学) 作者列表:Chunyu Qiang(天津大学, 快手科技)、Xiaopeng Wang(快手科技)、Kang Yin(快手科技)、Yuzhe Liang(快手科技)、Yuxin Guo(快手科技, 中国科学院自动化研究所)、Teng Ma(快手科技)、Ziyu Zhang(快手科技)、Tianrui Wang(天津大学)、Cheng Gong(天津大学)、Yushen Chen(快手科技)、Ruibo Fu(中国科学院自动化研究所)、Chen Zhang(快手科技)、Longbiao Wang(天津大学)、Jianwu Dang(天津大学) 💡 毒舌点评 亮点:论文真正实现了语音、音乐、音效的“三合一”生成,且通过精巧的“动态token注入”和“课程学习”让这个庞然大物不仅能跑,还在语音和音乐的主流评测中刷出了新SOTA,证明了“团结就是力量”。 短板:在音效生成这个“混沌领域”,这个统一模型还是打不过那些专精于此的专门模型(如GenAU-L),并且论文未开源代码和模型,让其优秀的实验结论暂时停留在了“可看不可摸”的阶段。 ...

2026-04-27 · 更新于 2026-06-19 · 4 min · 707 words

Video-Robin: Autoregressive Diffusion Planning for Intent-Grounded Video-to-Music Generation

📄 Video-Robin: Autoregressive Diffusion Planning for Intent-Grounded Video-to-Music Generation #音乐生成 #扩散模型 #自回归模型 #音视频 #基准测试 ✅ 7.0/10 | 前25% | #音乐生成 | #扩散模型 #自回归模型 | #扩散模型 #自回归模型 | arxiv 学术质量 4.5/7 | 选题价值 1.5/2 | 复现加成 1.0 | 置信度 高 👥 作者与机构 第一作者:Vaibhavi Lokegaonkar(University of Maryland College Park, USA) 通讯作者:Vaibhavi Lokegaonkar, Aryan Vijay Bhosale(论文中标注为Corresponding authors,邮箱为{vlokegao,aryanvib}@umd.edu) 作者列表: Vaibhavi Lokegaonkar(University of Maryland College Park, USA) Aryan Vijay Bhosale(University of Maryland College Park, USA) Vishnu Raj(University of Maryland College Park, USA) Gouthaman KV(University of Maryland College Park, USA) Ramani Duraiswami(University of Maryland College Park, USA) Lie Lu(Dolby Laboratories, USA) Sreyan Ghosh(NVIDIA, USA) Dinesh Manocha(University of Maryland College Park, USA) 💡 毒舌点评 亮点:该工作将语音合成领域已验证有效的“自回归规划+扩散细化”混合范式,成功迁移到视频音乐生成任务,并通过引入文本条件控制解决了该领域长期存在的“创作者意图表达”短板,工程实现和实验验证都做得非常扎实。短板:其核心架构思想并非首创(如DiTAR),且评估主要集中在10秒短片段,对于真正考验音乐结构连贯性的长视频配乐场景缺乏验证,使得其“里程碑”成色稍显不足。 ...

2026-04-24 · 更新于 2026-06-19 · 3 min · 483 words

CoInteract: Physically-Consistent Human-Object Interaction Video Synthesis via Spatially-Structured Co-Generation

📄 CoInteract: Physically-Consistent Human-Object Interaction Video Synthesis via Spatially-Structured Co-Generation #视频生成 #扩散模型 #多模态 #人机交互 ✅ 7.5/10 | 前25% | #视频生成 | #扩散模型 | #多模态 #人机交互 | arxiv 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 中 👥 作者与机构 第一作者:Xiangyang Luo(清华大学,†阿里巴巴集团实习期间完成) 通讯作者:Xiaozhe Xin(阿里巴巴集团) 作者列表: Xiangyang Luo(清华大学,†阿里巴巴集团) Xiaozhe Xin(阿里巴巴集团,‡通讯作者) Tao Feng(阿里巴巴集团) Xu Guo(阿里巴巴集团) Meiguang Jin(阿里巴巴集团) Junfeng Ma(阿里巴巴集团) 💡 毒舌点评 亮点在于其“训练时注入物理约束,推理时零开销”的双流范式设计非常巧妙,有效平衡了生成质量与效率;但短板是论文对所用数据集的具体构成、清洗标准和规模描述模糊(仅称“12K high-quality clips”),且未公开数据集,这严重限制了工作的可复现性和公平比较的基础。 🔗 开源详情 代码:论文中提及了GitHub项目页面链接(https://xinxiaozhe12345.github.io/CoInteract_Project/),表明有开源计划,但未明确说明代码是否已公开及仓库地址。 模型权重:论文中未提及是否公开预训练或微调后的模型权重。 数据集:论文中描述了自建数据集的规模和内容,但明确未提及是否公开或如何获取。 Demo:论文中未提及是否提供在线演示。 复现材料:论文提供了部分训练细节(如优化器、学习率、迭代次数、损失权重)和推理设置,但缺少关键信息如batch size、总训练时长、GPU配置、完整的超参数列表。 论文中引用的开源项目:引用了Qwen-Edit(用于数据解耦)、SAM3和SAM3D-body(用于生成几何监督)、MediaPipe和DWPose(用于手脸检测)、WanS2V(作为初始化基础)、以及多种基线模型。 开源计划:论文中未明确提及具体的开源时间表或承诺。 📌 核心摘要 问题:现有视频扩散模型在生成人机交互(HOI)视频时,常出现手/脸结构崩溃和人机物理穿透等问题,根源在于模型缺乏对3D空间关系和交互结构的理解。 方法核心:提出CoInteract框架,核心是“空间结构化协同生成”范式。在一个共享的DiT骨干中联合训练RGB外观流和辅助的HOI结构流(去除纹理的轮廓图),后者通过非对称注意力机制向RGB流注入几何约束。同时,引入“人感知混合专家”模块,通过空间监督路由将手/脸区域的token分配给专用专家处理。 新意:首次将物理交互先验直接嵌入视频生成骨干网络的训练过程,并通过非对称掩码设计确保推理时无需辅助分支,实现了零额外开销。相比依赖外部预处理或后处理的方法,这是一种更端到端的解决方案。 结果:在多个指标上显著超越现有方法。例如,在VLM-QA(HOI合理性)上达到0.72(最佳),HQ(手部质量)达到0.724(最佳),用户研究在交互合理性上排名第一(平均排名1.79)。消融实验证明每个组件都有效。 意义:推动了高质量、物理一致的HOI视频合成技术发展,对电商直播、虚拟广告等应用有直接价值。 局限性:所用数据集未公开,具体规模和细节不足;模型在极端复杂或罕见交互上的泛化能力未充分验证;训练所需的计算资源(如GPU时长)未说明。 🏗️ 模型架构 CoInteract是一个端到端的视频生成框架,基于Diffusion Transformer(DiT)骨干构建。 ...

2026-04-23 · 更新于 2026-06-19 · 2 min · 276 words

Anonymization, Not Elimination: Utility-Preserved Speech Anonymization

📄 Anonymization, Not Elimination: Utility-Preserved Speech Anonymization #语音匿名化 #流匹配 #扩散模型 #模型评估 #音频安全 🔥 评分:8.5/10 | arxiv 👥 作者与机构 第一作者:Yunchong Xiao*, Yuxiang Zhao*(上海交通大学,计算机科学与技术学院,X-LANCE实验室) 通讯作者:Jiachun Liao(南湖实验室,大数据技术研究中心),Xie Chen(上海交通大学,计算机科学与技术学院,X-LANCE实验室) 其他作者: Ziyang Ma(上海交通大学,计算机科学与技术学院,X-LANCE实验室) Shuai Wang(南京大学,智能科学与技术学院) Kai Yu(上海交通大学,计算机科学与技术学院,X-LANCE实验室) 💡 毒舌点评 这篇论文的亮点在于把“匿名化”和“消除”分得门儿清,用流匹配生成千变万化的新“声纹”,而不是粗暴地抹掉或替换,还煞有介事地设计了从头训练下游模型的评估协议,这比那些拿预训练模型在匿名数据上跑个分就完事的“表面功夫”扎实多了。槽点嘛,内容匿名化部分对“语言风格”这种更隐蔽的PII保护力度似乎还不够,而且这么复杂的两阶段框架,真要部署到实时系统里,估计得把服务器累得够呛。 🔗 开源详情 代码:论文中提到“GitHub Issue”,并在摘要后提供了“GitHub”链接(但未在提供的文本中显示具体URL)。论文正文也提到“Please view the build logs for errors. Generated by L A T E xml.”,表明其HTML版本由LaTeXML生成,但这不是代码仓库。推断代码已开源或计划开源,具体地址需查看原论文PDF或arXiv页面。 模型权重:论文中未明确提及是否公开预训练模型权重(如骨干网络、匿名器、SECA管道中的各组件)。 数据集:实验使用公开数据集:LibriSpeech, LibriTTS, IEMOCAP, WikiAnn。论文未提及发布新的数据集。 预训练权重:论文中引用了多个预训练模型:HuBERT-large, CAM++, ECAPA-TDNN (用于评估), Flair NER, F5-TTS, Whisper-large-v3 (用于评估), Emotion2Vec (用于评估)。这些均非本文作者训练。 在线 Demo:论文中未提及。 依赖的开源项目:PyTorch, icefall (ASR训练配方), F5-TTS仓库, SpeechBrain (ECAPA-TDNN), HuggingFace Transformers/Models (多个模型), RMVPE等。 📌 核心摘要 这篇论文针对语音数据隐私保护中“隐私泄露”与“数据效用损失”的核心矛盾,提出了一个新颖的两阶段框架。首先,为解决语音匿名化(保护“谁在说”)中身份多样性不足和可控性差的问题,提出了基于流匹配的说话人嵌入匿名器(F3-VA),它能生成多样且与原始说话人充分分离的新身份。其次,为解决内容匿名化(保护“说了什么”)中传统删除/替换方法导致的声学不连续问题,提出了基于生成式语音编辑的管道(SECA),能无缝替换个人隐私信息。更重要的是,论文提出了一种更真实的效用评估协议,即通过在匿名化数据上从头训练ASR、TTS和SER模型来评估其作为训练资源的价值,而非仅在预训练模型上测试。实验表明,该框架在VoicePrivacy Challenge基线对比中,在提供更强隐私保护(更高的声学和内容验证等错误率)的同时,显著降低了下游任务性能的损失。 ...

2026-04-21 · 更新于 2026-06-19 · 3 min · 568 words