扩散模型 | 语音/音乐/音频论文速递

UniSonate: A Unified Model for Speech, Music, and Sound Effect Generation with Text Instructions

📄 UniSonate: A Unified Model for Speech, Music, and Sound Effect Generation with Text Instructions #音频生成 #流匹配 #扩散模型 #统一音频模型 #语音合成 🔥 8.5/10 | 前25% | #音频生成 | #流匹配 | #扩散模型 #统一音频模型 | arxiv 学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Chunyu Qiang（天津大学，快手科技）通讯作者：Longbiao Wang（天津大学）， Jianwu Dang（天津大学）作者列表：Chunyu Qiang（天津大学，快手科技）、Xiaopeng Wang（快手科技）、Kang Yin（快手科技）、Yuzhe Liang（快手科技）、Yuxin Guo（快手科技，中国科学院自动化研究所）、Teng Ma（快手科技）、Ziyu Zhang（快手科技）、Tianrui Wang（天津大学）、Cheng Gong（天津大学）、Yushen Chen（快手科技）、Ruibo Fu（中国科学院自动化研究所）、Chen Zhang（快手科技）、Longbiao Wang（天津大学）、Jianwu Dang（天津大学） 💡 毒舌点评亮点：论文真正实现了语音、音乐、音效的“三合一”生成，且通过精巧的“动态token注入”和“课程学习”让这个庞然大物不仅能跑，还在语音和音乐的主流评测中刷出了新SOTA，证明了“团结就是力量”。短板：在音效生成这个“混沌领域”，这个统一模型还是打不过那些专精于此的专门模型（如GenAU-L），并且论文未开源代码和模型，让其优秀的实验结论暂时停留在了“可看不可摸”的阶段。 ...

DiffAnon: Diffusion-based Prosody Control for Voice Anonymization

📄 DiffAnon: Diffusion-based Prosody Control for Voice Anonymization #语音匿名化 #扩散模型 #语音转换 #说话人验证 ✅ 7.5/10 | 前25% | #语音匿名化 | #扩散模型 | #语音转换 #说话人验证 | arxiv 学术质量 6.0/7 | 选题价值 2.0/2 | 复现加成 1.0 | 置信度高 👥 作者与机构第一作者：Ismail Rasim Ulgen（约翰斯·霍普金斯大学，语言与语音处理中心）通讯作者：未说明（论文未明确指定通讯作者，但Berrak Sisman为最后作者）作者列表：Ismail Rasim Ulgen（约翰斯·霍普金斯大学，语言与语音处理中心；人类语言技术卓越中心），Zexin Cai（约翰斯·霍普金斯大学），Nicholas Andrews（约翰斯·霍普金斯大学，语言与语音处理中心；人类语言技术卓越中心），Philipp Koehn（约翰斯·霍普金斯大学，语言与语音处理中心），Berrak Sisman（约翰斯·霍普金斯大学，语言与语音处理中心；人类语言技术卓越中心） 💡 毒舌点评亮点在于它巧妙地将分类器无关引导（CFG）这一图像生成领域的控制技术迁移到了语音匿名化任务中，首次实现了在单个模型内对韵律保留程度的连续、推理时控制，为解决隐私-效用权衡这一核心矛盾提供了优雅的工程化方案。短板是实验仅验证了韵律这一个属性对权衡曲线的影响，而论文承认“说话人条件”和“韵律条件”之间可能存在纠缠（说话人编码器本身可能泄露韵律信息），且其在极端匿名化设置下的实用性（如高失真、低可懂度）尚需更全面的评估。 🔗 开源详情代码：提供代码仓库链接：https://github.com/lightensyrup/diffanon.git 模型权重：论文提到将公开预训练模型（“We publicly release the codes and pretrained models to enable reproducibility.”）。数据集：使用LibriTTS（训练）和LibriSpeech（评估）数据集，均为公开数据集。IEMOCAP也是公开数据集。 Demo：未提及。复现材料：提供了关键训练细节（数据集、训练步数、学习率、batch size、硬件、CFG训练策略）和推理设置（采样器、步数）。架构细节（网络层数、维度）也有描述。论文中引用的开源项目：SpeechTokenizer（语音编解码器）、FreeVC（说话人编码器）、Masked Prosody Model (MPM)（韵律模型）、NaturalSpeech2（扩散模型架构参考）、SpeechBrain（用于WER评估的ASR系统）。 📌 核心摘要本文旨在解决语音匿名化中一个核心矛盾：韵律（传递情感与意义）的保留对语用性至关重要，但同时也容易泄露说话人身份，导致隐私与效用难以兼顾。现有方法通常静态地处理韵律（丢弃、隐式保留或随机扰动），缺乏灵活的控制机制。为此，作者提出了DiffAnon，一个基于扩散模型的匿名化框架，其核心创新在于利用分类器无关引导（CFG）在推理时对源语音的韵律保留强度进行显式、连续的控制。该模型在RVQ语音编解码器的语义嵌入（Q1）之上，通过扩散过程细化声学细节（Q2-8），并同时受内容、韵律和说话人条件约束。通过在训练时随机丢弃条件，并在推理时应用CFG公式，实现了对生成语音中韵律成分的“旋钮式”调节。在VoicePrivacy 2024挑战赛评估中，DiffAnon展示了清晰的权衡趋势：随着韵律引导权重降低，隐私性提升（例如libri-test懒惰攻击EER从33.09%增至42.43%），而韵律保真度下降（F0相关性从75.58%降至62.45%，情绪识别UAR从50.80%降至45.23%），同时内容可懂度（WER）保持在相对稳定的低水平（4.62%至5.61%）。这证明了DiffAnon能在单一模型内系统化地导航隐私-效用曲线。主要局限在于其实验集中于英语数据集，且对韵律与说话人信息的解耦程度尚有疑问。 ...

Diffusion Reconstruction towards Generalizable Audio Deepfake Detection

📄 Diffusion Reconstruction towards Generalizable Audio Deepfake Detection #音频深度伪造检测 #扩散模型 #对比学习 #数据增强 #预训练 ✅ 7.5/10 | 前25% | #音频深度伪造检测 | #扩散模型 #对比学习 | #扩散模型 #对比学习 | arxiv 学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度中 👥 作者与机构第一作者：Bo Cheng（南方科技大学电子与电气工程系）通讯作者：Fei Chen（南方科技大学电子与电气工程系）作者列表：Bo Cheng（南方科技大学电子与电气工程系）、Songjun Cao（腾讯优图实验室）、Xiaoming Zhang（南方科技大学电子与电气工程系）、Jie Chen（南方科技大学电子与电气工程系）、Long Ma（腾讯优图实验室）、Fei Chen（南方科技大学电子与电气工程系，通讯作者） 💡 毒舌点评本文巧妙地将“数据增强”提升到了“生成困难样本进行对抗训练”的哲学高度，利用扩散模型的随机性模拟未知攻击，思路新颖且实验验证有力。然而，其核心逻辑存在一个微妙的自证循环：用于检测的模型，其训练数据部分来源于同族模型（扩散模型）的重建，这可能使得模型对“生成痕迹”的识别能力被部分限定在“重建痕迹”上，对真正未知的、非重建类生成攻击的泛化上限有待进一步验证。 🔗 开源详情代码：论文中未提及代码链接。模型权重：未提及公开本模型的权重。论文中提及使用了公开的预训练模型（XLS-R 300M）和重建模型（HiFi-GAN, DAC, Encodec, SemantiCodec）的权重。数据集：使用了公开数据集（ASVspoof 2019 LA, CodecFake, DiffSSD, WaveFake, ITW），论文中给出了部分数据集的引用链接。 Demo：未提及。复现材料：提供了较为详细的训练策略、超参数配置和架构描述（见第3.2节和第2.3、2.4节），但未提供完整的复现配置文件或脚本。论文中引用的开源项目： HiFi-GAN: https://github.com/jik876/hifi-gan DAC (Descript Audio Codec): https://github.com/descriptinc/descript-audio-codec Encodec: https://github.com/facebookresearch/encodec SemantiCodec: https://huggingface.co/haoheliu/SemantiCodec/tree/main XLS-R 300M: https://github.com/facebookresearch/fairseq AASIST：论文引用了相关论文，但未提供具体开源链接。 📌 核心摘要本文针对音频深度伪造检测（ADD）模型泛化能力不足的挑战，提出了一种基于扩散重建的困难样本生成框架。其核心思想是：一个能够区分困难样本（如重建后的音频）的模型，必然也能处理简单的伪造样本。方法上，论文首先评估了HiFi-GAN、DAC、Encodec和SemantiCodec（基于扩散）等多种重建范式，发现基于扩散的方法能最有效地生成具有泛化价值的困难样本。其次，为增强特征判别力，设计了正则化辅助对比学习（RACL）目标函数，它结合了标准对比损失、聚焦于困难样本的增强对比损失以及用于类内紧凑性的方差正则化损失。最后，采用预训练的XLS-R 300M提取多层特征并经自适应聚合后，送入AASIST进行分类。实验在五个多样化的测试集（ASVspoof, ITW, DiffSSD, WaveFake, CodecFake）上进行。主要结果表明，集成扩散重建、多层聚合和RACL的最佳模型（RACL Diffusion）取得了8.247%的平均EER，相比基线（15.789%）相对降低了约47.8%。消融实验和t-SNE可视化证实了RACL中各组件对提升类间距离和类内紧凑性的作用。该研究的实际意义在于提供了一种提升ADD模型泛化能力的有效数据驱动和学习策略，其局限性在于自证循环的潜在风险以及在个别数据集（如ASVspoof）上性能略有下降。 ...

Hallo-Live: Real-Time Streaming Joint Audio-Video Avatar Generation with Asynchronous Dual-Stream and Human-Centric Preference Distillation

📄 Hallo-Live: Real-Time Streaming Joint Audio-Video Avatar Generation with Asynchronous Dual-Stream and Human-Centric Preference Distillation #音视频 #扩散模型 #知识蒸馏 #流式处理 🔥 8.5/10 | 前25% | #音视频 | #扩散模型 | #知识蒸馏 #流式处理 | arxiv 学术质量 6.2/7 | 选题价值 1.6/2 | 复现加成 0.8 | 置信度高 👥 作者与机构请基于当前提供的论文内容尽量完整提取作者与机构信息，要求：明确标注第一作者（如论文可判断），否则写“未说明” 明确标注通讯作者（如论文可判断），否则写“未说明” 列出能确认的作者姓名及其所属机构（大学、实验室、公司）机构信息尽量具体到实验室或部门；如果文本里没有，就写到能确认的层级禁止猜测机构信息；无法确认时明确写“未说明” 输出格式示例：第一作者：张三（清华大学计算机系）通讯作者：李四（Google DeepMind）作者列表：张三（清华大学计算机系）、李四（Google DeepMind）、王五（未说明）第一作者：Chunyu Li（Shanghai Innovation Institute, Fudan University，论文注释*Equal contribution表明为共同第一作者）通讯作者：Siyu Zhu（Shanghai Innovation Institute, Fudan University，论文注释†Corresponding authors）作者列表：Chunyu Li（Shanghai Innovation Institute, Fudan University）、Jiaye Li（Fudan University，论文注释*Equal contribution表明为共同第一作者）、Ruiqiao Mei（Fudan University）、Haoyuan Xia（Shanghai Innovation Institute, University of Science and Technology of China）、Hao Zhu（Nanjing University）、Jingdong Wang（Baidu）、Siyu Zhu（Shanghai Innovation Institute, Fudan University） ...

A State-Dependent Markov Diffusion Process for Generative Speech Enhancement

📄 A State-Dependent Markov Diffusion Process for Generative Speech Enhancement #语音增强 #扩散模型 #图注意力 #混合损失 ✅ 6.5/10 | 前25% | #语音增强 | #扩散模型 | #图注意力 #混合损失学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 -0.5 | 置信度中 👥 作者与机构第一作者：Yasir Iqbal（天津大学电气与信息工程学院）通讯作者：Yanzhang Geng（天津大学电气与信息工程学院）作者列表：Yasir Iqbal（天津大学电气与信息工程学院）、Tao Zhang（天津大学电气与信息工程学院）、Anjum Iqbal（大连理工大学软件学院）、Xin Zhao（天津大学电气与信息工程学院）、Yanzhang Geng†（天津大学电气与信息工程学院） 💡 毒舌点评亮点在于将“状态依赖”的自适应理念引入扩散模型的前向过程，并设计了一套兼顾多目标（时域、频域、感知指标）的混合损失，实验结果在多个指标上确实超越了近期强基线。短板在于，核心创新更像是精巧的“模块拼装”（自适应SDE + GUGA网络 + 混合损失），对于“为何这些组合有效”背后的机理探讨略显不足，且54M参数的模型在实时性上相比轻量模型（如SEMamba）并无优势。 🔗 开源详情代码：论文中未提及代码链接。模型权重：未提及是否公开。数据集：使用公开的VB-DMD数据集，但论文未说明具体获取方式或预处理脚本。 Demo：未提及在线演示。复现材料：论文给出了详细的架构描述、损失函数公式、训练超参数（如学习率、优化器、EMA参数、STFT设置）和关键实验设置，具备一定的理论复现基础。但缺少完整的配置文件、环境依赖、检查点等实操信息。论文中引用的开源项目：论文引用了NCSN++[30]作为基线，但未说明是否使用了其开源实现作为代码基础。其他基线（Conv-TasNet, MetricGAN+, SEMamba, SGMSE+等）的引用也未表明代码依赖关系。 📌 核心摘要这篇论文旨在解决传统扩散模型因使用固定噪声调度而难以适应现实世界动态非平稳噪声的问题。其核心是提出一种状态依赖的马尔可夫扩散过程（SDMDP），该过程的扩散转移率可根据当前含噪状态与目标观测之间的偏差进行动态调整。与之配套的，是名为门控U-Net与图注意力（GUGA）的骨干网络架构，以及结合时域、频域和感知指标（PESQ, STOI）的混合损失函数。实验在VB-DMD数据集上进行，结果显示，采用数据预测范式的“SDMDP (Predict)”方法取得了当前最佳性能，其PESQ、SI-SDR和POLQA分别达到3.84、20.1 dB和4.34，显著优于包括SGMSE+、M8在内的多个竞争基线。该方法的实际意义在于提升了生成式语音增强在复杂噪声下的语音质量和可懂度。其主要局限性在于计算开销较高，论文也承认了加速推理以用于实时应用是未来工作的重点。 ...

Are Modern Speech Enhancement Systems Vulnerable to Adversarial Attacks?

📄 Are Modern Speech Enhancement Systems Vulnerable to Adversarial Attacks? #语音增强 #对抗样本 #扩散模型 #鲁棒性 ✅ 7.5/10 | 前25% | #语音增强 | #对抗样本 | #扩散模型 #鲁棒性学术质量 6.5/7 | 选题价值 1.0/2 | 复现加成 0.0 | 置信度中 👥 作者与机构第一作者：Rostislav Makarov (汉堡大学信号处理组) 通讯作者：未说明作者列表：Rostislav Makarov（汉堡大学信号处理组）、Lea Schönherr（CISPA亥姆霍兹信息安全中心）、Timo Gerkmann（汉堡大学信号处理组） 💡 毒舌点评论文系统性地揭示了现代语音增强系统在对抗攻击下的脆弱性，并令人信服地论证了扩散模型因其随机采样机制而具备的“先天”鲁棒性，这是一个有价值的安全视角。然而，实验完全基于白盒攻击和合成攻击对，离验证真实世界（如助听器、通信系统）中的攻击场景还有很长距离，且代码和模型权重的未明确开源限制了结论的即时可验证性。 🔗 开源详情代码：论文在摘要和引文部分提供了一个项目页面链接 https://sp-uhh.github.io/se-adversarial-attack，声称包含音频示例和代码。但论文正文中未明确说明代码是否完全开源、具体包含哪些内容（如训练脚本、评估代码、预训练模型）。因此，基于论文文本，不能确认其完全开源。模型权重：论文未提及是否公开了所使用的SE模型（Direct Map, CRM, Diffusion）的预训练权重。数据集：实验使用公开的EARS-WHAM-v2数据集，但论文未说明该数据集的获取方式（假设读者已知）。 Demo：项目页面可能包含音频示例演示，但论文正文中未提及在线可交互的Demo。复现材料：论文给出了攻击优化的主要超参数（学习率、迭代次数、动量等）和扩散模型推理的步骤数N，但缺少SE模型训练的详细配置（如学习率调度、优化器、batch size、具体架构参数修改细节）。论文中引用的开源项目：论文引用了多个开源项目/工具作为基础： SGMSE+ 基线仓库：https://github.com/sp-uhh/sgmse 心理声学模型实现：https://github.com/RUB-SysSec/dompteur/tree/main/standalone-psychoacoustic-filtering Whisper 语音识别模型（用于计算WER） DistillMOS 评估指标总结：论文声称提供了代码和示例，但未在正文中做出明确的开源承诺或提供详细的复现指南。其依赖的上游开源项目（SGMSE+等）是公开的。因此，复现难度中等，需要自行搭建模型并调试。 📌 核心摘要问题：本文研究了一个新兴的安全问题：现代的、表达能力强大的语音增强（SE）系统是否容易受到精心设计的、人耳难以察觉的对抗性噪声的攻击，从而输出与用户意图完全不同的语音内容。方法核心：提出了一种针对语音增强系统的白盒对抗攻击框架。攻击者向原始混合语音（语音+噪声）中添加一个经优化的小扰动δ，目标是让SE系统的输出语音听起来像另一个指定的、攻击者选择的语音信号（Sattacker）。该扰动通过结合心理声学模型（MPEG-1）进行隐藏，使其不易被察觉，并使用PGD结合ℓ2范数约束进行优化。新颖之处：首次系统性地将对抗攻击从语音识别（分类任务）扩展到语音增强（回归任务）。对比分析了三类主流SE模型（直接映射、复数掩膜、基于分数的扩散模型SGMSE+）在攻击下的脆弱性差异，并创新性地将心理声学隐藏技术适配到SE攻击场景。主要实验结果：在EARS-WHAM-v2数据集上对100对样本进行攻击。结果显示，预测式模型（Direct Map, CRM）在适中约束下（λ=20dB, ε=10）能被有效攻击，输出语音与目标攻击语音高度相似（WER≈0.20， AS-POLQA≈1.81），同时扰动具有一定隐蔽性（SNR≈12.88 dB）。相比之下，扩散模型（Diffusion）更难攻击：即使在相同约束下，攻击成功率更低（WER≈0.80， AS-POLQA≈1.14），且扰动更明显（SNR≈7.90 dB）。消融实验进一步证明，扩散模型的随机采样步骤是其鲁棒性的关键来源（固定噪声路径后WER从0.47降至0.27）。实际意义：本研究首次指出了语音增强系统存在被恶意操纵以篡改语义内容的安全风险，为未来SE系统的设计和安全评估提出了新挑战。其结论暗示，基于扩散模型的生成式SE可能因其随机性而更适合对安全性有要求的应用。主要局限性：攻击场景为理想化的白盒攻击，且未考虑真实信道传输的影响；实验规模相对有限；攻击成功与否高度依赖于模型的可微性和攻击者对模型的完全控制。 🏗️ 模型架构论文并未提出一个新的SE模型架构，而是评估和对比现有三类主流SE架构在对抗攻击下的表现。这三类架构都基于同一个骨干网络（NCSN++ U-Net），主要区别在于输出生成方式： ...

Asynchrony-Aware Decoupled Multimodal Control for Cued Speech Video Generation

📄 Asynchrony-Aware Decoupled Multimodal Control for Cued Speech Video Generation #语音合成 #扩散模型 #流匹配 #音视频 #低资源 ✅ 7.5/10 | 前10% | #语音合成 | #扩散模型 | #流匹配 #音视频学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 -0.5 | 置信度高 👥 作者与机构第一作者：Fengji Ma（香港科技大学（广州））通讯作者：Li Liu（香港科技大学（广州），邮箱：avrillliu@hkust-gz.edu.cn）作者列表：Fengji Ma（香港科技大学（广州））、Xiao-Ping Zhang（清华伯克利深圳学院）、Li Liu（香港科技大学（广州）） 💡 毒舌点评这篇论文的亮点在于将“手语视频生成”这个具体任务分解得非常清晰，并针对其中“控制纠缠”、“动作异步”和“长视频漂移”三个痛点分别设计了技术方案（DCL、SAMP、MS-CWD），体现了扎实的工程思维和问题导向。然而，其短板也显而易见：作为一篇强调生成质量的工作，却未提供任何开源代码或预训练模型，甚至训练数据集的公开性也未明确，这极大削弱了其作为学术贡献的可验证性和后续研究价值；此外，长视频一致性的验证仅在500帧左右，对于实际应用可能需要更长序列的表现未做探讨。 🔗 开源详情根据论文全文内容：代码：论文中未提及代码链接或开源仓库。模型权重：未提及公开模型权重。数据集：论文提及使用了扩展版MCCS数据集，但未说明该数据集是否公开、如何获取。 Demo：未提及提供在线演示。复现材料：论文给出了一些实现细节（如基础模型、主要模块、分阶段训练思路、学习率），但缺少关键复现信息，如：完整的超参数配置、具体的数据预处理流程、评估脚本、以及用于推理的MS-CWD的具体参数设置。引用的开源项目：论文在方法中引用了多个开源工具/模型作为组件或基线，包括：Wan2.1 [28]（基础模型），Wav2Vec 2.0 [29]（语音编码器），uMT5 [30]（文本编码器），CLIP [31]（图像编码器），DWPose [22]（姿态提取）。在对比实验中引用了StableAnimator [33] 和 UniAnimate-DiT [20]。开源计划：论文中未提及任何开源计划。 📌 核心摘要要解决的问题：论文旨在解决从语音和姿态信号生成手语视频（Cued Speech Video）时面临的三个关键挑战：(1) 语音与姿态模态间的控制纠缠，导致嘴唇和手部细节模糊；(2) 手语系统固有的手部动作与语音的自然异步性，严格对齐会导致动作不自然；(3) 长视频生成中缺乏长期时序一致性。方法核心：提出一个名为“解耦课程学习”（Decoupled Curriculum Learning, DCL）的三阶段训练框架。该框架先分别训练语音分支（控制嘴唇）和姿态分支（控制上半身和手势），再进行联合微调。同时，引入了区域感知重建损失（RAR）以增强局部细节，设计了语音异步调制（SAMP）机制来建模手势与语音的自然时间偏移，并提出了多尺度上下文窗口去噪（MS-CWD）推理策略以保证长视频的时序连贯性。与已有方法的创新点：与以往通用的人像动画或说话人头部生成方法不同，本文是首个针对“手语视频生成”这一特定任务进行系统性建模的工作。其创新点包括：(1) 明确的解耦训练策略（DCL）以避免模态干扰；(2) 区域感知的精细化损失（RAR）聚焦于嘴唇和手部这两个关键区域；(3) 首次在生成任务中显式建模语音与手势的异步关系（SAMP）；(4) 专为长视频设计的多尺度、加权融合的推理算法（MS-CWD）。主要实验结果：在自建的普通话手语（MCCS）数据集上，本文方法在所有评估指标上均优于StableAnimator (SA) 和 UniAnimate-DiT (UAD) 两个SOTA方法。具体数值见表1。消融实验证明，移除任何一个提出模块（DCL, RAR, SAMP, MS-CWD）都会导致性能下降，其中移除DCL影响最大。图4显示，在500帧长视频中，本文方法的手部关键点置信度（HKC）和语音-嘴唇同步置信度（Sync-C）的衰减率仅为约3%，远低于基线方法（约7%-22%）。实际意义：该技术有望为听障人群生成易于理解的、手语辅助的教学或交流视频，打破沟通壁垒。其提出的技术（如异步建模、长视频生成）也可能迁移至其他需要多模态协调控制的视频生成任务中。主要局限性：论文未提供代码和模型，复现困难；实验仅在普通话手语数据集上进行，未验证其他语言手语的通用性；未分析模型的计算开销和训练成本；长视频测试的最长长度为500帧，对于更长的序列（如分钟级）的稳定性有待进一步验证。 🏗️ 模型架构论文的整体架构基于一个扩散Transformer（DiT）骨干网络，并遵循Rectified Flow（RF）目标进行训练。其核心设计是“解耦课程学习”（DCL），分为三个阶段（如图2所示）： ...

Audience-Aware Co-speech Gesture Generation in Public Speaking via Anticipation Tokens

📄 Audience-Aware Co-speech Gesture Generation in Public Speaking via Anticipation Tokens #跨模态 #扩散模型 #多模态模型 #音频生成 🔥 8.0/10 | 前50% | #音频生成 | #扩散模型 | #跨模态 #多模态模型学术质量 6.3/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度高 👥 作者与机构第一作者：Huan-Yu Chen (台湾新竹清华大学电机系) 通讯作者：Chi-Chun Lee (台湾新竹清华大学电机系) 作者列表：Huan-Yu Chen (台湾新竹清华大学电机系), Woan-Shiuan Chien (台湾新竹交通大学电机与计算机工程研究所), Chi-Chun Lee (台湾新竹清华大学电机系) 💡 毒舌点评这篇论文的亮点在于其问题重构的视角——将公共演讲手势生成从“单向语音到手势”的映射，转变为包含观众预期的“互动式”生成，这为该领域注入了新的思考维度。然而，其短板也较为明显：一是性能提升主要体现在FGD和BC上，但牺牲了手势多样性（Diversity指标下降），且面部表情生成效果改善有限；二是作为一篇顶会论文，完全没有提供任何代码或模型资源，这在强调可复现性的今天，无疑削弱了其学术贡献的落地价值和社区影响力。 🔗 开源详情代码：论文中未提及代码仓库链接。模型权重：未提及公开权重。数据集：论文描述了如何从公开来源（TED Talks, The Daily Show）构建数据集，但未提及是否会发布处理后的、带有笑声锚点标注和特征提取的专用数据集。 Demo：未提供在线演示。复现材料：论文提供了较为详细的训练细节，包括：数据集规模、视频帧率（15fps）、片段长度（5秒：1秒前缀+4秒预测）、笑声检测阈值（0.5）、优化步数（400k）、batch size（64）、学习率（1e-4）、硬件（单卡A100 80GB，训练2天）。这些信息对复现有较大帮助。论文中引用的开源项目：主要依赖预训练模型WavLM（未指明具体版本或链接）、身体/面部姿态估计工具PyMAF-X和SmoothNet、以及笑声检测器（引用[9]但未具体说明）。开源计划：论文中未提及任何开源计划。 📌 核心摘要问题：现有的协同语音手势生成方法大多将公共演讲视为单说话人任务，忽略了观众的存在及其与演讲者之间的动态交互。这种简化视图无法捕捉公共演讲中演讲者主动预期并引发观众反应的关键特征。方法核心：提出一个观众感知的协同语音手势生成框架。核心是引入“观众响应预期令牌”，该令牌编码了即将发生的观众反应（如笑声）的符号化信息。该令牌与语音特征在预训练的语音编码器中进行早期融合，融合后的条件嵌入通过跨注意力机制指导一个基于扩散的生成器合成手势。新意：与已有方法相比，新在三个方面：(1) 理论上，将单说话人手势生成重新定义为演讲者与观众预期的联合建模问题；(2) 方法上，通过符号化的预期令牌和早期融合策略，显式地建模了演讲者的“预期”心理状态；(3) 实验上，构建了一个包含正负样本（反应前/非反应）的对比数据集用于训练预期令牌。实验结果：在TED Talks和The Daily Show两个数据集上的实验表明，该方法在手势真实度（FGD）和语音-手势同步性（BC）指标上优于多数基线方法。消融实验表明，将预期令牌在语音表征阶段进行早期融合或作为控制信号的中期融合，效果优于在扩散生成阶段进行后期融合。具体数值见下表：模型数据集 FGD ↓ BC ↑ Diversity ↑ MSE ↓ LVD ↓ DiP (最强基线) TED Talks 0.646 0.613 62.35 11.58 10.77 本文方法 TED Talks 0.633 0.617 61.29 11.85 10.55 DiffSHEG (最强基线) The Daily Show 0.726 0.633 60.24 10.25 9.256 本文方法 The Daily Show 0.721 0.662 60.12 10.56 9.741 实际意义：为公共演讲、在线教育、虚拟主播等场景下的手势生成提供了更符合社交互动本质的建模思路，有望提升虚拟人或机器人的表现力和自然度。主要局限：模型在提升真实度和同步性的同时，可能限制了生成手势的多样性；对更细微的面部表情生成效果提升有限；实验仅基于观众笑声这一种预期信号，且依赖预先检测，未在闭环或更动态的交互中验证。 🏗️ 模型架构模型整体架构（如图1所示）是一个基于扩散的、条件生成的框架，主要包含三个部分：语音与预期编码器、条件融合模块、扩散手势生成器。 ...

Audio-Conditioned Diffusion LLMs for ASR and Deliberation Processing

📄 Audio-Conditioned Diffusion LLMs for ASR and Deliberation Processing #语音识别 #扩散模型 #语音大模型 #预训练 ✅ 7.0/10 | 前50% | #语音识别 | #扩散模型 | #语音大模型 #预训练学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0 | 置信度中 👥 作者与机构第一作者：Mengqi Wang (University of Illinois at Urbana-Champaign) 与 Zhan Liu (Tsinghua University) 共同贡献通讯作者：未说明作者列表：Mengqi Wang (University of Illinois at Urbana-Champaign), Zhan Liu (Tsinghua University), Zengrui Jin (Tsinghua University), Guangzhi Sun (University of Cambridge), Chao Zhang (Tsinghua University), Philip C. Woodland (University of Cambridge) 💡 毒舌点评亮点：论文系统性地将新兴的扩散LLM（LLaDA）引入语音识别的“审思”环节和直接解码，证明了在引入音频条件后，扩散模型的双向注意力能有效修正自回归模型的错误，且部分配置下推理速度更快。短板：所有实验仅在LibriSpeech上进行，与最强的Whisper-Large v3基线相比仍有明显性能差距，且关键复现细节（如训练GPU型号、总时长）和开源材料均未提供，限制了工作的说服力和可验证性。 ...

AudioGen-Omni: A Unified Multimodal Diffusion Transformer for Video-Synchronized Audio, Speech, and Song Generation

📄 AudioGen-Omni: A Unified Multimodal Diffusion Transformer for Video-Synchronized Audio, Speech, and Song Generation #音频生成 #语音合成 #多模态模型 #扩散模型 #统一音频模型 ✅ 7.5/10 | 前25% | #音频生成 | #多模态模型 | #语音合成 #扩散模型学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Le Wang（中国矿业大学，徐州）通讯作者：未说明（论文中未明确标注通讯作者）作者列表：Le Wang（中国矿业大学）、Jun Wang（快手科技，Kling AI）、Chunyu Qiang（快手科技，Kling AI）、Feng Deng（快手科技，Kling AI）、Chen Zhang（快手科技，Kling AI）、Kun Gai（快手科技，Kling AI） 💡 毒舌点评亮点：这篇论文的野心很大，试图用一个统一的“全家桶”模型解决视频到音频、语音、歌曲的生成，并且通过全面的实验确实做到了在多个任务上刷榜，证明了其架构设计的有效性。短板：然而，论文对视频输入的强依赖像一根“拐杖”，限制了其在无视频场景下的应用，而号称的“统一”框架在代码和模型完全黑箱的情况下，其宣称的优越性和可复现性都要打上一个问号。 🔗 开源详情代码：论文中未提及代码仓库链接。模型权重：未提及公开预训练模型权重。数据集：论文提及了使用的多个数据集名称及大致规模，但未说明这些数据集是否由作者整理发布，或提供具体的下载/访问方式。部分数据集（如VGGSound, AudioCaps）是公开的，但作者处理后的版本未公开。 Demo：提供了在线演示页面链接：https://ciyou2.github.io/AudioGen-Omni/ 。复现材料：给出了模型总参数、层数、优化器、学习率、批次大小、GPU型号和训练时长等关键训练细节。但缺乏具体的网络层配置（如隐藏维度、注意力头数）、数据增强方法、评估脚本等，复现材料不充分。论文中引用的开源项目：论文明确引用了并依赖以下开源模型或工具：F5-TTS [14], ConvNeXt-V2 [10], Synchformer [15], ViT-bigG (MetaCLIP) [31], T5-Base [30], Kling-Foley [32], VQ-CTAP [33], Qwen-Omni [27], Whisper [28], FunASR [29], FLUX [12], SD3 [11]。 📌 核心摘要解决的问题：现有视频到音频（包括音效、语音、音乐）的生成方法大多任务特定、模型碎片化，且跨模态（如唇音同步）对齐效果不佳，限制了通用性和生成质量。方法核心：提出AudioGen-Omni，一个基于多模态扩散变换器（MM-DiT）的统一框架。其核心是引入了“歌词-转录编码器”，将音素/字素映射为帧级稠密表示；并设计了“相位对齐各向异性位置注入（PAAPI）”，在注意力机制中对视频、音频、转录文本等有时序结构的模态选择性地应用旋转位置编码，以实现精细的跨模态同步。创新点：a) 首个能同时处理音频、语音、歌曲生成的统一多模态条件生成框架；b) 提出了无需音素时长监督的歌词转录编码模块；c) PAAPI机制增强了细粒度的时序对齐。与先前工作不同，它解冻了所有模态并采用掩码输入策略，增强了灵活性。主要实验结果：在VGGSound音频生成测试集上，其FD指标（PaSST 58.77, PANNs 6.29）优于MMAudio等基线（见表1）。在LRS3/LRS2语音生成测试中，其UTMOS（3.982/3.842）和DNSMOS（3.782/3.767）得分甚至超过真实语音，WER也大幅降低（17.56%/17.75%）（见表2）。在说话人相似度（SECS）评估中，其GE2E和VoxSim分数均高于其他方法（见表3）。模型能在1.91秒内生成8秒音频。实际意义：为多媒体内容创作提供了一个高效、高质量的统一音频生成工具，有望简化视频后期制作流程，增强虚拟人物、游戏、社交媒体的音频沉浸感。主要局限性：模型依赖视频输入，当无视觉信息时应用受限；论文未开源代码和模型，限制了社区复现和二次开发；虽能生成歌曲，但对复杂音乐结构的控制能力未深入展示。 🏗️ 模型架构 AudioGen-Omni是一个端到端的多模态扩散变换器，旨在根据可选的视频和文本输入，生成同步的音频、语音或歌曲。 ...