A State-Dependent Markov Diffusion Process for Generative Speech Enhancement

📄 A State-Dependent Markov Diffusion Process for Generative Speech Enhancement #语音增强 #扩散模型 #图注意力 #混合损失 ✅ 6.5/10 | 前25% | #语音增强 | #扩散模型 | #图注意力 #混合损失 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 -0.5 | 置信度 中 👥 作者与机构 第一作者:Yasir Iqbal(天津大学电气与信息工程学院) 通讯作者:Yanzhang Geng(天津大学电气与信息工程学院) 作者列表:Yasir Iqbal(天津大学电气与信息工程学院)、Tao Zhang(天津大学电气与信息工程学院)、Anjum Iqbal(大连理工大学软件学院)、Xin Zhao(天津大学电气与信息工程学院)、Yanzhang Geng†(天津大学电气与信息工程学院) 💡 毒舌点评 亮点在于将“状态依赖”的自适应理念引入扩散模型的前向过程,并设计了一套兼顾多目标(时域、频域、感知指标)的混合损失,实验结果在多个指标上确实超越了近期强基线。短板在于,核心创新更像是精巧的“模块拼装”(自适应SDE + GUGA网络 + 混合损失),对于“为何这些组合有效”背后的机理探讨略显不足,且54M参数的模型在实时性上相比轻量模型(如SEMamba)并无优势。 📌 核心摘要 这篇论文旨在解决传统扩散模型因使用固定噪声调度而难以适应现实世界动态非平稳噪声的问题。其核心是提出一种状态依赖的马尔可夫扩散过程(SDMDP),该过程的扩散转移率可根据当前含噪状态与目标观测之间的偏差进行动态调整。与之配套的,是名为门控U-Net与图注意力(GUGA)的骨干网络架构,以及结合时域、频域和感知指标(PESQ, STOI)的混合损失函数。实验在VB-DMD数据集上进行,结果显示,采用数据预测范式的“SDMDP (Predict)”方法取得了当前最佳性能,其PESQ、SI-SDR和POLQA分别达到3.84、20.1 dB和4.34,显著优于包括SGMSE+、M8在内的多个竞争基线。该方法的实际意义在于提升了生成式语音增强在复杂噪声下的语音质量和可懂度。其主要局限性在于计算开销较高,论文也承认了加速推理以用于实时应用是未来工作的重点。 🏗️ 模型架构 本文的模型架构由两大部分构成:核心的扩散过程框架(SDMDP)和骨干生成网络(GUGA)。 扩散过程框架(SDMDP): 整体流程:遵循扩散模型的前向加噪与反向去噪范式。前向过程(公式1)将干净语音$x_0$逐步“加噪”至观测到的含噪语音$y$;反向过程(公式6)则从$y$出发,通过学习到的分数函数$\nabla_{x_t} \log p_t(x_t|y)$逐步恢复出$x_0$。 核心创新点:与固定转移率的传统SDE不同,SDMDP的前向SDE中引入了一个状态依赖的转移率$\gamma(x_t, y) = \theta(1 + \alpha \cdot mean(|x_t - y|))$(公式2)。这意味着在扩散的每一步,过程的“前进速度”会根据当前状态$x_t$与目标状态$y$之间的平均绝对偏差自适应调整。偏差越大,转移率越高,从而理论上可以更高效地将状态推向目标分布。 概率分布:论文推导了在该自适应SDE下,$x_t$条件于$x_0$和$y$的边际分布为复高斯分布(公式3,4),并给出了训练时的采样公式(公式5)。 骨干生成网络(GUGA): 功能:作为反向扩散过程中的参数化模型$F_\theta(x_t, y, t)$,负责估计分数、去噪信号或直接预测干净频谱图。最终映射为$F_\theta: (x_t, y, t) \rightarrow \hat{x}_0$。 整体结构:一个对称的U-Net编码器-解码器架构。输入是4通道特征图,由含噪状态$x_t$和观测$y$的复数频谱(实部、虚部)堆叠而成:$Input = [Re(x_t), Im(x_t), Re(y), Im(y)]$。 核心组件: 时间步嵌入:使用多尺度余弦嵌入(公式10)为扩散时间步$t$生成密集表示temb。 门控残差块:网络的核心构建模块。其核心是门控卷积(公式11),通过两个并行卷积分支(一个生成特征,一个生成门控掩码)进行逐元素乘法,能更灵活地控制信息流。结合了GroupNorm和Mish激活。 图滤波注意力:在U-Net的不同下采样层级(16x16, 32x32, 64x64分辨率)引入。它使用Network-in-Network(NIN)生成查询(Q)、键(K)、值(V),并计算注意力权重$W$。其关键在于引入了可学习的偏置$b$(公式12),使注意力机制能够进行自适应的图滤波,从而更好地捕捉语音信号中的长程依赖关系。 输出:解码器输出为增强的复数频谱图$\hat{x}_0$(2通道:实部、虚部),再通过iSTFT转换为时域波形。 图1展示了SDMDP框架与GUGA架构的整体流程。左侧显示前向过程($x_0 \to x_t \to y$)与反向过程($y \to x_t \to \hat{x}_0$),右侧详细展示了GUGA网络结构,包括输入构造、时间步嵌入、编码器、图注意力模块和解码器。 ...

2026-04-29

Are Modern Speech Enhancement Systems Vulnerable to Adversarial Attacks?

📄 Are Modern Speech Enhancement Systems Vulnerable to Adversarial Attacks? #语音增强 #对抗样本 #扩散模型 #鲁棒性 ✅ 7.5/10 | 前25% | #语音增强 | #对抗样本 | #扩散模型 #鲁棒性 学术质量 6.5/7 | 选题价值 1.0/2 | 复现加成 0.0 | 置信度 中 👥 作者与机构 第一作者:Rostislav Makarov (汉堡大学信号处理组) 通讯作者:未说明 作者列表:Rostislav Makarov(汉堡大学信号处理组)、Lea Schönherr(CISPA亥姆霍兹信息安全中心)、Timo Gerkmann(汉堡大学信号处理组) 💡 毒舌点评 论文系统性地揭示了现代语音增强系统在对抗攻击下的脆弱性,并令人信服地论证了扩散模型因其随机采样机制而具备的“先天”鲁棒性,这是一个有价值的安全视角。然而,实验完全基于白盒攻击和合成攻击对,离验证真实世界(如助听器、通信系统)中的攻击场景还有很长距离,且代码和模型权重的未明确开源限制了结论的即时可验证性。 📌 核心摘要 问题:本文研究了一个新兴的安全问题:现代的、表达能力强大的语音增强(SE)系统是否容易受到精心设计的、人耳难以察觉的对抗性噪声的攻击,从而输出与用户意图完全不同的语音内容。 方法核心:提出了一种针对语音增强系统的白盒对抗攻击框架。攻击者向原始混合语音(语音+噪声)中添加一个经优化的小扰动δ,目标是让SE系统的输出语音听起来像另一个指定的、攻击者选择的语音信号(Sattacker)。该扰动通过结合心理声学模型(MPEG-1)进行隐藏,使其不易被察觉,并使用PGD结合ℓ2范数约束进行优化。 新颖之处:首次系统性地将对抗攻击从语音识别(分类任务)扩展到语音增强(回归任务)。对比分析了三类主流SE模型(直接映射、复数掩膜、基于分数的扩散模型SGMSE+)在攻击下的脆弱性差异,并创新性地将心理声学隐藏技术适配到SE攻击场景。 主要实验结果:在EARS-WHAM-v2数据集上对100对样本进行攻击。结果显示,预测式模型(Direct Map, CRM)在适中约束下(λ=20dB, ε=10)能被有效攻击,输出语音与目标攻击语音高度相似(WER≈0.20, AS-POLQA≈1.81),同时扰动具有一定隐蔽性(SNR≈12.88 dB)。相比之下,扩散模型(Diffusion)更难攻击:即使在相同约束下,攻击成功率更低(WER≈0.80, AS-POLQA≈1.14),且扰动更明显(SNR≈7.90 dB)。消融实验进一步证明,扩散模型的随机采样步骤是其鲁棒性的关键来源(固定噪声路径后WER从0.47降至0.27)。 实际意义:本研究首次指出了语音增强系统存在被恶意操纵以篡改语义内容的安全风险,为未来SE系统的设计和安全评估提出了新挑战。其结论暗示,基于扩散模型的生成式SE可能因其随机性而更适合对安全性有要求的应用。 主要局限性:攻击场景为理想化的白盒攻击,且未考虑真实信道传输的影响;实验规模相对有限;攻击成功与否高度依赖于模型的可微性和攻击者对模型的完全控制。 🏗️ 模型架构 论文并未提出一个新的SE模型架构,而是评估和对比现有三类主流SE架构在对抗攻击下的表现。这三类架构都基于同一个骨干网络(NCSN++ U-Net),主要区别在于输出生成方式: ...

2026-04-29

Asynchrony-Aware Decoupled Multimodal Control for Cued Speech Video Generation

📄 Asynchrony-Aware Decoupled Multimodal Control for Cued Speech Video Generation #语音合成 #扩散模型 #流匹配 #音视频 #低资源 ✅ 7.5/10 | 前10% | #语音合成 | #扩散模型 | #流匹配 #音视频 学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 -0.5 | 置信度 高 👥 作者与机构 第一作者:Fengji Ma(香港科技大学(广州)) 通讯作者:Li Liu(香港科技大学(广州),邮箱:avrillliu@hkust-gz.edu.cn) 作者列表:Fengji Ma(香港科技大学(广州))、Xiao-Ping Zhang(清华伯克利深圳学院)、Li Liu(香港科技大学(广州)) 💡 毒舌点评 这篇论文的亮点在于将“手语视频生成”这个具体任务分解得非常清晰,并针对其中“控制纠缠”、“动作异步”和“长视频漂移”三个痛点分别设计了技术方案(DCL、SAMP、MS-CWD),体现了扎实的工程思维和问题导向。然而,其短板也显而易见:作为一篇强调生成质量的工作,却未提供任何开源代码或预训练模型,甚至训练数据集的公开性也未明确,这极大削弱了其作为学术贡献的可验证性和后续研究价值;此外,长视频一致性的验证仅在500帧左右,对于实际应用可能需要更长序列的表现未做探讨。 📌 核心摘要 要解决的问题:论文旨在解决从语音和姿态信号生成手语视频(Cued Speech Video)时面临的三个关键挑战:(1) 语音与姿态模态间的控制纠缠,导致嘴唇和手部细节模糊;(2) 手语系统固有的手部动作与语音的自然异步性,严格对齐会导致动作不自然;(3) 长视频生成中缺乏长期时序一致性。 方法核心:提出一个名为“解耦课程学习”(Decoupled Curriculum Learning, DCL)的三阶段训练框架。该框架先分别训练语音分支(控制嘴唇)和姿态分支(控制上半身和手势),再进行联合微调。同时,引入了区域感知重建损失(RAR)以增强局部细节,设计了语音异步调制(SAMP)机制来建模手势与语音的自然时间偏移,并提出了多尺度上下文窗口去噪(MS-CWD)推理策略以保证长视频的时序连贯性。 与已有方法的创新点:与以往通用的人像动画或说话人头部生成方法不同,本文是首个针对“手语视频生成”这一特定任务进行系统性建模的工作。其创新点包括:(1) 明确的解耦训练策略(DCL)以避免模态干扰;(2) 区域感知的精细化损失(RAR)聚焦于嘴唇和手部这两个关键区域;(3) 首次在生成任务中显式建模语音与手势的异步关系(SAMP);(4) 专为长视频设计的多尺度、加权融合的推理算法(MS-CWD)。 主要实验结果:在自建的普通话手语(MCCS)数据集上,本文方法在所有评估指标上均优于StableAnimator (SA) 和 UniAnimate-DiT (UAD) 两个SOTA方法。具体数值见表1。消融实验证明,移除任何一个提出模块(DCL, RAR, SAMP, MS-CWD)都会导致性能下降,其中移除DCL影响最大。图4显示,在500帧长视频中,本文方法的手部关键点置信度(HKC)和语音-嘴唇同步置信度(Sync-C)的衰减率仅为约3%,远低于基线方法(约7%-22%)。 实际意义:该技术有望为听障人群生成易于理解的、手语辅助的教学或交流视频,打破沟通壁垒。其提出的技术(如异步建模、长视频生成)也可能迁移至其他需要多模态协调控制的视频生成任务中。 主要局限性:论文未提供代码和模型,复现困难;实验仅在普通话手语数据集上进行,未验证其他语言手语的通用性;未分析模型的计算开销和训练成本;长视频测试的最长长度为500帧,对于更长的序列(如分钟级)的稳定性有待进一步验证。 🏗️ 模型架构 论文的整体架构基于一个扩散Transformer(DiT)骨干网络,并遵循Rectified Flow(RF)目标进行训练。其核心设计是“解耦课程学习”(DCL),分为三个阶段(如图2所示): ...

2026-04-29

Audience-Aware Co-speech Gesture Generation in Public Speaking via Anticipation Tokens

📄 Audience-Aware Co-speech Gesture Generation in Public Speaking via Anticipation Tokens #跨模态 #扩散模型 #多模态模型 #音频生成 🔥 8.0/10 | 前50% | #音频生成 | #扩散模型 | #跨模态 #多模态模型 学术质量 6.3/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度 高 👥 作者与机构 第一作者:Huan-Yu Chen (台湾新竹清华大学电机系) 通讯作者:Chi-Chun Lee (台湾新竹清华大学电机系) 作者列表:Huan-Yu Chen (台湾新竹清华大学电机系), Woan-Shiuan Chien (台湾新竹交通大学电机与计算机工程研究所), Chi-Chun Lee (台湾新竹清华大学电机系) 💡 毒舌点评 这篇论文的亮点在于其问题重构的视角——将公共演讲手势生成从“单向语音到手势”的映射,转变为包含观众预期的“互动式”生成,这为该领域注入了新的思考维度。然而,其短板也较为明显:一是性能提升主要体现在FGD和BC上,但牺牲了手势多样性(Diversity指标下降),且面部表情生成效果改善有限;二是作为一篇顶会论文,完全没有提供任何代码或模型资源,这在强调可复现性的今天,无疑削弱了其学术贡献的落地价值和社区影响力。 📌 核心摘要 问题:现有的协同语音手势生成方法大多将公共演讲视为单说话人任务,忽略了观众的存在及其与演讲者之间的动态交互。这种简化视图无法捕捉公共演讲中演讲者主动预期并引发观众反应的关键特征。 方法核心:提出一个观众感知的协同语音手势生成框架。核心是引入“观众响应预期令牌”,该令牌编码了即将发生的观众反应(如笑声)的符号化信息。该令牌与语音特征在预训练的语音编码器中进行早期融合,融合后的条件嵌入通过跨注意力机制指导一个基于扩散的生成器合成手势。 新意:与已有方法相比,新在三个方面:(1) 理论上,将单说话人手势生成重新定义为演讲者与观众预期的联合建模问题;(2) 方法上,通过符号化的预期令牌和早期融合策略,显式地建模了演讲者的“预期”心理状态;(3) 实验上,构建了一个包含正负样本(反应前/非反应)的对比数据集用于训练预期令牌。 实验结果:在TED Talks和The Daily Show两个数据集上的实验表明,该方法在手势真实度(FGD)和语音-手势同步性(BC)指标上优于多数基线方法。消融实验表明,将预期令牌在语音表征阶段进行早期融合或作为控制信号的中期融合,效果优于在扩散生成阶段进行后期融合。具体数值见下表: 模型 数据集 FGD ↓ BC ↑ Diversity ↑ MSE ↓ LVD ↓ DiP (最强基线) TED Talks 0.646 0.613 62.35 11.58 10.77 本文方法 TED Talks 0.633 0.617 61.29 11.85 10.55 DiffSHEG (最强基线) The Daily Show 0.726 0.633 60.24 10.25 9.256 本文方法 The Daily Show 0.721 0.662 60.12 10.56 9.741 实际意义:为公共演讲、在线教育、虚拟主播等场景下的手势生成提供了更符合社交互动本质的建模思路,有望提升虚拟人或机器人的表现力和自然度。 主要局限:模型在提升真实度和同步性的同时,可能限制了生成手势的多样性;对更细微的面部表情生成效果提升有限;实验仅基于观众笑声这一种预期信号,且依赖预先检测,未在闭环或更动态的交互中验证。 🏗️ 模型架构 模型整体架构(如图1所示)是一个基于扩散的、条件生成的框架,主要包含三个部分:语音与预期编码器、条件融合模块、扩散手势生成器。 ...

2026-04-29

Audio-Conditioned Diffusion LLMs for ASR and Deliberation Processing

📄 Audio-Conditioned Diffusion LLMs for ASR and Deliberation Processing #语音识别 #扩散模型 #语音大模型 #预训练 ✅ 7.0/10 | 前50% | #语音识别 | #扩散模型 | #语音大模型 #预训练 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0 | 置信度 中 👥 作者与机构 第一作者:Mengqi Wang (University of Illinois at Urbana-Champaign) 与 Zhan Liu (Tsinghua University) 共同贡献 通讯作者:未说明 作者列表:Mengqi Wang (University of Illinois at Urbana-Champaign), Zhan Liu (Tsinghua University), Zengrui Jin (Tsinghua University), Guangzhi Sun (University of Cambridge), Chao Zhang (Tsinghua University), Philip C. Woodland (University of Cambridge) 💡 毒舌点评 亮点:论文系统性地将新兴的扩散LLM(LLaDA)引入语音识别的“审思”环节和直接解码,证明了在引入音频条件后,扩散模型的双向注意力能有效修正自回归模型的错误,且部分配置下推理速度更快。短板:所有实验仅在LibriSpeech上进行,与最强的Whisper-Large v3基线相比仍有明显性能差距,且关键复现细节(如训练GPU型号、总时长)和开源材料均未提供,限制了工作的说服力和可验证性。 ...

2026-04-29

AudioGen-Omni: A Unified Multimodal Diffusion Transformer for Video-Synchronized Audio, Speech, and Song Generation

📄 AudioGen-Omni: A Unified Multimodal Diffusion Transformer for Video-Synchronized Audio, Speech, and Song Generation #音频生成 #语音合成 #多模态模型 #扩散模型 #统一音频模型 ✅ 7.5/10 | 前25% | #音频生成 | #多模态模型 | #语音合成 #扩散模型 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Le Wang(中国矿业大学,徐州) 通讯作者:未说明(论文中未明确标注通讯作者) 作者列表:Le Wang(中国矿业大学)、Jun Wang(快手科技,Kling AI)、Chunyu Qiang(快手科技,Kling AI)、Feng Deng(快手科技,Kling AI)、Chen Zhang(快手科技,Kling AI)、Kun Gai(快手科技,Kling AI) 💡 毒舌点评 亮点:这篇论文的野心很大,试图用一个统一的“全家桶”模型解决视频到音频、语音、歌曲的生成,并且通过全面的实验确实做到了在多个任务上刷榜,证明了其架构设计的有效性。 短板:然而,论文对视频输入的强依赖像一根“拐杖”,限制了其在无视频场景下的应用,而号称的“统一”框架在代码和模型完全黑箱的情况下,其宣称的优越性和可复现性都要打上一个问号。 📌 核心摘要 解决的问题:现有视频到音频(包括音效、语音、音乐)的生成方法大多任务特定、模型碎片化,且跨模态(如唇音同步)对齐效果不佳,限制了通用性和生成质量。 方法核心:提出AudioGen-Omni,一个基于多模态扩散变换器(MM-DiT)的统一框架。其核心是引入了“歌词-转录编码器”,将音素/字素映射为帧级稠密表示;并设计了“相位对齐各向异性位置注入(PAAPI)”,在注意力机制中对视频、音频、转录文本等有时序结构的模态选择性地应用旋转位置编码,以实现精细的跨模态同步。 创新点:a) 首个能同时处理音频、语音、歌曲生成的统一多模态条件生成框架;b) 提出了无需音素时长监督的歌词转录编码模块;c) PAAPI机制增强了细粒度的时序对齐。与先前工作不同,它解冻了所有模态并采用掩码输入策略,增强了灵活性。 主要实验结果:在VGGSound音频生成测试集上,其FD指标(PaSST 58.77, PANNs 6.29)优于MMAudio等基线(见表1)。在LRS3/LRS2语音生成测试中,其UTMOS(3.982/3.842)和DNSMOS(3.782/3.767)得分甚至超过真实语音,WER也大幅降低(17.56%/17.75%)(见表2)。在说话人相似度(SECS)评估中,其GE2E和VoxSim分数均高于其他方法(见表3)。模型能在1.91秒内生成8秒音频。 实际意义:为多媒体内容创作提供了一个高效、高质量的统一音频生成工具,有望简化视频后期制作流程,增强虚拟人物、游戏、社交媒体的音频沉浸感。 主要局限性:模型依赖视频输入,当无视觉信息时应用受限;论文未开源代码和模型,限制了社区复现和二次开发;虽能生成歌曲,但对复杂音乐结构的控制能力未深入展示。 🏗️ 模型架构 AudioGen-Omni是一个端到端的多模态扩散变换器,旨在根据可选的视频和文本输入,生成同步的音频、语音或歌曲。 ...

2026-04-29

Automatic Music Mixing Using a Generative Model of Effect Embeddings

📄 Automatic Music Mixing Using a Generative Model of Effect Embeddings #音乐生成 #扩散模型 #领域适应 #音乐信息检索 ✅ 7.5/10 | 前25% | #音乐生成 | #扩散模型 | #领域适应 #音乐信息检索 学术质量 6.0/7 | 选题价值 1.0/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Eloi Moliner(Aalto大学,DICE声学实验室) 通讯作者:未说明 作者列表:Eloi Moliner(Aalto大学,DICE声学实验室)、Marco A. Mart´ınez-Ram´ırez(Sony AI)、Junghyun Koo(Sony AI)、Wei-Hsiang Liao(Sony AI)、Kin Wai Cheuk(Sony AI)、Joan Serr`a(Sony AI)、Vesa V¨alim¨aki(Aalto大学,DICE声学实验室)、Yuki Mitsufuji(Sony AI, Sony Group Corporation) 💡 毒舌点评 MEGAMI的核心亮点在于巧妙地将扩散模型应用于效应嵌入空间,解决了自动混音中“一对多”的根本难题,同时其领域适应策略为利用海量无配对湿录音数据提供了优雅的解决方案,架构设计完整且有深度。然而,论文的评估严重依赖内部数据集,缺乏在大型公开基准上的可复现比较,且其“接近人类水平”的结论在部分主观测试结果中略显主观,实际泛化能力与可落地性仍有疑问。 📌 核心摘要 这篇论文旨在解决自动音乐混音中的核心挑战:专业混音本质上是主观的,同一组干录音存在多种同样有效的混音方案,而现有的确定性回归方法无法捕捉这种多样性。论文提出了MEGAMI(Multitrack Embedding Generative Auto MIxing),一个生成式框架,它使用条件扩散模型在效应嵌入空间中建模给定干音轨的专业混音的条件分布。其核心方法是将混音决策(由效应嵌入表示)与音乐内容分离,并设计了一个排列等变的Transformer架构以处理任意数量和顺序的音轨。与已有方法相比,MEGAMI的创新在于:(1)首次将生成模型(扩散模型)用于自动混音;(2)提出了一种效应嵌入因式分解;(3)通过领域适应策略,使模型能利用大量仅有湿录音的公开数据集进行训练。实验表明,在客观分布性指标(KAD)上,MEGAMI优于所有基线;主观听力测试显示其性能接近人类混音师,在部分曲目上甚至超越了人类参考混音。这项工作为自动音乐生成开辟了新方向,其框架可用于合成混音数据集。主要局限性在于评估数据集大部分为内部数据,且模型性能依赖于CLAP和FxEncoder++等预训练嵌入模型的质量。 ...

2026-04-29

Bayesian Signal Separation Via Plug-and-Play Diffusion-Within-Gibbs Sampling

📄 Bayesian Signal Separation Via Plug-and-Play Diffusion-Within-Gibbs Sampling #语音分离 #扩散模型 #信号处理 #生物声学 ✅ 7.5/10 | 前25% | #语音分离 | #扩散模型 | #信号处理 #生物声学 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度 中 👥 作者与机构 第一作者:Yi Zhang(魏茨曼科学研究所,数学与计算机科学系) 通讯作者:Rui Guo(魏茨曼科学研究所,数学与计算机科学系; 邮箱:rui.guo@weizmann.ac.il) 作者列表:Yi Zhang(魏茨曼科学研究所,数学与计算机科学系)、Rui Guo(魏茨曼科学研究所,数学与计算机科学系)、Yonina C. Eldar(魏茨曼科学研究所,数学与计算机科学系) 💡 毒舌点评 亮点:将即插即用扩散模型与吉布斯采样的框架结合得极为优雅,不仅提供了严格的理论收敛证明,还实现了不同源信号先验模型的独立训练与自由组合,设计上富有巧思且模块化程度高。 短板:理论证明高度依赖“完美扩散模型”这一理想化假设,而实际中扩散模型的训练误差、离散化误差等会直接影响算法性能,论文对此稳健性分析不足;此外,实验仅在一个特定且数据量可能有限的生物医学场景(心搏提取)上验证,未能充分展示其在更主流、更复杂的音频/语音分离任务上的泛化能力。 📌 核心摘要 本文针对从噪声混合中恢复多个独立源信号的贝叶斯分离问题,提出了一种名为“扩散-内-吉布斯采样(DiG)”的后验采样算法。其核心是将吉布斯采样与即插即用(Plug-and-Play)扩散先验相结合:算法交替地对每个源信号进行更新,更新其条件分布时,通过模拟对应源信号的扩散模型的反向过程的一部分来实现。与现有大多数基于扩散模型的分离方法相比,该方法的新颖之处在于:1)模块化设计,允许预先独立训练每个源信号的扩散模型,然后灵活组合,无需为新的分离任务重新训练整个模型;2)在扩散模型完美训练的理想假设下,能够证明算法收敛到真实的后验分布。实验在从含有强运动伪影的混合信号中提取心搏的任务上进行,结果表明,所提DiG算法在均方误差(MSE)指标上全面优于传统方法(EMD, VMD)以及现有的先进扩散后验采样方法(MSDM, DPnP)。例如,在信号干扰比为-40.1 dB、信噪比为13.2 dB的极端情况下,DiG的MSE为0.57,而次优的DPnP为0.98,优势明显。该工作为信号分离问题提供了一种灵活、理论上可证明的新范式,其实际意义在于降低了扩散模型在分离任务中的应用门槛。主要局限是理论保证依赖于强理想化假设,且实验场景相对特定。 🏗️ 模型架构 本文提出的DiG算法并非一个单一的神经网络架构,而是一个基于采样的计算框架。其整体输入输出流程与内部组件交互如下: 整体流程: 输入:观测到的混合信号 y(含噪),预设的源信号数量 K,为每个源信号 s_k 预先训练好的扩散模型(用于模拟其先验分布),以及算法超参数(迭代次数 N,观测噪声标准差 σ_v)。 处理:通过吉布斯采样迭代更新每个源信号 s_k 的估计。在每次迭代中,对于当前要更新的源 s_k,算法构造一个“目标残差” r_k,它等于观测信号减去其他所有源信号的当前估计值。将这个残差作为某个扩散模型中间时刻 t_v(满足 σ(t_v) = σ_v)的状态 ¯x_{k, t_v},然后模拟该扩散模型从 t_v 到 0 的反向过程,得到 ¯x_{k,0},并将其��为 s_k 的新估计。 输出:经过 N 次完整迭代后,输出 K 个源信号的后验样本 (s^{(N)}_1, ..., s^{(N)}_K)。对该样本进行平均,可近似MMSE估计。 核心组件与数据流: ...

2026-04-29

Beyond Face Swapping: A Diffusion-Based Digital Human Benchmark for Multimodal Deepfake Detection

📄 Beyond Face Swapping: A Diffusion-Based Digital Human Benchmark for Multimodal Deepfake Detection #音频深度伪造检测 #多模态模型 #基准测试 #扩散模型 #数据集 🔥 8.1/10 | 前25% | #音频深度伪造检测 | #多模态模型 | #基准测试 #扩散模型 学术质量 6.0/7 | 选题价值 1.8/2 | 复现加成 0.3 | 置信度 高 👥 作者与机构 第一作者:未说明(论文标注Jiaxin Liu†和Jia Wang†贡献相等,未明确谁为第一) 通讯作者:Saihui Hou⋆, Zhaofeng He⋆ 作者列表:Jiaxin Liu(北京邮电大学,BUPT)、Jia Wang(北京师范大学,BNU)、Saihui Hou(未说明具体机构,可能来自BUPT或BNU)、Min Ren(滴滴出行,Didi Chuxing)、Huijia Wu(滴滴出行,Didi Chuxing)、Long Ma(未说明)、Renwang Pei(未说明)、Zhaofeng He(未说明具体机构,可能来自BUPT或BNU) 💡 毒舌点评 亮点在于构建了第一个专门为评估“扩散模型驱动的数字人”伪造而设计的大规模多模态数据集(DigiFakeAV),数据生成流程严谨,有效暴露了现有检测器的脆弱性,为领域提供了急需的试金石。短板则是提出的检测方法DigiShield虽然有效,但更像一个验证多模态融合有效性的“基线”而非一个具有颠覆性的新架构,且其在DigiFakeAV上80.1%的AUC也说明“道高一尺,魔高一丈”,真正的安全挑战远未解决。 📌 核心摘要 要解决什么问题:现有深度伪造检测数据集和技术主要针对过时的面交换方法,无法有效评估和应对由扩散模型生成的、具有高度真实性和多模态一致性的新一代数字人伪造,导致现有检测器性能在现实威胁面前大幅下降。 方法核心是什么:本文提出两个核心贡献:a) 构建DigiFakeAV,一个包含6万视频的大规模多模态数据集,由5种前沿扩散模型生成,注重多样性、场景真实性和音视频同步质量。b) 提出DigiShield检测框架,采用双流网络分别提取视觉和音频的时空特征,并通过跨模态注意力和自注意力机制进行融合,以捕获微妙的跨模态不一致性。 与已有方法相比新在哪里:a) 数据集是第一个基于扩散模型、强调多模态一致性和场景多样性的伪造检测基准。b) 检测方法显式地建模了视频与音频在时空维度上的对齐关系,旨在应对扩散伪造的高一致性挑战。 ...

2026-04-29

Bone-Conduction Guided Multimodal Speech Enhancement with Conditional Diffusion Models

📄 Bone-Conduction Guided Multimodal Speech Enhancement with Conditional Diffusion Models #语音增强 #扩散模型 #骨传导 #多模态模型 ✅ 7.5/10 | 前25% | #语音增强 | #扩散模型 | #骨传导 #多模态模型 学术质量 7.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Sina Khanagha(汉堡大学信号处理组) 通讯作者:未说明 作者列表:Sina Khanagha(汉堡大学信号处理组)、Bunlong Lay(汉堡大学信号处理组)、Timo Gerkmann(汉堡大学信号处理组) 💡 毒舌点评 本文的亮点在于将扩散模型这一强大的生成范式引入骨传导引导的多模态语音增强任务,并通过设计精巧的条件注入策略(IC/DC),在极低信噪比下实现了显著的性能飞跃(例如在-10dB SNR下POLQA提升超过1分)。然而,其核心短板在于扩散模型固有的多步迭代采样带来的推理速度瓶颈(论文仅简要提及需要数十步,未量化延迟),这使其在助听器、实时通信等需要低延迟的应用场景中面临严峻挑战,论文对此缺乏深入探讨和解决方案。 📌 核心摘要 问题:传统单通道语音增强模型在极端噪声环境(低信噪比)下性能严重下降。虽然骨传导信号(通过颅骨振动采集)对声学噪声免疫,但其带宽有限、清晰度差,如何有效融合这两种互补模态是一个挑战。 方法核心:提出了骨传导条件扩散模型(BCDM),一个基于复数域条件扩散模型的多模态语音增强框架。模型将干净语音作为生成目标,以带噪的空气传导语音为条件引导扩散过程,并创新性地引入骨传导信号作为额外条件。论文比较了两种将骨传导信号注入主网络的条件化策略:输入拼接(IC) 和 解码器条件化(DC)。 创新点:首次将条件扩散模型框架应用于骨传导引导的语音增强;提出了IC和DC两种有效的跨模态条件注入方法;在广泛的声学条件(SNR从-10dB到15dB)下进行了全面实验验证。 实验结果:在ABCS+CHiME3数据集上,所有BCDM变体在所有SNR条件下均优于基线模型(包括单模态扩散模型SGMSE+和多种多模态预测模型)。例如,在极具挑战性的-10dB SNR下,BCDM-DC-L的POLQA分数为2.37±0.45,而最强基线BiNet为2.35±0.40,SGMSE+仅为1.30±0.35。关键对比数据见下表。 模型 SNR=-10dB POLQA SNR=-10dB PESQ SNR=-10dB ESTOI SNR=5dB POLQA SNR=15dB POLQA Noisy Mixture 1.09 1.08 0.21 1.55 2.42 SGMSE+ 1.30 1.15 0.36 2.83 3.55 BiNet 2.35 1.80 0.63 2.62 2.78 BCDM-IC-S 2.36 1.86 0.75 3.00 3.53 BCDM-DC-L 2.44 2.02 0.76 3.20 3.70 实际意义:为助听器、可穿戴通信设备等在极端嘈杂环境下(如工厂、战场)保持清晰语音通信提供了新的技术路径,证明了多模态生成模型的潜力。 ...

2026-04-29