Diffemotalk: Audio-Driven Facial Animation with Fine-Grained Emotion Control via Diffusion Models

📄 Diffemotalk: Audio-Driven Facial Animation with Fine-Grained Emotion Control via Diffusion Models #语音情感识别 #扩散模型 #对比学习 #跨模态 ✅ 7.5/10 | 前25% | #语音情感识别 | #扩散模型 | #对比学习 #跨模态 学术质量 6.5/7 | 选题价值 1.0/2 | 复现加成 0.0 | 置信度 高 👥 作者与机构 第一作者:Kexin Gao (中国海洋大学计算机科学与技术学院) 通讯作者:Xinjie Wang (中国海洋大学计算机科学与技术学院, 邮箱:wangxinjie@ouc.edu.cn) 作者列表:Kexin Gao (中国海洋大学计算机科学与技术学院), Yuyu Zhu (中国海洋大学计算机科学与技术学院), Jian Liu (中国海洋大学计算机科学与技术学院), Xinjie Wang* (中国海洋大学计算机科学与技术学院), Xiaogang Jin (浙江大学CAD&CG国家重点实验室), Jie Nie (中国海洋大学计算机科学与技术学院) 💡 毒舌点评 亮点:在情感表征上,摒弃了传统的离散标签,转而使用连续的VA值和文本描述进行层次化对比学习,这一设计巧妙地缓解了细粒度情感标注数据稀缺的问题。短板:尽管号称“细粒度情感控制”,但实验主要基于离散情绪类别的MEAD/RAVDESS数据集,对情感粒度的提升主要体现在强度和类间区分上,对更微妙、混合情感的生成能力验证不足,跨数据集的泛化能力也仅在一个小型数据集上得到初步验证。 🔗 开源详情 代码:论文中未提及代码链接或开源计划。 模型权重:未提及。 数据集:使用了公开数据集MEAD、RAVDESS和TA-MEAD。论文中未说明其提取的AU和FLAME数据是否公开。 Demo:未提及。 复现材料:论文提供了部分训练超参数(学习率、批大小、训练轮数、损失权重、GPU型号等),但未提供完整的训练脚本、配置文件或预训练检查点。 引用的开源项目/模型:HuBERT(用于特征提取)、CLIP(用于文本编码)、FLAME(面部模型)、SpeechEmotionAVLearning(用于提取VA值)。 📌 核心摘要 要解决的问题:现有音频驱动的3D说话头部生成技术虽然在唇形同步方面表现良好,但在生成生动、可控且情感细腻的面部动画方面存在瓶颈,具体表现为情感解耦粒度粗糙、生成稳定性差以及难以建模细微的情感差异。 方法核心:提出DiffEmoTalk框架,其核心是三个专门编码器:唇动编码器、韵律编码器和情感感知语音编码器(EASE),用于从语音中解耦不同粒度的特征。EASE通过层次化多级对比学习(HMLC),利用连续的效价-唤醒值(VA)和文本描述进行优化。解耦后的特征通过一个“情感引导的多特征AU预测器”融合,并以面部动作单元(AU)作为中间监督,最终输入一个基于Transformer的扩散模型解码器生成FLAME参数动画。 创新点:与已有方法相比,新在:(1) 提出EASE模块,通过对比学习从语音中提取更丰富、更具区分度的情感表征;(2) 引入AU作为中间监督和桥接模态的桥梁,改善了跨模态融合的稳定性与可解释性;(3) 将扩散模型与细粒度情感解耦相结合,实现了在情感准确性与生成多样性之间的更好平衡。 主要实验结果:在MEAD和RAVDESS数据集上,DiffEmoTalk在情感准确度(MEE)和情感强度误差(EIE)上取得了最佳成绩(例如,在MEAD上,MEE为0.00936,低于MEDTalk的0.01215)。唇音同步(MLE)略逊于MEDTalk(0.00695 vs 0.00657),但优于EmoTalk和DiffPoseTalk。在用户研究中,其在情感准确性和生动性评分上也领先。关键消融实验证明了三编码器解耦、AU监督和EASE模块的必要性。 实际意义:该工作推动了更具表现力和可控性的数字人生成技术,在虚拟助手、数字人交互、远程协作和内容创作等领域有应用潜力。 主要局限性:情感控制目前高度依赖语音内容,未能整合文本、视觉等上下文线索来处理“相同话语不同情感”的情况。此外,模型在跨数据集泛化能力上的验证较为有限。 🏗️ 模型架构 DiffEmoTalk的整体框架(见图1)是一个多阶段的生成系统,目标是将输入语音转换为3D面部动画(FLAME参数)。其架构可分为三个主要阶段:特征解耦与提取、AU预测与融合、以及扩散模型生成。 ...

2026-04-29 · 更新于 2026-06-26 · 2 min · 317 words

Differentiable Grouped Feedback Delay Networks for Learning Direction and Position-Dependent Late Reverberation

📄 Differentiable Grouped Feedback Delay Networks for Learning Direction and Position-Dependent Late Reverberation #空间音频 #可微分渲染 #深度学习 #信号处理 #实时处理 ✅ 7.5/10 | 前25% | #空间音频 | #可微分渲染 | #深度学习 #信号处理 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Orchisama Das(Kings College London, Dept. of Engineering, United Kingdom) 通讯作者:未说明(论文未明确指定) 作者列表: Orchisama Das(Kings College London, Dept. of Engineering, United Kingdom) Sebastian J. Schlecht(Friedrich-Alexander Universit¨at Erlangen-N¨urnberg, Multimedia Comms. and Signal Process., Germany) Gloria Dal Santo(Aalto University, Acoustics Lab, Dept. of Info. and Comms. Engineering., Finland) Zoran Cvetkovi´c(Kings College London, Dept. of Engineering, United Kingdom) 💡 毒舌点评 亮点在于巧妙地将传统可变声场渲染模型(FDN)与神经网络结合,在保持结构先验的同时实现了端到端学习和高效的多位置渲染,计算复杂度优势明显。短板则是其精度略逊于最强基线(NAF),且在房间过渡区域误差有可见增加,表明其建模复杂空间动态的能力仍有提升空间。 ...

2026-04-29 · 更新于 2026-06-26 · 2 min · 340 words

Differentiable Pulsetable Synthesis for Wind Instrument Modeling

📄 Differentiable Pulsetable Synthesis for Wind Instrument Modeling #音乐生成 #信号处理 #可微分DSP #轻量模型 #风琴乐器 ✅ 7.5/10 | 前25% | #音乐生成 | #可微分DSP | #信号处理 #轻量模型 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.3 | 置信度 高 👥 作者与机构 第一作者:Simon Schwär(International Audio Laboratories Erlangen, Germany) 通讯作者:未说明 作者列表:Simon Schwär(International Audio Laboratories Erlangen, Germany)、Christian Dittmar(Fraunhofer Institute for Integrated Circuits IIS, Erlangen, Germany)、Stefan Balke(International Audio Laboratories Erlangen, Germany)、Meinard Müller(International Audio Laboratories Erlangen, Germany) 💡 毒舌点评 亮点:论文巧妙地将与风琴乐器物理发声机制高度吻合的脉冲表(Pulsetable)合成方法引入可微分框架,不仅免去了繁琐的手工脉冲提取,还通过仅60k参数的轻量模型和几分钟录音实现了高效训练,物理可解释性强。 短板:实验主要依赖客观的谐波幅度差异指标,缺少正式的主观听感评估(如MOS测试),说服力略显不足;模型的泛化能力(如对复杂演奏技巧的建模)和更广泛乐器类型的适用性尚未得到充分验证。 ...

2026-04-29 · 更新于 2026-06-26 · 2 min · 297 words

Diffusion Timbre Transfer via Mutual Information Guided Inpainting

📄 Diffusion Timbre Transfer via Mutual Information Guided Inpainting #音乐生成 #音频生成 #扩散模型 #零样本 ✅ 7.5/10 | 前25% | #音乐生成 | #扩散模型 | #音频生成 #零样本 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度 高 👥 作者与机构 第一作者:Ching Ho Lee(Queen Mary University of London) 通讯作者:未说明 作者列表:Ching Ho Lee(Queen Mary University of London)、Javier Nistal(Sony Computer Science Laboratories, Paris, France)、Stefan Lattner(Sony Computer Science Laboratories, Paris, France)、Marco Pasini(Queen Mary University of London;Sony Computer Science Laboratories, Paris, France)、George Fazekas(Queen Mary University of London) 💡 毒舌点评 亮点:该方法巧妙地将“免训练”和“推理时控制”结合,通过互信息分析“外科手术式”地定位音色通道,再用扩散模型的采样特性来“手术”,在保持旋律节奏和改变音色之间找到了一个精巧的平衡点。短板:这种基于统计的通道解缠在实际复杂音频上可能不够完美(论文中k值仍需调优),且极度依赖底层编码器M2L2和扩散模型DaR的特定性质,方法的普适性和鲁棒性有待更广泛验证。 ...

2026-04-29 · 更新于 2026-06-26 · 2 min · 284 words

Direct Preference Optimization For Speech Autoregressive Diffusion Models

📄 Direct Preference Optimization For Speech Autoregressive Diffusion Models #语音合成 #扩散模型 #偏好优化 #零样本 ✅ 7.5/10 | 前25% | #语音合成 | #扩散模型 | #偏好优化 #零样本 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.3 | 置信度 中 👥 作者与机构 第一作者:Zhijun Liu(香港中文大学(深圳)SDS, SRIBD, SAI;字节跳动Seed) 通讯作者:Shuai Wang(南京大学智能科学与技术学院) 作者列表: Zhijun Liu(香港中文大学(深圳)SDS, SRIBD, SAI;字节跳动Seed) Dongya Jia(字节跳动Seed) Xiaoqiang Wang(字节跳动Seed) Chenpeng Du(字节跳动Seed) Shuai Wang(南京大学智能科学与技术学院;深圳湾区研究院) Zhuo Chen(字节跳动Seed) Haizhou Li(香港中文大学(深圳)SDS, SRIBD, SAI;深圳湾区研究院) 💡 毒舌点评 亮点在于首次成功将DPO“移植”到语音自回归扩散模型上,用实验证明了其能显著提升表达力(F0方差翻倍)和鲁棒性(CER降25%),开辟了ARDM后训练的新路径。短板则在于对训练过程中“winning/losing样本扩散损失双升”这一反常现象缺乏理论解释,且开源信息仅限音频示例,核心代码与模型未公开,影响了工作的可复现性和影响力。 🔗 开源详情 代码:论文中未提及代码链接。补充材料页面(https://zjlww.github.io/ardm-dpo/)可能包含音频示例,但未说明是否提供代码。 模型权重:未提及公开模型权重。 数据集:未提及公开偏好数据集。使用了公开的LibriTTS和DidiSpeech-2作为基础数据,但筛选后的偏好对未公开。 Demo:未提供在线演示链接。补充材料页面可能包含音频样本,但不是交互式Demo。 复现材料:论文提供了详细的训练超参数(学习率、优化器、批次大小等)和硬件信息(32张A100),复现基础模型训练可能可行。但ARDM-DPO训练所必需的、经过精心筛选的偏好数据集未公开,是复现的主要障碍。 论文中引用的开源项目:DiTAR模型(基于ARTransformer)、Whisper-large-v3(用于WER)、Paraformer-zh(用于CER)、WavLM-TDCNN(用于说话人相似度计算)、Seed-TTS-Eval2(评估工具包)。 📌 核心摘要 问题:当前基于自回归扩散模型(ARDM)的零样本TTS虽性能领先,但生成的语音常与人类偏好不对齐,例如在给定情感提示时仍可能产出单调的语音,缺乏表达力且在处理长难句时鲁棒性不足。 ...

2026-04-29 · 更新于 2026-06-26 · 2 min · 347 words

Direct Simultaneous Translation Activation for Large Audio-Language Models

📄 Direct Simultaneous Translation Activation for Large Audio-Language Models #语音翻译 #语音大模型 #数据增强 #流式处理 #多语言 ✅ 6.0/10 | 前25% | #语音翻译 | #数据增强 | #语音大模型 #流式处理 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 -0.5 | 置信度 中 👥 作者与机构 第一作者:Pei Zhang (Tongyi Lab, Alibaba Group;NLP2CT Lab, University of Macau) 通讯作者:Derek F. Wong (NLP2CT Lab, University of Macau,由论文中标注†判断) 作者列表:Pei Zhang (Tongyi Lab, Alibaba Group;NLP2CT Lab, University of Macau)、Yiming Wang (School of Computer Science, Shanghai Jiao Tong University)、Jialong Tang (Tongyi Lab, Alibaba Group)、Baosong Yang (Tongyi Lab, Alibaba Group)、Rui Wang (School of Computer Science, Shanghai Jiao Tong University)、Derek F. Wong (NLP2CT Lab, University of Macau)、Fei Huang (Tongyi Lab, Alibaba Group) 💡 毒舌点评 本文思路巧妙,旨在通过极少量(1%)精心设计的增强数据“激活”而非“重训”大模型的同传能力,实验上也观察到了低延迟场景下的显著收益。然而,方法的关键步骤——如何从截断语音“推测”出对应的正确翻译文本(即式4的终止条件)——依赖于预训练模型自身的概率分布,其通用性和边界情况处理论证不足,更像是一个工程技巧而非一个鲁棒的算法框架,且实验中同传评估基于固定时间chunk的假设可能与实际流式场景存在偏差。 ...

2026-04-29 · 更新于 2026-06-26 · 3 min · 465 words

Direct Transfer of Prosody in Speech-to-speech Translation using Disentangled Speech Tokens

📄 Direct Transfer of Prosody in Speech-to-speech Translation using Disentangled Speech Tokens #语音翻译 #自监督学习 #端到端 #多语言 ✅ 7.5/10 | 前25% | #语音翻译 | #端到端 | #自监督学习 #多语言 学术质量 5.5/7 | 选题价值 1.8/2 | 复现加成 0.2 | 置信度 中 👥 作者与机构 第一作者:Ismail Rasim Ulgen (Amazon Prime Video, USA; Center for Language and Speech Processing, Johns Hopkins University, USA) 通讯作者:未说明 作者列表:Ismail Rasim Ulgen (Amazon Prime Video, USA; Center for Language and Speech Processing, Johns Hopkins University, USA), Nancy Liu (Amazon Prime Video, USA), Najmeh Sadoughi (Amazon Prime Video, USA), Abhishek Yanamandra (Amazon Prime Video, USA), Abhinav Jain (Amazon Prime Video, USA), Zhu Liu (Amazon Prime Video, USA), Vimal Bhat (Amazon Prime Video, USA) 💡 毒舌点评 亮点:这篇论文直击语音翻译中“翻译腔”这一痛点,用“解耦-传递”的巧思,将困扰领域多年的“韵律平行数据缺失”问题绕了过去,思路清晰且效果显著。短板:研究略显“工程化”,虽然提出了巧妙的对齐机制,但过度依赖一个外部强大且未开源的解耦编解码器(FACodec),且实验仅验证了两个语言对,在更复杂语系或低资源场景下的鲁棒性存疑。 ...

2026-04-29 · 更新于 2026-06-26 · 3 min · 523 words

Directly Trained Spiking Neural Networks with Adaptive Phase Coding

📄 Directly Trained Spiking Neural Networks with Adaptive Phase Coding #音频分类 #时间编码 #脉冲神经网络 ✅ 7.0/10 | 前25% | #音频分类 | #时间编码 | #脉冲神经网络 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 -0.5 | 置信度 高 👥 作者与机构 第一作者:Huaxu He(广东智能科学技术研究院,河南大学) 通讯作者:Yang Liu(河南大学计算机与信息工程学院),Chio-In IEONG(广东智能科学技术研究院) 作者列表:Huaxu He(广东智能科学技术研究院,河南大学)、Zhixing Hou(广东智能科学技术研究院)、Mingkun Xu(广东智能科学技术研究院)、Yongsheng Huang(广东智能科学技术研究院)、Yang Liu(河南大学计算机与信息工程学院)、Chio-In IEONG(广东智能科学技术研究院) 💡 毒舌点评 亮点:论文提出的“自适应相位编码”机制概念清晰、实现简洁,且巧妙地通过“层间时间打乱”消融实验,为“网络是否真的在利用时间信息”这一核心假设提供了直接证据,这在SNN可解释性研究中很有价值。 短板:创新深度有限,本质上是给LIF神经元的输入电流项增加了时间维度的缩放因子;实验部分未能与近年来涌现的多种直接训练SNN方法(如SLTT、GLIF等)进行公平、全面的对比,削弱了其宣称的“改进”的说服力。 🔗 开源详情 代码:论文中未提及代码链接。 模型权重:未提及。 数据集:未提及。论文使用的数据集(CIFAR10/100, DVS-Gesture, SHD)均为公开标准数据集。 Demo:未提及。 复现材料:论文提供了一些关键设置(骨干网络名称、时间步数、APC参数初始化及约束策略),但缺少完整的训练脚本、配置文件和详细参数。 论文中引用的开源项目:论文引用了QKFormer [19]作为骨干网络,这是构建在其上的一个开源SNN模型。其他引用多为通用SNN研究。 📌 核心摘要 本文旨在解决直接训练的脉冲神经网络(SNN)在利用脉冲时间信息方面的不足,现有方法大多退化为等效的速率编码,限制了SNN处理时序信息和实现低功耗的潜力。为此,论文提出了“自适应相位编码”(APC)机制,其核心是在标准LIF神经元模型中引入与时间步相关的可学习参数(β_t, λ_t),用于对不同时间步的输入电流和膜电位衰减进行加权。与预先定义固定规则的相位编码不同,APC使网络能在端到端训练中自主学习每个时间步的重要性,并且该参数被扩展至每个层的每个通道,以实现更精细的时序调制。实验结果表明,在静态数据集CIFAR-10/100上,APC能将脉冲发放率降低约20%,同时精度仅下降约0.85%;在时序数据集DVS-Gesture和SHD上,APC显著提升了分类精度,分别提高了1.73%和17.76%,其中SHD数据集的提升尤为显著。论文通过层间时间打乱消融实验证明,APC确实促使网络从依赖速率编码转向利用脉冲的时序结构。该工作的实际意义在于为直接训练的SNN提供了一种即插即用的时间编码增强模块,能提升其在时序任务上的性能。主要局限性在于,在静态数据集上精度略有下降,且实验验证的骨干网络和任务类型相对单一。 🏗️ 模型架构 本文并未提出一个新的整体网络架构,而是提出了一种对标准漏积放电(LIF)神经元模型的增强方法,该方法可以作为一种通用模块嵌入到现有的SNN架构中。 ...

2026-04-29 · 更新于 2026-06-26 · 1 min · 206 words

DisContSE: Single-Step Diffusion Speech Enhancement based on Joint Discrete and Continuous Embeddings

📄 DisContSE: Single-Step Diffusion Speech Enhancement based on Joint Discrete and Continuous Embeddings #语音增强 #扩散模型 #音频大模型 #自回归模型 #预训练 🔥 8.5/10 | 前10% | #语音增强 | #扩散模型 | #音频大模型 #自回归模型 学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Yihui Fu(德国布伦瑞克工业大学通信技术研究所) 通讯作者:未说明 作者列表:Yihui Fu(德国布伦瑞克工业大学通信技术研究所)、Tim Fingscheidt(德国布伦瑞克工业大学通信技术研究所) 💡 毒舌点评 这篇论文的亮点在于它巧妙地将离散token的保真度与连续嵌入的phonetic精度结合起来,并且通过“量化误差掩码初始化”这一小巧思,成功地将扩散过程的反向步骤压缩到一步,实现了性能与效率的双赢。不过,论文通篇没有提及代码和模型开源的具体计划,对于想要立刻复现或应用其技术的同行来说,这无疑是一个不小的障碍。 🔗 开源详情 代码:论文中未提及代码链接。 模型权重:未提及。 数据集:论文使用的是公开的URGENT 2024挑战赛数据集,但未提供直接的下载链接或获取方式说明。 Demo:未提及。 复现材料:提供了非常详细的训练细节(见“详细分析”部分),包括数据处理、网络参数、损失函数、训练配置等,有利于复现。但未提供具体的配置文件、启动脚本或检查点。 论文中引用的开源项目:引用了以下开源项目作为依赖: Descript Audio Codec (DAC): https://github.com/descriptinc/descript-audio-codec WavLM: https://huggingface.co/docs/transformers/model_doc/wavlm URGENT 2024 Challenge 工具包: https://github.com/urgent-challenge/urgent2024_challenge MaskGIT: [13] Chang et al., CVPR 2022. 📌 核心摘要 问题:现有基于离散音频编解码器的扩散语音增强方法虽然保真度好,但推理时需要多次迭代,计算复杂度高;且在恢复正确音素(phoneme)方面表现不佳,导致其侵入式指标分数较低。 方法核心:本文提出DisContSE,一个混合判别/生成模型。它联合处理离散的音频编解码器token和连续嵌入,分别通过离散增强模块和连续增强模块进行优化,并引入语义增强模块提升音素准确性。其关键创新是提出“量化误差掩码初始化”策略,使得在推理时仅需一步扩散过程即可生成结果。 与已有方法相比新在哪里:首次实现了基于音频编解码器的单步扩散语音增强;提出了联合离散与连续表征的统一框架,并明确设计了三个功能互补的增强模块;通过量化误差指导初始化,优化了单步推理的质量。 主要实验结果:在URGENT 2024挑战赛数据集上进行评估,DisContSE在PESQ、POLQA、UTMOS等关键指标和主观MOS测试中均排名第一,总体排名(2.36,越低越好)显著优于所有对比的基线扩散模型。消融实验证明了每个模块及单步策略的有效性。关键结果对比如下: 方法 类型 PESQ POLQA UTMOS ESTOI 总体排名 SGMSE+ [1] G30 2.75 2.98 2.74 0.78 6.27 CRP [15] G1 3.10 3.01 3.04 0.81 3.36 StoRM [17] D+G50 2.94 3.02 2.95 0.79 4.82 Universe++ [18] D+G8 3.09 3.23 3.04 0.80 4.18 DisContSE (prop.) D+G1 3.14 3.25 3.13 0.80 2.36 实际意义:该工作为语音增强领域提供了一种高效且高质量的解决方案,单步推理特性使其更适合部署在实时或资源受限的应用场景中。 主要局限性:论文未明确开源代码和模型权重,限制了即时复现;尽管提出了单步扩散,但模型本身结构相对复杂,结合了多个预训练模型(DAC, WavLM)和独立的增强模块,总参数量较大。 🏗️ 模型架构 DisContSE是一个由三个主要模块和一个共享的离散扩散解码器构成的混合架构。 ...

2026-04-29 · 更新于 2026-06-26 · 3 min · 431 words

Discrete Diffusion for Generative Modeling of Text-Aligned Speech Tokens

📄 Discrete Diffusion for Generative Modeling of Text-Aligned Speech Tokens #语音合成 #扩散模型 #自回归模型 #语音表示 ✅ 7.5/10 | 前25% | #语音合成 | #扩散模型 | #自回归模型 #语音表示 学术质量 6.0/7 | 选题价值 1.0/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Pin-Jui Ku(NVIDIA;Georgia Institute of Technology) 通讯作者:未说明 作者列表:Pin-Jui Ku(NVIDIA;Georgia Institute of Technology),He Huang(NVIDIA),Jean-Marie Lemercier(NVIDIA),Subham Sekhar Sahoo(NVIDIA;Cornell Tech),Zhehuai Chen(NVIDIA),Ante Jukić(NVIDIA) 💡 毒舌点评 亮点:论文将新兴的离散扩散模型系统性地应用于语音token重建,并提供了迄今最全面的实证分析,结论(如FSQ优于RVQ、Conf-TopK采样更佳)对后续相关工作有直接的工程指导价值。短板:论文主要贡献是“应用与分析”,而非提出基础理论或解决语音token化中的核心难题(如语义与声学信息的完美解耦),且未探讨其方法对下游语音大模型(如TTS、ASR)性能的影响,使其深度和影响力受限。 🔗 开源详情 代码:论文中未提及代码链接。 模型权重:未提及公开权重。 数据集:使用了Granary英文子集,论文未说明如何公开获取。 Demo:提供了一个Demo页面链接:https://kuray107.github.io/DDMs_on_taste26_examples/demo,用于展示音频样本。 复现材料:论文在“实验设置”部分给出了详细的训练配置(GPU型号/数量、batch size、优化器、学习率策略、两阶段训练步数、模型参数量)、评估指标和采样器设置,为复现提供了充分的文字指导。 论文中引用的开源项目: 量化方案:Finite Scalar Quantization (FSQ) [26] 预训练模型:Whisper [21], NVIDIA NeMo [25], CosyVoice [17], HiFi-GAN vocoder [23] 评估工具:Torchaudio-Squim [30], WavLM [33], TitaNet [34], WV-MOS [31], UTMOS [32] DDM相关:D3PM [1], MDLM [2], ReMDM [4], Confidence-based Samplers [13, 14, 15] 📌 核心摘要 要解决什么问题:现有的TASTE语音token化框架依赖自回归(AR)解码器来重建语音,这导致推理速度慢,且重建质量可能非最优。 方法核心是什么:提出用离散扩散模型(DDM)替代TASTE中的AR解码器。模型在推理时,通过迭代去噪(从全掩码到逐步揭示)来并行预测S3 token序列,再由vocoder生成波形。 与已有方法相比新在哪里:首次在TASTE框架中系统性地应用并分析DDM。与AR解码器相比,DDM解码具有并行性,且质量更高。同时,论文系统比较了向量量化方案(RVQ vs. FSQ),发现FSQ能显著提升性能。 主要实验结果如何:在LibriSpeech数据集上,DDM解码器相比AR基线实现了3.3倍的推理速度提升(测试集1.65秒 vs. 5.48秒)。使用RVQ量化时,DDM的WER比AR降低35%(测试集:5.10% vs. 7.60%),UT-MOS提升0.45(4.27 vs. 3.82)。使用FSQ量化后,性能进一步提升,AR模型的WER相对降低35%,UT-MOS提升0.14。DDM模型在10步推理时即可达到峰值性能,甚至单步推理也基本可用。关键实验结果对比如下表: 模型 量化方式 测试集 WER (%) ↓ UT-MOS ↑ AR基线 4L-RVQ test-clean 7.60 3.82 本文DDM 4L-RVQ test-clean 5.10 4.27 本文DDM 4L-FSQ test-clean 4.00 4.30 本文DDM 10步 test-clean 3.70 4.28 本文DDM 单步 test-clean 5.14 3.81 实际意义是什么:为语音token化中的高效、高质量解码提供了一个优于自回归范式的新方案,展示了离散扩散模型在条件生成任务中的潜力,并提供了工程实践上的具体指导(如采样器选择、步数设置)。 主要局限性是什么:模型性能严重依赖一个外部长度预测器来估计S3 token序列长度;论文未验证该改进的语音表示对下游语音大模型(如端到端TTS、ASR)的具体增益;其优势建立在强条件(文本+TASTE embedding)上,对于无条件或弱条件生成任务的普适性未探讨。 🏗️ 模型架构 本文模型架构建立在TASTE框架之上,包含两个主要部分:TASTE Tokenizer和解码器(AR或DDM)。整体流程如图1所示。 ...

2026-04-29 · 更新于 2026-06-26 · 2 min · 392 words