Improving Automatic Speech Recognition by Mitigating Distortions Introduced by Speech Enhancement Under Drone Noise

📄 Improving Automatic Speech Recognition by Mitigating Distortions Introduced by Speech Enhancement Under Drone Noise #语音识别 #语音增强 #扩散模型 #鲁棒性 #无人机 ✅ 6.5/10 | 前25% | #语音识别 | #语音增强 #扩散模型 | #语音增强 #扩散模型 学术质量 4.5/7 | 选题价值 1.5/2 | 复现加成 -0.5 | 置信度 高 👥 作者与机构 第一作者:Ryusei Miura(东京科学大学 系统与控制工程系) 通讯作者:未说明 作者列表:Ryusei Miura(东京科学大学 系统与控制工程系),Takahiro Osaki(东京科学大学 系统与控制工程系),Benjamin Yen(东京科学大学 系统与控制工程系),Takeshi Ashizawa(东京科学大学 系统与控制工程系),Kazuhiro Nakadai(东京科学大学 系统与控制工程系) 💡 毒舌点评 亮点:论文针对“语音增强会扭曲语音”这个经典矛盾,提出了“动态融合增强中间结果”+“用噪声特征校正特征”的双模块轻量化解决方案,思路清晰且工程化味道浓。短板:在-10 dB信噪比下,所提系统性能雪崩式下降(CER平均92.4%),甚至远不如直接用ASR(81.6%),这暴露出方法在极端噪声下的脆弱性,也让其宣称的“鲁棒性”打了不少折扣。 📌 核心摘要 解决的问题:在无人机噪声环境下,使用语音增强(SE)作为预处理会引入失真或信息丢失,导致后续自动语音识别(ASR)模型因声学失配而性能下降。 方法核心:提出一个由前端自适应融合模型(AFM)和后端偏差网络(BN)组成的ASR系统。AFM动态融合基于扩散模型的SE中间输出,以平衡降噪与失真;BN利用预知的无人机噪声静态特征,对AFM输出的语音特征进行校正,以减少声学失配,且无需重训ASR模型。 创新性:AFM通过Transformer建模不同扩散步骤输出的时序和步间关系,自适应地加权融合,相比固定选择单一步骤或简单二选一的方法更灵活。BN是一种轻量级的后处理校正模块,利用噪声先验知识来适配预训练ASR模型。 主要实验结果:在LibriSpeech测试集与三种无人机噪声混合的数据上,所提系统(DM+AFM+BN)在0 dB和-5 dB SNR下相比ASR-only基线,平均字符错误率(CER)绝对降低了约20和25个百分点(相对改进分别为54.2%和39.1%)。但在-10 dB SNR下,系统失效,CER高达92.4%,甚至劣于基线。 ...

2026-04-29

InstructAudio: Unified Speech and Music Generation with Natural Language Instruction

📄 InstructAudio: Unified Speech and Music Generation with Natural Language Instruction #语音合成 #音乐生成 #扩散模型 #多任务学习 #统一音频模型 ✅ 7.5/10 | 前25% | #语音合成 | #扩散模型 | #音乐生成 #多任务学习 学术质量 6.0/7 | 选题价值 2.0/2 | 复现加成 -0.5 | 置信度 中 👥 作者与机构 第一作者:Chunyu Qiang(天津大学,快手科技) 通讯作者:Longbiao Wang(天津大学) 作者列表:Chunyu Qiang(天津大学,快手科技),Kang Yin(快手科技),Xiaopeng Wang(快手科技),Yuzhe Liang(快手科技),Jiahui Zhao(天津大学),Ruibo Fu(中国科学院自动化研究所),Tianrui Wang(天津大学),Cheng Gong(天津大学),Chen Zhang(快手科技),Longbiao Wang†(天津大学),Jianwu Dang(天津大学) 💡 毒舌点评 这篇论文的最大亮点在于其“野心”——试图用一个统一的框架和自然语言指令,同时搞定语音合成(TTS)和音乐生成(TTM)这两个本就差异显著的任务,这在思路上确实领先。但短板也很明显:论文在展示音乐生成对比结果时,坦诚其5-20秒的生成长度可能对长时序模型不公平,这种实验设计的局限性削弱了结论的说服力;更关键的是,论文几乎未提供任何可复现的开源信息,这对于一个宣称“统一框架”的工作而言,是个不小的遗憾。 📌 核心摘要 问题:现有的文本转语音(TTS)和文本转音乐(TTM)系统在基于指令(自然语言描述)的控制方面存在显著局限。TTS模型通常依赖参考音频控制音色,属性控制能力有限;TTM模型则依赖专业标注,且两类任务长期独立开发,难以统一建模。 方法核心:提出InstructAudio,一个基于多模态扩散Transformer(MM-DiT)和条件流匹配的统一框架。它采用标准化的“指令-音素”输入格式,通过联合和单一扩散Transformer层,处理无噪的梅尔VAE潜在表示,从而在统一模型中实现语音和音乐的生成与控制。 新意:这是首个通过自然语言指令统一控制语音和音乐生成的框架。它消除了对参考音频的依赖,能通过文本指令控制音色(性别、年龄)、副语言(情感、风格、口音)和音乐(类型、乐器、节奏、氛围)等多种属性,并支持双说话人对话生成。 主要实验结果: TTS任务:在Seed-TTS基准的WER指标上,InstructAudio在可控条件下达到了最佳的英文(1.52%)和中文(1.35%)错误率(见表1)。在指令控制任务上,其分类控制准确率(如性别100%、年龄86.67%、对话90%)和说话人/情感相似度均优于强基线CosyVoice2,且在LSD、MCD等失真指标上更优(见表2)。 TTM任务:在SongEval音乐评估基准的所有指标(连贯性、音乐性等)上均取得最佳分数。在分类控制准确率上,于歌手性别(98.89%)、年龄(97.22%)和氛围(95.00%)控制上表现突出(见表3)。 综合对比:论文通过图1可视化比较,声称在多项指标上实现了TTS和TTM能力的全面领先。 实际意义:为内容创作(如生成带有特定情感和风格的旁白或背景音乐)、交互式媒体、娱乐等领域提供了一种更通用、交互更自然的音频内容生成工具,降低了专业音频制作的门槛。 主要局限性:1) 统一输入格式(纯文本指令)导致了“一对多”的映射歧义,可能牺牲了生成音频的自然度和质量(NMOS分数低于使用参考音频的基线);2) 为了联合建模,将音乐生成长度限制在5-20秒,限制了其在长时音乐生成场景的应用,并且对基线模型的评估可能不公平;3) 论文未提供开源代码、模型或数据,可复现性低。 InstructAudio整体架构示意图(图2)。 ...

2026-04-29

Instrument Generation Through Distributional Flow Matching and Test-Time Search

📄 Instrument Generation Through Distributional Flow Matching and Test-Time Search #音乐生成 #流匹配 #扩散模型 #测试时搜索 ✅ 7.0/10 | 前25% | #音乐生成 | #流匹配 | #扩散模型 #测试时搜索 学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 -0.5 | 置信度 中 👥 作者与机构 第一作者:Qihui Yang(University of California, San Diego) 通讯作者:未说明 作者列表:Qihui Yang(University of California, San Diego)、Randal Leistikow(Smule Labs)、Yongyi Zang(Smule Labs) 💡 毒舌点评 亮点在于,论文巧妙地将“承认不确定性”引入流匹配框架,让模型不再“固执己见”,并通过测试时搜索将计算力转化为音色一致性的提升,这在概念上很优雅。短板是实验仅在相对“干净”且规模有限的NSynth数据集上进行,对于真实世界中更复杂、噪声更多或音色更微妙的乐器场景,其泛化能力和实际效用仍有待验证,且开源代码的缺失让这一新颖方法停留在了“可读但不可复用”的阶段。 📌 核心摘要 问题:现有基于音符级模型的虚拟乐器生成方法,在生成不同音高和力度的音符时,难以保持一致的音色(timbre),限制了其在专业音乐制作中的应用。 方法核心:提出FlowSynth,其核心是分布式流匹配(DFM)。与传统流匹配学习确定性速度场不同,DFM将速度场参数化为高斯分布(预测均值和方差),并直接使用负对数似然(NLL)进行训练,使模型能显式表达其预测的不确定性。 创新点:1)提出DFM,通过NLL优化直接学习速度场分布,无需变分下界或辅助隐变量;2)提出一个基于模型置信度(不确定性)的测试时搜索框架,结合音色一致性目标,在推理时生成多个候选轨迹并选择最优者。 主要实验结果:在NSynth数据集上,FlowSynth在单音生成和多音(乐器)生成上均优于基线TokenSynth。 关键实验结果表格: 表1:单音生成结果(无引导搜索) 模型 MADpitch (↓) MSS (↓) CLAP (↑) FADvgg (↓) TCC (↓) Ground Truth 67.63 0.0 0.1601 0.0 2.819 TokenSynth 37.99 31.29 0.1290 9.359 3.055 FlowSynth (No Search) 23.42 17.71 0.0583 3.977 1.523 FlowSynth (Uncond. Search, N=32) 26.06 16.65 0.1821 3.832 1.385 表2:多音生成结果(无引导搜索) ...

2026-04-29

KSDIFF: Keyframe-Augmented Speech-Aware Dual-Path Diffusion for Facial Animation

📄 KSDIFF: Keyframe-Augmented Speech-Aware Dual-Path Diffusion for Facial Animation #音频生成 #扩散模型 #跨模态 #关键帧检测 ✅ 7.5/10 | 前25% | #音频生成 | #扩散模型 | #跨模态 #关键帧检测 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度 高 👥 作者与机构 第一作者:Tianle Lyu†, Junchuan Zhao†(论文中标注†表示同等贡献) 通讯作者:Ye Wang⋆(新加坡国立大学计算学院, wangye@comp.nus.edu.sg) 作者列表:Tianle Lyu(新加坡国立大学计算学院)、Junchuan Zhao(新加坡国立大学计算学院)、Ye Wang(新加坡国立大学计算学院) 💡 毒舌点评 亮点在于将语音特征显式解耦为表情和头部姿势两个独立路径进行建模,这一设计思路抓住了面部动作驱动的核心差异,实验也证实了其有效性;但短板在于对“关键帧”的选择和建模仍依赖于启发式规则(基于真值帧间变化的阈值),其自回归预测模块的鲁棒性和泛化边界未得到充分探讨。 📌 核心摘要 问题:现有音频驱动面部动画方法通常将语音特征视为一个整体,忽略了其对表情(高频变化)和头部姿势(低频变化)的差异化驱动作用,同时未能有效建模运动中的关键动态帧。 方法:提出KSDiff框架,核心包括:(1) 双路径语音编码器(DPSE),利用多尺度扩张卷积和Prosody信息,将语音特征解耦为表情相关和头部姿势相关两个分支;(2) 关键帧建立学习(KEL)模块,通过自回归Transformer预测运动最剧烈的帧;(3) 基于DiffSpeaker的双路径扩散生成器,分别合成表情和头部姿势系数。 创新:主要创新在于明确提出并实现了语音特征的“解耦”处理,以及引入了数据驱动的、具有物理意义的关键帧预测模块,将两者协同融入扩散生成流程。 实验:在HDTF和VoxCeleb数据集上,KSDiff在多项指标上优于或媲美SOTA方法。例如,在HDTF测试集上,其LVE(唇部顶点误差)降至4.835×10⁻⁵ mm,LSE-C(同步置信度)提升至0.708,头部姿势Diversity(多样性)达0.318,Beat Align(节奏对齐)达0.354(表1)。消融研究(表3)证明,移除语音特征分离、双路径扩散、关键帧或韵律模块均会导致性能下降。 意义:该工作推动了音频驱动面部动画向更精细化、物理一致性的方向发展,为虚拟人生成提供了更逼真的运动控制方案。 局限性:关键帧提取依赖于真值运动序列的后处理,其在线预测性能上限受限;对极端或非常规的面部表情与头部运动组合的生成能力未做深入探讨。 🏗️ 模型架构 KSDiff的整体架构如图2所示。系统接收原始音频 a1:N 和转录文本 x1:L 作为输入。 双路径语音编码器 (DPSE): ...

2026-04-29

LAFUFU: Latent Acoustic Features For Ultra-Fast Utterance Restoration

📄 LAFUFU: Latent Acoustic Features For Ultra-Fast Utterance Restoration #语音增强 #扩散模型 #实时处理 #潜在空间 🔥 8.0/10 | 前25% | #语音增强 | #扩散模型 | #实时处理 #潜在空间 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 中 👥 作者与机构 第一作者:Łazarz Radosław Wosik(论文作者列表首位,但未明确标注为第一作者) 通讯作者:论文中未明确标注 作者列表:Łazarz Radosław Wosik (Samsung R&D Institute Poland), Mateusz Pudo (Samsung R&D Institute Poland), Urszula Krywalska (Samsung R&D Institute Poland), Adam Cie´slak (Samsung R&D Institute Poland), († AGH University of Krak´ow) — 论文开头列出作者姓名及主要所属机构为Samsung R&D Institute Poland,其中一位作者带有†标记,表示其同时隶属于AGH University of Krak´ow。 💡 毒舌点评 亮点在于它非常务实且有效:通过将扩散过程搬到一个更小、更高效的潜在空间里,直接戳破了生成式语音恢复“效果好但算力吃不消”的泡沫,实现了显著的加速(RTF降低约40%)而不牺牲质量。短板是其创新本质是“缝合”了图像领域的Latent Diffusion思想和语音领域的SGMSE+模型,属于应用创新而非理论突破,且双模型架构无形中增加了部署时的内存管理复杂度。 ...

2026-04-29

Learning Linearity in Audio Consistency Autoencoders via Implicit Regularization

📄 Learning Linearity in Audio Consistency Autoencoders via Implicit Regularization #音频生成 #音乐生成 #扩散模型 #数据增强 #模型评估 ✅ 7.5/10 | 前25% | #音频生成 | #扩散模型 | #音乐生成 #数据增强 学术质量 6.5/7 | 选题价值 1.0/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Bernardo Torres(LTCI, Telecom Paris, Institut Polytechnique de Paris) 通讯作者:未说明 作者列表:Bernardo Torres(LTCI, Telecom Paris, Institut Polytechnique de Paris),Manuel Moussallam(Deezer Research),Gabriel Meseguer-Brocal(Deezer Research) 💡 毒舌点评 亮点:方法异常优雅——仅通过训练时对潜向量和音频波形施加精心设计的数据增强(增益缩放和人工混合),就“教”会了一个复杂的扩散自编码器学习线性,而不增加任何额外的损失项或架构改动。短板:该方法严重依赖于所选择的 Music2Latent CAE 架构,其通用性未得到验证;且论文中展示的“音源分离”仅为基于潜空间算术的Oracle实验,距离实际、复杂的分离应用仍有很大差距,更像一个原理验证(proof-of-concept)。 📌 核心摘要 要解决什么问题:现代音频自编码器(AE)能实现高压缩和高质量重建,但其编码得到的潜在空间通常是非线性的、纠缠的,导致无法进行直观的代数操作(如在潜空间直接混合或缩放音频)。 方法核心是什么:提出一种基于数据增强的隐式正则化方法,在不改变自编码器(本文为一致性自编码器CAE)架构和损失函数的前提下,诱导其学习线性(齐次性和可加性)。具体技巧包括:(1) 隐式齐次性:训练时对潜向量施加随机增益a,并要求解码器从带增益a的音频中重建,迫使模型学习增益的线性映射;(2) 隐式可加性:通过构造人工混合音频,并用其对应源潜向量的平均值作为条件进行训练,鼓励加法性质。 与已有方法相比新在哪里:与需要修改架构或引入额外损失项的方法不同,本工作证明仅通过训练时的数据增强就能有效诱导出近似的线性潜空间。这使得自编码器在保持原有高压缩比(64倍)和单步重建能力的同时,获得了可操作性。 主要实验结果如何:在MusicCaps和MUSDB18-HQ数据集上的实验表明,所提出的Lin-CAE模型: 重建质量:与基线CAE(M2L)相当,在MSS上(1.01 vs 0.98)和SNR上(3.19 vs 3.09)略有提升。 同质性(齐次性):远优于所有基线。解码器同质性MSS降解从基线的约2.3倍(0.98→2.27)减少至1.36倍(1.01→1.37)。 可加性与源分离:在潜空间算术任务中表现突出。解码器可加性MSS从基线的5.0以上降至0.99。在Oracle音源分离(减去伴奏潜向量)任务中,Lin-CAE的SI-SDR和MSS在所有乐器上均显著优于基线,例如人声分离SI-SDR为-1.18 dB(基线M2L为-12.56 dB)。 实际意义是什么:提供了一种简单有效的技术,用于构建结构化、可操作的音频潜空间。这使得在压缩域内进行高效的音频混合、编辑和分离成为可能,为音频生成和处理提供了更直观的接口。 主要局限性是什么:方法与特定的CAE架构耦合紧密,泛化性未知;所验证的源分离任务为理想化的Oracle设置(已知需要分离的源),未处理真实场景下的盲分离;线性是近似的,其程度可能随任务复杂度增加而面临挑战。 🏗️ 模型架构 本文提出的Lin-CAE架构基于已有的Music2Latent (M2L)一致性自编码器(CAE),并未修改其基础结构,仅在训练流程上进行了增补。整体架构是一个条件扩散模型,用于音频压缩与重建。 ...

2026-04-29

Leveraging Diffusion U-Net Features for Predominant Instrument Recognition

📄 Leveraging Diffusion U-Net Features for Predominant Instrument Recognition #音乐信息检索 #扩散模型 #特征学习 #低资源 🔥 8.0/10 | 前25% | #音乐信息检索 | #扩散模型 | #特征学习 #低资源 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Charis Cochran(Drexel University, USA) 通讯作者:未说明 作者列表:Charis Cochran(Drexel University, USA)、Yeongheon Lee(University of Pennsylvania, USA)、Youngmoo Kim(Drexel University, USA) 💡 毒舌点评 亮点:论文巧妙地将用于生成的扩散模型“降维”用作特征提取器,并系统验证了其在音频识别任务(PIR)上的潜力,思路新颖且具有启发性。短板:实验结果虽然显示了扩散特征的竞争力,但整体上并未显著超越一个相对陈旧的CNN基线(Han et al., 2017),且部分乐器(如小号、大提琴)性能下降,暴露出该方法在特定音色上的脆弱性和数据集局限。 📌 核心摘要 这篇论文旨在解决音乐信息检索(MIR)中的主要乐器识别(PIR)任务面临的数据标注有限和类间性能差异大的问题。其核心方法是:首次将预训练的音频扩散模型(U-Net结构)作为固定的特征提取器,通过探究其在不同去噪时间步(t)和网络层的中间表征,搭配轻量级分类器头(如MLP、CNN)来完成PIR任务。为弥合训练集(单标签)与测试集(多标签)的不匹配,论文还提出了一个新的多标签注释数据集OpenPIR。实验表明,在低噪声条件下的瓶颈层特征最具判别力,且使用OpenPIR数据能一致提升所有模型的性能。虽然扩散特征的整体性能(例如,最佳模型的Micro F1接近但未全面超越Han et al. CNN基线的0.65)尚未成为新的SOTA,但在电吉他、原声吉他和钢琴等特定乐器上已展现出超越基线的潜力。这项工作为“生成模型可用于判别性任务”在音频领域提供了早期证据,指明了探索统一生成-识别框架的方向。其主要局限性在于,对于大提琴、单簧管等乐器的识别依然困难,且所用扩散模型参数量(240M)远大于分类器,整体方案效率有待评估。 🏗️ 模型架构 本文的核心并非提出一个端到端的新模型,而是利用一个已有的扩散模型作为特征提取器,再外接一个轻量级分类器。其完整流程(见图1)如下: ...

2026-04-29

Low-Resource Guidance for Controllable Latent Audio Diffusion

📄 Low-Resource Guidance for Controllable Latent Audio Diffusion #音乐生成 #扩散模型 #控制生成 #推理优化 🔥 8.5/10 | 前25% | #音乐生成 | #扩散模型 | #控制生成 #推理优化 学术质量 6.2/7 | 选题价值 1.8/2 | 复现加成 0.7 | 置信度 高 👥 作者与机构 第一作者:Zachary Novack(UC San Diego & Stability AI, †表示工作完成于Stability AI实习期间) 通讯作者:未明确说明(论文未明确指定通讯作者) 作者列表:Zachary Novack(UC San Diego & Stability AI)、Zack Zukowski(Stability AI)、CJ Carr(Stability AI)、Julian Parker(Stability AI)、Zach Evans(Stability AI)、Josiah Taylor(Stability AI)、Taylor Berg-Kirkpatrick(UC San Diego)、Julian McAuley(UC San Diego)、Jordi Pons(Stability AI) 💡 毒舌点评 亮点:巧妙地将“Readout”思想引入音频扩散模型,并设计了“Latent-Control Heads”,绕过了极其耗时的解码器反向传播,将推理时间和显存占用降低了约一个数量级(端到端150秒 vs LatCH 17.5秒),这是非常实用的工程优化。短板:该方法本质上是给一个已有的“大模型”(Stable Audio Open)外挂一个“小控制器”,控制精度严重依赖这个小控制器的拟合能力,实验也显示对于快速变化的音高控制效果仍然不佳,且核心控制逻辑(TFG)并非首次提出。 ...

2026-04-29

MAG: Multi-Modal Aligned Autoregressive Co-Speech Gesture Generation Without Vector Quantization

📄 MAG: Multi-Modal Aligned Autoregressive Co-Speech Gesture Generation Without Vector Quantization #音频生成 #多模态模型 #扩散模型 #对比学习 🔥 8.0/10 | 前25% | #音频生成 | #多模态模型 #扩散模型 | #多模态模型 #扩散模型 学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0 | 置信度 高 👥 作者与机构 第一作者:Binjie Liu(中国传媒大学信息与通信工程学院,中国移动研究院) 通讯作者:Sanyi Zhang(中国传媒大学数据科学与媒体智能学院,媒体音频视频教育部重点实验室)†,Long Ye(中国传媒大学数据科学与媒体智能学院,媒体融合与传播国家重点实验室)† (注:论文中标注†为通讯作者) 作者列表:Binjie Liu(中国传媒大学,中国移动研究院)、Lina Liu(中国移动研究院)、Sanyi Zhang(中国传媒大学,媒体音频视频教育部重点实验室)、Songen Gu(复旦大学)、Yihao Zhi(香港中文大学(深圳))、Tianyi Zhu(中国移动研究院)、Lei Yang(中国移动研究院)、Long Ye(中国传媒大学,媒体融合与传播国家重点实验室) 💡 毒舌点评 亮点在于其核心思想——在连续运动嵌入空间进行自回归建模,而非离散化——非常优雅且直击痛点,消融实验也清晰地证明了该设计的必要性。短板在于,虽然声称“无需向量量化”,但并未提供与使用VQ的自回归模型在生成效率、模型规模上的定量对比,其“更优”很大程度上局限于生成质量指标,对于实际应用中的效率考量论述不足。 📌 核心摘要 问题:现有的语音驱动全身手势生成方法大多依赖基于向量量化(VQ)的自回归模型,这会导致运动信息的离散化损失,降低生成手势的真实感和连续性。 方法核心:提出MAG框架,包含两个阶段:1)多模态对齐变分自编码器(MTA-VAE),利用预训练的WavCaps文本和音频特征,通过对比学习将运动、文本和音频对齐到一个连续的潜在空间;2)多模态掩码自回归手势生成模型(MMAG),在连续运动嵌入空间上应用扩散过程,避免离散化,并通过混合粒度音频-文本融合块提供条件。 新在哪里:这是首个在共语音手势生成领域实现“无向量量化”的自回归框架。创新点在于:在连续空间进行自回归扩散建模以保持运动连续性;利用对比学习实现运动、文本、音频三模态的语义和韵律对齐;设计HGAT模块融合不同粒度的音频(MFCC, HuBERT)和文本(fastText)特征。 实验结果:在BEATv2和SHOW两个基准数据集上,MAG在FGD(弗雷歇手势距离)、BC(节拍一致性)和Diversity(多样性)指标上均达到最优(SOTA)。例如,在BEATv2上,MAG(MTA-VAE)的FGD为4.565×10⁻¹,显著低于基线EMAGE的5.512×10⁻¹。用户研究也显示MAG生成的手势在真实感、多样性和同步性上最受偏好。 实际意义:为构建更自然、生动、与语音高度同步的虚拟人角色提供了新的技术范式,可应用于元宇宙、人机交互、游戏等领域。 主要局限性:论文未提供模型参数量、训练时间、推理速度等效率信息,而连续空间扩散模型通常计算成本较高。此外,对比学习高度依赖预训练的WavCaps模型,其特征质量直接影响上限。 🏗️ 模型架构 MAG是一个两阶段的框架,其整体架构如图2所示。 ...

2026-04-29

MELA-TTS: Joint Transformer-Diffusion Model with Representation Alignment for Speech Synthesis

📄 MELA-TTS: Joint Transformer-Diffusion Model with Representation Alignment for Speech Synthesis #语音合成 #扩散模型 #自回归模型 #端到端 #零样本 ✅ 7.0/10 | 前25% | #语音合成 | #扩散模型 | #自回归模型 #端到端 学术质量 5.5/7 | 选题价值 1.0/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Keyu An(Alibaba group) 通讯作者:Zhiyu Zhang(National Mobile Communications Research Laboratory, Southeast University) 作者列表:Keyu An⋆(Alibaba group)、Zhiyu Zhang⋆†(Alibaba group, National Mobile Communications Research Laboratory, Southeast University)、Changfeng Gao⋆(Alibaba group)、Yabin Li⋆(Alibaba group)、Zhendong Peng⋆(Alibaba group)、Haoxu Wang⋆(Alibaba group)、Zhihao Du⋆(Alibaba group)、Han Zhao⋆(Alibaba group)、Zhifu Gao⋆(Alibaba group)、Xiangang Li⋆(Alibaba group) 注:⋆表示Alibaba group,†表示National Mobile Communications Research Laboratory, Southeast University。第一作者和通讯作者基于论文标题下方作者列表顺序及贡献说明(“The first two authors contribute equally to this work.”)判断。 💡 毒舌点评 亮点在于用“表示对齐”模块巧妙地借用了预训练ASR编码器的语义知识来指导自回归模型生成更连贯的语义表示,确实显著加速了收敛并提升了内容一致性(WER大幅下降)。但其声称的“端到端”仍依赖预训练的说话人编码器和ASR编码器进行对齐,且声音克隆的说话人相似度(SS)在英文测试集上反而弱于其主要对比基线CosyVoice,暴露了该架构在全局声学上下文利用上的短板。 ...

2026-04-29