UniSonate: A Unified Model for Speech, Music, and Sound Effect Generation with Text Instructions

📄 UniSonate: A Unified Model for Speech, Music, and Sound Effect Generation with Text Instructions #音频生成 #流匹配 #扩散模型 #统一音频模型 #语音合成 🔥 8.5/10 | 前25% | #音频生成 | #流匹配 | #扩散模型 #统一音频模型 | arxiv 学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Chunyu Qiang(天津大学, 快手科技) 通讯作者:Longbiao Wang(天津大学), Jianwu Dang(天津大学) 作者列表:Chunyu Qiang(天津大学, 快手科技)、Xiaopeng Wang(快手科技)、Kang Yin(快手科技)、Yuzhe Liang(快手科技)、Yuxin Guo(快手科技, 中国科学院自动化研究所)、Teng Ma(快手科技)、Ziyu Zhang(快手科技)、Tianrui Wang(天津大学)、Cheng Gong(天津大学)、Yushen Chen(快手科技)、Ruibo Fu(中国科学院自动化研究所)、Chen Zhang(快手科技)、Longbiao Wang(天津大学)、Jianwu Dang(天津大学) 💡 毒舌点评 亮点:论文真正实现了语音、音乐、音效的“三合一”生成,且通过精巧的“动态token注入”和“课程学习”让这个庞然大物不仅能跑,还在语音和音乐的主流评测中刷出了新SOTA,证明了“团结就是力量”。 短板:在音效生成这个“混沌领域”,这个统一模型还是打不过那些专精于此的专门模型(如GenAU-L),并且论文未开源代码和模型,让其优秀的实验结论暂时停留在了“可看不可摸”的阶段。 ...

2026-04-27

MAGIC-TTS: Fine-Grained Controllable Speech Synthesis with Explicit Local Duration and Pause Control

📄 MAGIC-TTS: Fine-Grained Controllable Speech Synthesis with Explicit Local Duration and Pause Control #语音合成 #流匹配 #零样本 #语音大模型 ✅ 7.5/10 | 前25% | #语音合成 | #流匹配 | #零样本 #语音大模型 | arxiv 学术质量 4.5/7 | 选题价值 1.5/2 | 复现加成 0 | 置信度 高 👥 作者与机构 第一作者:Jialong Mai(华南理工大学) 通讯作者:Xiaofen Xing(华南理工大学) 作者列表:Jialong Mai(华南理工大学)、Xiaofen Xing(华南理工大学)、Xiangmin Xu(华南理工大学) 💡 毒舌点评 亮点在于首次将“token级时长与停顿”作为显式数值条件注入Flow-based TTS,思路清晰且工程设计(如零值校正、交叉验证数据构建)巧妙。短板是实验规模和场景相对有限(主要在中文短句上验证),且缺乏与更多现代零样本TTS基线(如CosyVoice 2、MaskGCT)的直接对比,说服力可以更强。 📌 核心摘要 问题:现有的文本转语音(TTS)系统通常只提供语句级的时长控制或全局语速调节,缺乏对单个token(如音素、字)的精确发音时长和停顿的显式、细粒度控制能力。 方法核心:提出MAGIC-TTS,这是一个基于流匹配(Flow Matching)的零样本TTS模型。其核心是通过残差连接,将token级的内容时长(di)和停顿(pi)作为显式数值条件注入到文本表征中,从而引导并行声学生成器进行合成。 创新点:这是首个支持token级显式时长与停顿控制的TTS模型。关键创新包括:1)设计了可学习的门控残差注入机制,将时长条件融入文本嵌入;2)提出零值校正方法,平衡内容时长与停顿两个控制分支的学习信号;3)构建了基于交叉验证的高置信度时长监督数据集,用于稳定训练。 主要实验结果: 时长控制精度:在B@150测试集上,与无控制的“自发合成”相比,提供显式控制后,内容时长平均绝对误差(C-MAE)从36.88ms降至10.56ms,相关性(C-Corr.)从0.588升至0.918;停顿平均绝对误差(P-MAE)从18.92ms降至8.32ms,相关性(P-Corr.)从0.283升至0.793。 局部编辑场景:在导航、朗读等场景中,模型能以极低偏差(内容时长偏差1.07ms)实现均匀时长基线,并能将局部编辑区域有效推向目标值(内容时长偏差17.60ms,停顿偏差23.33ms)。 消融实验:移除零值校正或高置信度监督会损害控制精度,尤其是更精细的内容时长控制。 实际意义:使TTS系统能够支持需要精确节奏控制的实用场景,如导航提示的均匀播报、教学朗读的节奏引导、以及无障碍代码阅读的特定停顿。 主要局限性:模型性能高度依赖外部对齐工具(如MFA、Stable-ts)提供的时长标签质量;实验主要集中在中文短句,对长文本、多语言及更复杂韵律的泛化能力未充分验证;未开源代码和模型。 🏗️ 模型架构 MAGIC-TTS建立在基于条件流匹配(Conditional Flow Matching)的非自回归零样本TTS骨干网络(F5-TTS)之上。其整体流程如下: ...

2026-04-25

语音/音频论文速递 2026-04-25

语音/音频论文速递 2026-04-25 共分析 2 篇论文 ⚡ 今日概览 📥 抓取 2 篇 → 🔬 深度分析完成 🏷️ 热门方向 方向 数量 分布 #机器人技能学习 1篇 █ #语音合成 1篇 █ 📊 论文评分排行榜(2 篇,按分数降序) 排名 论文 评分 分档 主任务 🥇 MOMO: A framework for seamless physical, verbal, and gr 7.5分 前25% #机器人技能学习 🥈 MAGIC-TTS: Fine-Grained Controllable Speech Synthesis w 7.5分 前25% #语音合成 📋 论文列表 🥇 MOMO: A framework for seamless physical, verbal, and graphical robot skill learning and adaptation ✅ 7.5/10 | 前25% | #机器人技能学习 | #多模态模型 | #大语言模型 #工业应用 | arxiv ...

2026-04-25

ATRIE: Adaptive Tuning for Robust Inference and Emotion in Persona-Driven Speech Synthesis

📄 ATRIE: Adaptive Tuning for Robust Inference and Emotion in Persona-Driven Speech Synthesis #语音合成 #知识蒸馏 #流匹配 #大语言模型 #对比学习 ✅ 7.0/10 | 前25% | #语音合成 | #知识蒸馏 | #流匹配 #大语言模型 | arxiv 学术质量 6.5/7 | 选题价值 2.0/2 | 复现加成 -0.5 | 置信度 高 👥 作者与机构 第一作者:Aoduo Li(Guangdong University of Technology) 通讯作者:未说明 作者列表:Aoduo Li(Guangdong University of Technology),Haoran Lv(Guangdong University of Technology),Hongjian Xu(Guangdong University of Technology),Shengmin Li(South China University of Technology),Sihao Qin(South China University of Technology),Zimeng Li(Shenzhen Polytechnic University),Chi Man Pun(University of Macau),Xuhang Chen(Huizhou University) 💡 毒舌点评 亮点:论文提出的“Persona-Prosody Dual-Track (P2-DT)”架构思路清晰,将静态身份与动态韵律显式解耦,并通过蒸馏14B LLM的推理能力来指导韵律生成,为解决“角色一致性”与“情感表达”之间的矛盾提供了一个有潜力的技术路径。短板:论文最大的软肋在于其核心贡献之一——AnimeTTS-Bench数据集——规模极小(仅4.2小时,3个角色)且未开源,导致其报告的SOTA结果(如CCS: 0.86, mAP: 0.75)缺乏在更大规模、更多样化数据上的验证,说服力大打折扣。此外,代码和模型均未开源,严重阻碍了学术界的复现与跟进。 ...

2026-04-24

MAGIC-TTS: Fine-Grained Controllable Speech Synthesis with Explicit Local Duration and Pause Control

📄 MAGIC-TTS: Fine-Grained Controllable Speech Synthesis with Explicit Local Duration and Pause Control #语音合成 #流匹配 #零样本 #可控生成 ✅ 7.5/10 | 前25% | #语音合成 | #流匹配 | #零样本 #可控生成 | arxiv 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度 高 👥 作者与机构 第一作者:Jialong Mai(华南理工大学) 通讯作者:Xiaofen Xing(华南理工大学) 作者列表:Jialong Mai(华南理工大学)、Xiaofen Xing(华南理工大学)、Xiangmin Xu(华南理工大学) 💡 毒舌点评 亮点在于它系统性地解决了TTS中“token级时长控制”这个长期被忽略的痛点,并通过精巧的条件注入和高置信度数据监督,实现了从“全局语速”到“单字时长”的可控性飞跃,为有声读物、语音导航等应用提供了新工具。短板是论文在展示“控制力”的同时,未能充分证明其“合成力”——即与当前顶尖的零样本TTS模型(如CosyVoice 2)相比,其默认语音的自然度和表现力是否依然具有竞争力,这使得其实际应用价值打上了一个问号。 📌 核心摘要 问题:现代文本到语音(TTS)系统普遍缺乏对单个token(字/音素)级别内容时长和停顿的精确、显式控制能力,现有控制通常仅限于句子级语速或全局风格,无法满足需要精细节奏控制的场景。 方法核心:本文提出了MAGIC-TTS,首个支持显式token级时长和停顿控制的TTS模型。其核心是在一个基于流匹配(Flow Matching)的零样本TTS骨干网络上,通过可学习的残差向量将token级的时长和停顿数值作为显式条件注入文本表示。同时,设计了高置信度时长监督数据构建流程(交叉验证Stable-ts与MFA对齐)和训练机制(零值校正、控制缺失鲁棒性训练)来确保控制的可靠性。 创新点:a) 首次实现显式、可解释的token级内容时长与停顿控制;b) 提出了结合大规模弱监督和高置信度交叉验证的时长数据构建方法;c) 通过零值校正和随机丢弃训练,平衡了可控合成与默认高质量合成。 主要实验结果:在时序控制基准测试中,提供显式控制后,内容时长MAE从36.88ms降至10.56ms,相关性从0.588升至0.918;停顿MAE从18.92ms降至8.32ms。在局部编辑场景测试中,模型能以低偏差(内容17.60ms,停顿23.33ms)将编辑区域向目标值调整。消融实验证明了零值校正和高置信度监督的有效性。 实际意义:使TTS系统能够支持需要精确节奏控制的应用,如导航语音的局部强调、有声读物的节奏引导、无障碍场景下的代码朗读等,提升了语音合成的可编程性和实用性。 主要局限性:a) 未与当前SOTA的零样本TTS模型在合成自然度、说话人相似度等核心指标上进行对比,无法评估其在通用合成质量上的水平;b) 评估主要基于中文数据,缺乏多语言验证;c) 未开源代码和模型,复现门槛高。 🏗️ 模型架构 MAGIC-TTS建立在一个基于条件流匹配(Conditional Flow Matching)的非自回归零样本TTS骨干网络(具体为F5-TTS)之上。其核心创新在于对文本侧条件表示的增强,以注入显式时序控制。 ...

2026-04-24

X-VC: Zero-shot Streaming Voice Conversion in Codec Space

📄 X-VC: Zero-shot Streaming Voice Conversion in Codec Space #语音转换 #流匹配 #零样本 #流式处理 ✅ 6.5/10 | 前25% | #语音转换 | #流匹配 | #零样本 #流式处理 | arxiv 学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Qixi Zheng(上海交通大学) 通讯作者:Xie Chen(上海交通大学,上海创新研究院) 作者列表: Qixi Zheng(上海交通大学) Yuxiang Zhao(上海交通大学) Tianrui Wang(天津大学) Wenxi Chen(上海交通大学,上海创新研究院) Kele Xu(复杂与关键软件环境国家重点实验室) Yikang Li(上海创新研究院) Qinyuan Chen(复旦大学,上海创新研究院) Xipeng Qiu(复旦大学,上海创新研究院) Kai Yu(上海交通大学) Xie Chen(上海交通大学,上海创新研究院) 💡 毒舌点评 亮点:论文的工程实现非常扎实,将预训练编解码器、双条件Transformer和分块推理整合成一个高效的流式系统,在延迟(240ms)和离线效率(RTF 0.014)上达到了实用水平,且开源了代码和模型。 短板:核心创新略显“缝合”,双条件建模和流匹配都是已有技术,论文的主要贡献在于针对特定任务的适配和系统集成,缺乏更根本性的原理突破;同时,与之对比的基线(如MeanVC)可能并非最新或最强,削弱了结论的说服力。 📌 核心摘要 问题:零样本语音转换需要同时实现高质量的说话人特征迁移和低延迟的流式推理,这是一个尚未很好解决的挑战。 方法核心:提出X-VC系统,在预训练的SAC语音编解码器的潜在空间中进行一步转换。核心是一个双条件声学转换器,它联合处理源语音的编解码器潜在表示和目标参考语音的帧级梅尔频谱条件,并通过自适应归一化注入全局说话人嵌入。 创新点:与已有方法相比,新在:(1) 在编解码器潜在空间而非波形或频谱图空间进行转换;(2) 设计了双分支Transformer架构来异构地建模帧级和句级条件;(3) 提出了基于生成对数据和角色分配策略的训练方法;(4) 设计了与编解码器分段训练范式对齐的分块流式推理方案。 实验结果:在Seed-TTS-Eval基准上,流式设置下,X-VC在英语和中文测试集上取得了最佳的WER(英语3.14%,中文2.65%)和领先的说话人相似度(SIM)。离线设置下,其实时因子(RTF)仅为0.014,远低于基线模型(如Seed-VC tiny为0.069)。跨语言评估也表现良好。 实际意义:提供了一种实用的高质量低延迟零样本语音转换方案,适用于需要实时交互的配音、对话等场景。 主要局限性:模型总参数量较大(539M);转换质量高度依赖预训练编解码器(SAC)的性能;论文未提供完整的训练数据集信息。 🏗️ 模型架构 X-VC是一个端到端的语音转换系统,整体流程如图1所示: ...

2026-04-23

ATRIE: Adaptive Tuning for Robust Inference and Emotion in Persona-Driven Speech Synthesis

📄 ATRIE: Adaptive Tuning for Robust Inference and Emotion in Persona-Driven Speech Synthesis #语音合成 #知识蒸馏 #流匹配 #零样本 🔥 评分:8.5/10 | arxiv 👥 作者与机构 第一作者:Aoduo Li (广东工业大学,邮件地址:3123009124@mail2.gdut.edu.cn) 通讯作者:Hongjian Xu (广东工业大学,邮件地址:123457890wasd@gmail.com) 其他作者: Haoran Lv (广东工业大学) Shengmin Li (华南理工大学) Sihao Qin (华南理工大学) 💡 毒舌点评 亮点:巧妙地将14B参数LLM的“角色思考过程”(Chain-of-Thought)蒸馏成一个仅11.8M参数的轻量级“韵律翻译器”,实现了从语义理解到声学控制的跨模态桥接,这个想法非常优雅且实用。槽点:实验严重依赖一个特定的动漫角色数据集,虽然证明了方法在该领域的有效性,但其在通用语音、其他语言或更严肃风格上的泛化能力有待商榷,有点像“在二次元世界里当王者”。 📌 核心摘要 本文针对现有语音合成系统在生成角色驱动、情感丰富的语音时难以同时保持角色身份一致性和情感表达准确性的问题,提出了ATRIE框架。其核心是Persona-Prosody Dual-Track (P2-DT) 架构,将语音生成解耦为静态的音色轨道(通过标量量化保持身份锚点)和动态的韵律轨道(通过分层流匹配生成情感韵律)。关键创新在于一个离线知识蒸馏过程,利用一个大型语言模型(Qwen 2.5 14B)作为教师,通过思维链推理生成包含情感理由和数值化韵律目标(VAD分数等)的监督信号,来训练一个轻量级的P2P适配器。该适配器在推理时无需LLM参与,可高效地将文本和角色描述映射为韵律控制参数,引导GPT-SoVITS v4骨干网络合成语音。实验在自建的AnimeTTS-Bench(50个角色)上进行,ATRIE在角色一致性分数(CCS: 0.86)、情感表达准确率(EEA: 0.84)和跨模态检索平均精度(mAP: 0.75)上均达到SOTA,同时保持了实时推理能力(RTF: 0.18)。局限性包括对参考音频库的依赖、长句情感强度维持的挑战,以及当前评估集中于动漫风格。 🏗️ 模型架构 ATRIE系统是一个两阶段框架(离线蒸馏,在线推理),其核心是P2-DT架构,整体流程如下: 输入:文本T,角色配置P(包含性格描述、说话模式等)。 语义理解与韵律目标生成(离线/教师阶段): 教师Persona-LLM (Qwen 2.5 14B):接收T和P,输出两部分:(a) 思维链理由R:一段解释为何角色会以某种情感说话的文本;(b) 数值化韵律目标p_tgt:一个包含{V, A, D, F0_rel, E_rel}(效价、唤醒度、时长、相对基频、相对能量)的JSON。 CoT到目标的映射:理由R通过冻结的Sentence-BERT编码为768维语义嵌入h_R。 轻量级适配器训练(学生阶段): 学生P2P Adapter (11.8M参数):一个4层Transformer,通过交叉注意力对齐文本语义标记和音素级声学帧。包含4个并行预测头,分别预测韵律标量(F0, E, D, P)。 训练损失:结合了MSE损失(对齐预测韵律p_hat与教师目标p_tgt)和语义对齐损失(对齐适配器中间表示h_adapter与h_R)。此外,引入了对比损失,确保生成的韵律嵌入z_i与目标角色锚点z_p接近,而与其他角色z_j远离,从而学习一个角色判别的韵律空间。 在线推理阶段: 输入:文本T,角色配置P,参考音频库ℛ。 步骤1:P2P Adapter根据T和P预测韵律控制参数C和角色语义嵌入。 步骤2:参考音频选择:根据预测的VAD目标,从库中检索最匹配的参考音频r*。 步骤3:TTS骨干 (GPT-SoVITS v4):以T、r*和韵律参数C为条件,生成语义令牌,再通过声学解码器和HiFi-GAN声码器输出最终波形y。 双轨融合: 音色轨道:从参考音频r*中提取全局音色嵌入z_timbre,并通过标量量化(SQ)稳定化,作为身份锚点。 韵律轨道:P2P Adapter预测的动态韵律流,通过8步流匹配生成。 融合:静态音色和动态韵律在GPT-SoVITS的方差适配器层融合,共同指导声学生成。 关键设计理由: ...

2026-04-22

Anonymization, Not Elimination: Utility-Preserved Speech Anonymization

📄 Anonymization, Not Elimination: Utility-Preserved Speech Anonymization #语音匿名化 #流匹配 #扩散模型 #模型评估 #音频安全 🔥 评分:8.5/10 | arxiv 👥 作者与机构 第一作者:Yunchong Xiao*, Yuxiang Zhao*(上海交通大学,计算机科学与技术学院,X-LANCE实验室) 通讯作者:Jiachun Liao(南湖实验室,大数据技术研究中心),Xie Chen(上海交通大学,计算机科学与技术学院,X-LANCE实验室) 其他作者: Ziyang Ma(上海交通大学,计算机科学与技术学院,X-LANCE实验室) Shuai Wang(南京大学,智能科学与技术学院) Kai Yu(上海交通大学,计算机科学与技术学院,X-LANCE实验室) 💡 毒舌点评 这篇论文的亮点在于把“匿名化”和“消除”分得门儿清,用流匹配生成千变万化的新“声纹”,而不是粗暴地抹掉或替换,还煞有介事地设计了从头训练下游模型的评估协议,这比那些拿预训练模型在匿名数据上跑个分就完事的“表面功夫”扎实多了。槽点嘛,内容匿名化部分对“语言风格”这种更隐蔽的PII保护力度似乎还不够,而且这么复杂的两阶段框架,真要部署到实时系统里,估计得把服务器累得够呛。 📌 核心摘要 这篇论文针对语音数据隐私保护中“隐私泄露”与“数据效用损失”的核心矛盾,提出了一个新颖的两阶段框架。首先,为解决语音匿名化(保护“谁在说”)中身份多样性不足和可控性差的问题,提出了基于流匹配的说话人嵌入匿名器(F3-VA),它能生成多样且与原始说话人充分分离的新身份。其次,为解决内容匿名化(保护“说了什么”)中传统删除/替换方法导致的声学不连续问题,提出了基于生成式语音编辑的管道(SECA),能无缝替换个人隐私信息。更重要的是,论文提出了一种更真实的效用评估协议,即通过在匿名化数据上从头训练ASR、TTS和SER模型来评估其作为训练资源的价值,而非仅在预训练模型上测试。实验表明,该框架在VoicePrivacy Challenge基线对比中,在提供更强隐私保护(更高的声学和内容验证等错误率)的同时,显著降低了下游任务性能的损失。 🏗️ 模型架构 本论文提出了一个统一的两阶段语音隐私保护框架,整体流程如下: 第一阶段:语音匿名化(F3-VA) 输入:原始语音波形。 特征提取与解耦: 语义内容:使用预训练的HuBERT-large模型提取语义特征 f_sem,并通过向量量化(VQ)层得到 c_vq,作为信息瓶颈去除残余说话人信息。 韵律特征:使用RMVPE模型提取基频(F0),转换为半音尺度并减去句中位数,得到归一化的音高特征 p_norm。 说话人身份:使用预训练的CAM++模型提取192维的说话人嵌入 s_orig。 c_vq 和 p_norm 共同构成“说话人无关特征”。 语音重建骨干网络:基于扩散Transformer(DiT)的条件流匹配模型。 输入:将高斯噪声 x0 与对齐后的说话人无关特征拼接,并以原始说话人嵌入 s_orig 和时间步 t 为全局条件。 过程:学习一个概率流,将噪声 x0 变换为目标梅尔频谱图 x1。 输出:预测流场,通过MSE损失进行监督。 说话人嵌入匿名器(核心创新):一个基于流匹配的生成模型,用于生成匿名的说话人嵌入 s_anon。 编码(ODE-1):将原始说话人嵌入 s_orig 通过逆向流映射回标准高斯分布 z_orig。 混淆:将 z_orig 与一个独立采样的随机噪声 z_rand 进行线性插值,得到 z_anon。插值权重 w 控制原始身份的保留强度。 生成(ODE-2):将 z_anon 通过正向流映射回说话���嵌入空间,得到匿名的 s_anon。 声学重建(ODE-3):以 s_anon 和说话人无关特征为条件,运行语音重建骨干网络的ODE,从高斯噪声生成匿名的梅尔频谱图 x_anon。 输出:通过声码器将 x_anon 合成匿名语音波形。 第二阶段:内容匿名化(SECA) ...

2026-04-21

AST: Adaptive, Seamless, and Training-Free Precise Speech Editing

📄 AST: Adaptive, Seamless, and Training-Free Precise Speech Editing #语音合成 #流匹配 #零样本 #数据集 ✅ 评分:7.5/10 | arxiv 👥 作者与机构 第一作者:Sihan Lv(浙江大学,推断) 通讯作者:Meng Xi(浙江大学,推断) 其他作者:Yechen Jin(浙江大学,推断),Zhen Li(浙江大学,推断),Jintao Chen(浙江大学,推断),Jinshan Zhang(浙江大学,推断),Ying Li(浙江大学,推断),Jianwei Yin(浙江大学,推断),Meng Xi(浙江大学,推断) 机构说明:所有作者邮箱均为 @zju.edu.cn,论文未明确标注具体学院或实验室名称,根据致谢中的“Zhejiang Key Laboratory Project”可推断为浙江大学相关实验室。 💡 毒舌点评 把图像编辑里玩烂的潜空间反演(Latent Inversion)搬到语音流匹配模型上,再缝个动态“弱事实引导”当创可贴,居然就把一群专门训练过的语音编辑模型按在地上摩擦——这恰恰说明语音领域在TTS模型免训练适配上的思路有多贫瘠。不过槽点也很明显:WER相比基座IndexTTS-2不降反升(2.43% vs 2.91%),说明为了保住未编辑区域的“原汁原味”,编辑区域的文本准确性还是被献祭了一点;而且LibriSpeech-Edit数据集靠Qwen3-8B生成目标文本,编辑质量全看大模型脸色,可靠性存疑。 📌 核心摘要 本文针对现有语音编辑方法依赖任务特定训练、未编辑区域时间一致性差的问题,提出了AST(Adaptive, Seamless, and Training-free),一种基于预训练AM-FM(自回归-流匹配)范式TTS模型的精确语音编辑框架。AST首先通过逆Euler ODE求解器将原始语音反演至潜空间,然后利用最长公共子序列(LCS)进行词级对齐,将未编辑区域的反演潜流与编辑区域的高斯噪声进行潜变量重组(Latent Recomposition)。为防止拼接边界出现伪影,论文提出了自适应弱事实引导(AWFG),根据当前潜流与原始反演流的偏差动态加权mel空间引导信号。此外,AST天然支持局部风格编辑(如情感、方言)。为填补公开基准空白,论文还发布了LibriSpeech-Edit数据集(2000条,3.6小时)和词级动态时间规整指标(WDTW)。实验表明,AST在说话人相似度(0.986)和时间一致性(WDTW 0.2025)上达到SOTA,WER比专门训练的基线降低近70%,且无需任何额外训练。 🏗️ 模型架构 AST的整体架构是一个免训练的推理框架,依附于一个预训练的AM-FM(Autoregressive Model-Flow Matching)TTS模型(论文使用IndexTTS-2)。其核心不是重新设计网络层,而是在已有模型的潜空间中进行“手术刀式”干预。完整输入输出流程如下: 输入:原始mel-谱图 $m_{\mathrm{ori}}$、原始转录 $y_{\mathrm{ori}}$、目标转录 $y_{\mathrm{tgt}}$、声学提示 $m_{\mathrm{ref}}$。 阶段一:潜空间反演(Latent Inversion) 利用AM-FM解码器的ODE可逆性,将原始语音“倒推”回噪声空间。流匹配的前向过程由ODE定义: $$\frac{dx(t)}{dt}=v_{\phi}\left(x(t);\mu,m_{\mathrm{ref}}\right), \quad t\in[0,1]$$ 其中 $v_\phi$ 是DiT(Diffusion Transformer)参数化的速度场,$\mu$ 是自回归模型生成的语义条件。反演时,采用逆Euler ODE求解器,在假设小步长内速度场近似恒定的前提下,将 $x_{\mathrm{ori}}(1)=m_{\mathrm{ori}}$ 逐步逆推至 $x_{\mathrm{ori}}(0)$: $$x(t-\Delta t)=x(t)-\Delta t\cdot v_{\phi}\left(x(t);\mu_{\mathrm{ori}},m_{\mathrm{ref}}\right)$$ 与此同时,目标文本 $y_{\mathrm{tgt}}$ 通过自回归模型生成语义条件 $\mu_{\mathrm{tgt}}$,并以标准高斯噪声 $x_{\mathrm{tgt}}(0)\sim\mathcal{N}(0,I)$ 为起点,通过前向Euler步进,生成完整的目标mel谱 $m_{\mathrm{tgt}}$。 ...

2026-04-20

CoSyncDiT: Cognitive Synchronous Diffusion Transformer for Movie Dubbing

📄 CoSyncDiT: Cognitive Synchronous Diffusion Transformer for Movie Dubbing #语音克隆 #扩散模型 #流匹配 #多模态 🔥 评分:8.5/10 | arxiv 👥 作者与机构 第一作者:Gaoxiang Cong(推测,因其在作者列表中排首位,且为论文主要工作贡献者) 通讯作者:Qingming Huang(推测,因其为资深作者,且通常通讯作者在最后) 其他作者及机构: Gaoxiang Cong, Liang Li, Jiaxin Ye, Zhedong Zhang, Hongming Shan:中国科学院计算技术研究所(Institute of Computing Technology, Chinese Academy of Sciences)/ 中国科学院大学(University of Chinese Academy of Sciences) Yuankai Qi:复旦大学(Fudan University) Qingming Huang:中国科学院计算技术研究所 / 杭州电子科技大学(Hangzhou Dianzi University) / 麦考瑞大学(Macquarie University) 💡 毒舌点评 亮点:把配音演员“听-看-说”的认知过程拆解成模型的三阶段流水线,这个思路相当优雅,不仅解决了特征早期纠缠的问题,还让复杂的对齐任务变得模块化、可解释。槽点:论文里“认知同步”、“渐进式引导”这类高大上的词汇层出不穷,但核心的JSAR机制本质上还是对比学习+CTC损失的“老三样”,创新包装大于内核突破。另外,号称完全消除外部对齐工具依赖,但训练时却用上了预训练的AV-HuBERT,这算不算一种“隐形”的依赖呢? 📌 核心摘要 本文针对电影配音(视觉语音克隆)中音色保真度与唇形同步难以兼得的痛点,提出了一种基于流匹配的认知同步扩散Transformer(CoSyncDiT)框架。该方法受专业配音员认知过程启发,将噪声到语音的生成过程解耦为三个顺序阶段:声学风格适应、细粒度视觉校准和时间感知上下文对齐,从而渐进式地引导生成轨迹,避免了早期多模态特征干扰。为进一步稳定训练并提升对齐精度,作者设计了联合语义与对齐正则化(JSAR)机制,在中间上下文输出上施加帧级对比学习以强化时间一致性,在最终隐藏状态上施加CTC损失以保障语义正确性。在多个标准数据集及具有挑战性的“野外”场景下的实验表明,CoSyncDiT在说话人相似度、发音清晰度、情感相似度和音视频同步等关键指标上均取得了当前最佳性能,尤其在零样本和跨领域设定下展现出卓越的鲁棒性。 🏗️ 模型架构 CoSyncDiT的整体框架旨在将高斯噪声逐步转化为与目标视频唇形同步、并保持参考音色的梅尔频谱图。其核心是一个基于流匹配(Flow Matching)的扩散Transformer(DiT),但并非均匀处理所有层,而是将去噪过程划分为三个认知阶段。 完整输入输出流程: 输入: 参考音频:提取原始梅尔频谱图,经二进制时间掩码遮盖目标区域后,得到掩码声学特征 H_m。 无声视频:通过唇部运动编码器(预训练的AV-HuBERT)提取原始唇部特征,再经级联上采样层对齐至目标梅尔分辨率,得到 X_lip。 配音脚本:通过文本编码器(4层ConvNeXtV2)提取文本特征 H_text。 先验构建:将文本特征通过填充和交叉注意力操作扩展至梅尔级别,并与掩码声学特征 H_m 拼接,形成统一的“语义-声学先验”,作为初始条件。 生成过程(CoSync-DiT): 阶段1:声学风格适应:将带噪的中间变量 x_t 与“语义-声学先验”拼接,通过统一投影层输入DiT。此阶段仅使用多头自注意力(MHSA)和时间自适应层归一化(Time-AdaLN),让模型专注于从参考音频中学习说话人音色风格,并建立风格与文本的初步关联,不引入任何视觉信息。 阶段2:细粒度视觉校准:将阶段1的输出 Z_style 与经过上采样的唇部特征 X_lip 相加。关键设计是一个零初始化的可学习门控 Λ,初始值为0,使得视觉信息作为残差缓慢注入,用于校准声学表示以匹配唇部运动的节奏动态,同时保护已建立的风格信息。 阶段3:时间感知上下文对齐:在阶段2的输出 Z_lip 基础上,使用多头交叉注意力(MHCA),以 Z_lip 为Query,以文本特征 H_text 为Key和Value。同样使用Time-AdaLN进行时间调制。此阶段旨在让模型基于已融合的声学-视觉表示,隐式检索语言上下文,从而生成发音准确的语音。 输出:经过多个CoSync-DiT块迭代后,最终预测出从噪声到目标梅尔频谱的向量场,通过求解常微分方程(ODE)得到生成的梅尔频谱图 x_1。 正则化(JSAR):在训练时,对阶段3的中间交叉注意力输出 Z_ca 施加基于预训练AV-HuBERT特征的帧级对比损失(L_cl),约束时间对齐;对最终隐藏状态 Z_out 施加CTC损失(L_ctc),约束语义正确性。 关键设计选择理由: ...

2026-04-19