ATRIE: Adaptive Tuning for Robust Inference and Emotion in Persona-Driven Speech Synthesis

📄 ATRIE: Adaptive Tuning for Robust Inference and Emotion in Persona-Driven Speech Synthesis #语音合成 #知识蒸馏 #流匹配 #大语言模型 #对比学习 ✅ 7.0/10 | 前25% | #语音合成 | #知识蒸馏 | #流匹配 #大语言模型 | arxiv 学术质量 6.5/7 | 选题价值 2.0/2 | 复现加成 -0.5 | 置信度 高 👥 作者与机构 第一作者:Aoduo Li(Guangdong University of Technology) 通讯作者:未说明 作者列表:Aoduo Li(Guangdong University of Technology),Haoran Lv(Guangdong University of Technology),Hongjian Xu(Guangdong University of Technology),Shengmin Li(South China University of Technology),Sihao Qin(South China University of Technology),Zimeng Li(Shenzhen Polytechnic University),Chi Man Pun(University of Macau),Xuhang Chen(Huizhou University) 💡 毒舌点评 亮点:论文提出的“Persona-Prosody Dual-Track (P2-DT)”架构思路清晰,将静态身份与动态韵律显式解耦,并通过蒸馏14B LLM的推理能力来指导韵律生成,为解决“角色一致性”与“情感表达”之间的矛盾提供了一个有潜力的技术路径。短板:论文最大的软肋在于其核心贡献之一——AnimeTTS-Bench数据集——规模极小(仅4.2小时,3个角色)且未开源,导致其报告的SOTA结果(如CCS: 0.86, mAP: 0.75)缺乏在更大规模、更多样化数据上的验证,说服力大打折扣。此外,代码和模型均未开源,严重阻碍了学术界的复现与跟进。 ...

2026-04-24 · 更新于 2026-05-20 · 3 min · 428 words

MAGIC-TTS: Fine-Grained Controllable Speech Synthesis with Explicit Local Duration and Pause Control

📄 MAGIC-TTS: Fine-Grained Controllable Speech Synthesis with Explicit Local Duration and Pause Control #语音合成 #流匹配 #零样本 #可控生成 ✅ 7.5/10 | 前25% | #语音合成 | #流匹配 | #零样本 #可控生成 | arxiv 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度 高 👥 作者与机构 第一作者:Jialong Mai(华南理工大学) 通讯作者:Xiaofen Xing(华南理工大学) 作者列表:Jialong Mai(华南理工大学)、Xiaofen Xing(华南理工大学)、Xiangmin Xu(华南理工大学) 💡 毒舌点评 亮点在于它系统性地解决了TTS中“token级时长控制”这个长期被忽略的痛点,并通过精巧的条件注入和高置信度数据监督,实现了从“全局语速”到“单字时长”的可控性飞跃,为有声读物、语音导航等应用提供了新工具。短板是论文在展示“控制力”的同时,未能充分证明其“合成力”——即与当前顶尖的零样本TTS模型(如CosyVoice 2)相比,其默认语音的自然度和表现力是否依然具有竞争力,这使得其实际应用价值打上了一个问号。 🔗 开源详情 代码:论文中未提及代码链接。 模型权重:未提及公开模型权重。 数据集:论文中详细描述了其构建的数据集(CPT语料和SFT高置信度子集),但未提及是否公开或如何获取。 Demo:未提及在线演示。 复现材料:论文提供了较为详细的训练细节(如模型配置、优化器参数、训练步数、硬件信息)和消融实验设置,附录中包含额外分析,这有助于理解方法,但不足以完全复现,因为缺少核心代码和数据。 论文中引用的开源项目:依赖的开源工具/模型包括:F5-TTS(骨干网络)、Stable-ts(用于时序标注)、Montreal Forced Aligner (MFA)(用于高置信度标注)、Vocos(声码器)、Emilia(数据集)、MNV-17 ASR模型(用于转录)。 📌 核心摘要 问题:现代文本到语音(TTS)系统普遍缺乏对单个token(字/音素)级别内容时长和停顿的精确、显式控制能力,现有控制通常仅限于句子级语速或全局风格,无法满足需要精细节奏控制的场景。 方法核心:本文提出了MAGIC-TTS,首个支持显式token级时长和停顿控制的TTS模型。其核心是在一个基于流匹配(Flow Matching)的零样本TTS骨干网络上,通过可学习的残差向量将token级的时长和停顿数值作为显式条件注入文本表示。同时,设计了高置信度时长监督数据构建流程(交叉验证Stable-ts与MFA对齐)和训练机制(零值校正、控制缺失鲁棒性训练)来确保控制的可靠性。 创新点:a) 首次实现显式、可解释的token级内容时长与停顿控制;b) 提出了结合大规模弱监督和高置信度交叉验证的时长数据构建方法;c) 通过零值校正和随机丢弃训练,平衡了可控合成与默认高质量合成。 主要实验结果:在时序控制基准测试中,提供显式控制后,内容时长MAE从36.88ms降至10.56ms,相关性从0.588升至0.918;停顿MAE从18.92ms降至8.32ms。在局部编辑场景测试中,模型能以低偏差(内容17.60ms,停顿23.33ms)将编辑区域向目标值调整。消融实验证明了零值校正和高置信度监督的有效性。 实际意义:使TTS系统能够支持需要精确节奏控制的应用,如导航语音的局部强调、有声读物的节奏引导、无障碍场景下的代码朗读等,提升了语音合成的可编程性和实用性。 主要局限性:a) 未与当前SOTA的零样本TTS模型在合成自然度、说话人相似度等核心指标上进行对比,无法评估其在通用合成质量上的水平;b) 评估主要基于中文数据,缺乏多语言验证;c) 未开源代码和模型,复现门槛高。 🏗️ 模型架构 MAGIC-TTS建立在一个基于条件流匹配(Conditional Flow Matching)的非自回归零样本TTS骨干网络(具体为F5-TTS)之上。其核心创新在于对文本侧条件表示的增强,以注入显式时序控制。 ...

2026-04-24 · 更新于 2026-05-20 · 3 min · 439 words

X-VC: Zero-shot Streaming Voice Conversion in Codec Space

📄 X-VC: Zero-shot Streaming Voice Conversion in Codec Space #语音转换 #流匹配 #零样本 #流式处理 ✅ 6.5/10 | 前25% | #语音转换 | #流匹配 | #零样本 #流式处理 | arxiv 学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Qixi Zheng(上海交通大学) 通讯作者:Xie Chen(上海交通大学,上海创新研究院) 作者列表: Qixi Zheng(上海交通大学) Yuxiang Zhao(上海交通大学) Tianrui Wang(天津大学) Wenxi Chen(上海交通大学,上海创新研究院) Kele Xu(复杂与关键软件环境国家重点实验室) Yikang Li(上海创新研究院) Qinyuan Chen(复旦大学,上海创新研究院) Xipeng Qiu(复旦大学,上海创新研究院) Kai Yu(上海交通大学) Xie Chen(上海交通大学,上海创新研究院) 💡 毒舌点评 亮点:论文的工程实现非常扎实,将预训练编解码器、双条件Transformer和分块推理整合成一个高效的流式系统,在延迟(240ms)和离线效率(RTF 0.014)上达到了实用水平,且开源了代码和模型。 短板:核心创新略显“缝合”,双条件建模和流匹配都是已有技术,论文的主要贡献在于针对特定任务的适配和系统集成,缺乏更根本性的原理突破;同时,与之对比的基线(如MeanVC)可能并非最新或最强,削弱了结论的说服力。 🔗 开源详情 代码:论文明确提供了GitHub仓库链接:https://github.com/Jerrister/X-VC。 模型权重:论文提到已发布检查点(checkpoints),但未提供具体下载链接,需前往GitHub仓库查看。 数据集:论文使用了Emilia和LibriTTS数据集,但未提及是否公开了处理后的训练数据集或生成的配对数据。评估使用公开的Seed-TTS-Eval基准。 Demo:论文中未提及在线演示。 复现材料:论文详细说明了模型配置、训练数据处理流程、训练策略(优化器、学习率、batch size等)、超参数设置,并提供了架构图,复现信息充分。 引用的开源项目:论文依赖并提及了预训练的SAC编解码器、ERes2Net说话人编码器、Whisper和Paraformer用于评估,以及Seed-VC用于生成训练数据。 📌 核心摘要 问题:零样本语音转换需要同时实现高质量的说话人特征迁移和低延迟的流式推理,这是一个尚未很好解决的挑战。 方法核心:提出X-VC系统,在预训练的SAC语音编解码器的潜在空间中进行一步转换。核心是一个双条件声学转换器,它联合处理源语音的编解码器潜在表示和目标参考语音的帧级梅尔频谱条件,并通过自适应归一化注入全局说话人嵌入。 创新点:与已有方法相比,新在:(1) 在编解码器潜在空间而非波形或频谱图空间进行转换;(2) 设计了双分支Transformer架构来异构地建模帧级和句级条件;(3) 提出了基于生成对数据和角色分配策略的训练方法;(4) 设计了与编解码器分段训练范式对齐的分块流式推理方案。 实验结果:在Seed-TTS-Eval基准上,流式设置下,X-VC在英语和中文测试集上取得了最佳的WER(英语3.14%,中文2.65%)和领先的说话人相似度(SIM)。离线设置下,其实时因子(RTF)仅为0.014,远低于基线模型(如Seed-VC tiny为0.069)。跨语言评估也表现良好。 实际意义:提供了一种实用的高质量低延迟零样本语音转换方案,适用于需要实时交互的配音、对话等场景。 主要局限性:模型总参数量较大(539M);转换质量高度依赖预训练编解码器(SAC)的性能;论文未提供完整的训练数据集信息。 🏗️ 模型架构 X-VC是一个端到端的语音转换系统,整体流程如图1所示: ...

2026-04-23 · 更新于 2026-05-20 · 2 min · 307 words

ATRIE: Adaptive Tuning for Robust Inference and Emotion in Persona-Driven Speech Synthesis

📄 ATRIE: Adaptive Tuning for Robust Inference and Emotion in Persona-Driven Speech Synthesis #语音合成 #知识蒸馏 #流匹配 #零样本 🔥 评分:8.5/10 | arxiv 👥 作者与机构 第一作者:Aoduo Li (广东工业大学,邮件地址:3123009124@mail2.gdut.edu.cn) 通讯作者:Hongjian Xu (广东工业大学,邮件地址:123457890wasd@gmail.com) 其他作者: Haoran Lv (广东工业大学) Shengmin Li (华南理工大学) Sihao Qin (华南理工大学) 💡 毒舌点评 亮点:巧妙地将14B参数LLM的“角色思考过程”(Chain-of-Thought)蒸馏成一个仅11.8M参数的轻量级“韵律翻译器”,实现了从语义理解到声学控制的跨模态桥接,这个想法非常优雅且实用。槽点:实验严重依赖一个特定的动漫角色数据集,虽然证明了方法在该领域的有效性,但其在通用语音、其他语言或更严肃风格上的泛化能力有待商榷,有点像“在二次元世界里当王者”。 🔗 开源详情 代码:已开源。GitHub地址:https://github.com/(论文中提供了链接占位符,实际应指向具体仓库)。 模型权重:已公开。在HuggingFace或其他平台发布了P2P Adapter、参考音频库等组件的预训练模型。 数据集:已公开发布了AnimeTTS-Bench(包含初始3角色版和扩展50角色版),包含音频、标注和角色配置。 在线Demo:论文中提供了在线体验地址的链接占位符。 依赖的开源项目:论文中明确依赖或基于以下开源项目:GPT-SoVITS v4(TTS骨干)、Qwen 2.5 14B(教师LLM)、Sentence-BERT、ECAPA-TDNN、emotion2vec、HiFi-GAN等。 📌 核心摘要 本文针对现有语音合成系统在生成角色驱动、情感丰富的语音时难以同时保持角色身份一致性和情感表达准确性的问题,提出了ATRIE框架。其核心是Persona-Prosody Dual-Track (P2-DT) 架构,将语音生成解耦为静态的音色轨道(通过标量量化保持身份锚点)和动态的韵律轨道(通过分层流匹配生成情感韵律)。关键创新在于一个离线知识蒸馏过程,利用一个大型语言模型(Qwen 2.5 14B)作为教师,通过思维链推理生成包含情感理由和数值化韵律目标(VAD分数等)的监督信号,来训练一个轻量级的P2P适配器。该适配器在推理时无需LLM参与,可高效地将文本和角色描述映射为韵律控制参数,引导GPT-SoVITS v4骨干网络合成语音。实验在自建的AnimeTTS-Bench(50个角色)上进行,ATRIE在角色一致性分数(CCS: 0.86)、情感表达准确率(EEA: 0.84)和跨模态检索平均精度(mAP: 0.75)上均达到SOTA,同时保持了实时推理能力(RTF: 0.18)。局限性包括对参考音频库的依赖、长句情感强度维持的挑战,以及当前评估集中于动漫风格。 🏗️ 模型架构 ATRIE系统是一个两阶段框架(离线蒸馏,在线推理),其核心是P2-DT架构,整体流程如下: 输入:文本T,角色配置P(包含性格描述、说话模式等)。 语义理解与韵律目标生成(离线/教师阶段): 教师Persona-LLM (Qwen 2.5 14B):接收T和P,输出两部分:(a) 思维链理由R:一段解释为何角色会以某种情感说话的文本;(b) 数值化韵律目标p_tgt:一个包含{V, A, D, F0_rel, E_rel}(效价、唤醒度、时长、相对基频、相对能量)的JSON。 CoT到目标的映射:理由R通过冻结的Sentence-BERT编码为768维语义嵌入h_R。 轻量级适配器训练(学生阶段): 学生P2P Adapter (11.8M参数):一个4层Transformer,通过交叉注意力对齐文本语义标记和音素级声学帧。包含4个并行预测头,分别预测韵律标量(F0, E, D, P)。 训练损失:结合了MSE损失(对齐预测韵律p_hat与教师目标p_tgt)和语义对齐损失(对齐适配器中间表示h_adapter与h_R)。此外,引入了对比损失,确保生成的韵律嵌入z_i与目标角色锚点z_p接近,而与其他角色z_j远离,从而学习一个角色判别的韵律空间。 在线推理阶段: 输入:文本T,角色配置P,参考音频库ℛ。 步骤1:P2P Adapter根据T和P预测韵律控制参数C和角色语义嵌入。 步骤2:参考音频选择:根据预测的VAD目标,从库中检索最匹配的参考音频r*。 步骤3:TTS骨干 (GPT-SoVITS v4):以T、r*和韵律参数C为条件,生成语义令牌,再通过声学解码器和HiFi-GAN声码器输出最终波形y。 双轨融合: 音色轨道:从参考音频r*中提取全局音色嵌入z_timbre,并通过标量量化(SQ)稳定化,作为身份锚点。 韵律轨道:P2P Adapter预测的动态韵律流,通过8步流匹配生成。 融合:静态音色和动态韵律在GPT-SoVITS的方差适配器层融合,共同指导声学生成。 关键设计理由: ...

2026-04-22 · 更新于 2026-05-20 · 3 min · 465 words

Anonymization, Not Elimination: Utility-Preserved Speech Anonymization

📄 Anonymization, Not Elimination: Utility-Preserved Speech Anonymization #语音匿名化 #流匹配 #扩散模型 #模型评估 #音频安全 🔥 评分:8.5/10 | arxiv 👥 作者与机构 第一作者:Yunchong Xiao*, Yuxiang Zhao*(上海交通大学,计算机科学与技术学院,X-LANCE实验室) 通讯作者:Jiachun Liao(南湖实验室,大数据技术研究中心),Xie Chen(上海交通大学,计算机科学与技术学院,X-LANCE实验室) 其他作者: Ziyang Ma(上海交通大学,计算机科学与技术学院,X-LANCE实验室) Shuai Wang(南京大学,智能科学与技术学院) Kai Yu(上海交通大学,计算机科学与技术学院,X-LANCE实验室) 💡 毒舌点评 这篇论文的亮点在于把“匿名化”和“消除”分得门儿清,用流匹配生成千变万化的新“声纹”,而不是粗暴地抹掉或替换,还煞有介事地设计了从头训练下游模型的评估协议,这比那些拿预训练模型在匿名数据上跑个分就完事的“表面功夫”扎实多了。槽点嘛,内容匿名化部分对“语言风格”这种更隐蔽的PII保护力度似乎还不够,而且这么复杂的两阶段框架,真要部署到实时系统里,估计得把服务器累得够呛。 🔗 开源详情 代码:论文中提到“GitHub Issue”,并在摘要后提供了“GitHub”链接(但未在提供的文本中显示具体URL)。论文正文也提到“Please view the build logs for errors. Generated by L A T E xml.”,表明其HTML版本由LaTeXML生成,但这不是代码仓库。推断代码已开源或计划开源,具体地址需查看原论文PDF或arXiv页面。 模型权重:论文中未明确提及是否公开预训练模型权重(如骨干网络、匿名器、SECA管道中的各组件)。 数据集:实验使用公开数据集:LibriSpeech, LibriTTS, IEMOCAP, WikiAnn。论文未提及发布新的数据集。 预训练权重:论文中引用了多个预训练模型:HuBERT-large, CAM++, ECAPA-TDNN (用于评估), Flair NER, F5-TTS, Whisper-large-v3 (用于评估), Emotion2Vec (用于评估)。这些均非本文作者训练。 在线 Demo:论文中未提及。 依赖的开源项目:PyTorch, icefall (ASR训练配方), F5-TTS仓库, SpeechBrain (ECAPA-TDNN), HuggingFace Transformers/Models (多个模型), RMVPE等。 📌 核心摘要 这篇论文针对语音数据隐私保护中“隐私泄露”与“数据效用损失”的核心矛盾,提出了一个新颖的两阶段框架。首先,为解决语音匿名化(保护“谁在说”)中身份多样性不足和可控性差的问题,提出了基于流匹配的说话人嵌入匿名器(F3-VA),它能生成多样且与原始说话人充分分离的新身份。其次,为解决内容匿名化(保护“说了什么”)中传统删除/替换方法导致的声学不连续问题,提出了基于生成式语音编辑的管道(SECA),能无缝替换个人隐私信息。更重要的是,论文提出了一种更真实的效用评估协议,即通过在匿名化数据上从头训练ASR、TTS和SER模型来评估其作为训练资源的价值,而非仅在预训练模型上测试。实验表明,该框架在VoicePrivacy Challenge基线对比中,在提供更强隐私保护(更高的声学和内容验证等错误率)的同时,显著降低了下游任务性能的损失。 ...

2026-04-21 · 更新于 2026-05-20 · 3 min · 568 words

AST: Adaptive, Seamless, and Training-Free Precise Speech Editing

📄 AST: Adaptive, Seamless, and Training-Free Precise Speech Editing #语音合成 #流匹配 #零样本 #数据集 ✅ 评分:7.5/10 | arxiv 👥 作者与机构 第一作者:Sihan Lv(浙江大学,推断) 通讯作者:Meng Xi(浙江大学,推断) 其他作者:Yechen Jin(浙江大学,推断),Zhen Li(浙江大学,推断),Jintao Chen(浙江大学,推断),Jinshan Zhang(浙江大学,推断),Ying Li(浙江大学,推断),Jianwei Yin(浙江大学,推断),Meng Xi(浙江大学,推断) 机构说明:所有作者邮箱均为 @zju.edu.cn,论文未明确标注具体学院或实验室名称,根据致谢中的“Zhejiang Key Laboratory Project”可推断为浙江大学相关实验室。 💡 毒舌点评 把图像编辑里玩烂的潜空间反演(Latent Inversion)搬到语音流匹配模型上,再缝个动态“弱事实引导”当创可贴,居然就把一群专门训练过的语音编辑模型按在地上摩擦——这恰恰说明语音领域在TTS模型免训练适配上的思路有多贫瘠。不过槽点也很明显:WER相比基座IndexTTS-2不降反升(2.43% vs 2.91%),说明为了保住未编辑区域的“原汁原味”,编辑区域的文本准确性还是被献祭了一点;而且LibriSpeech-Edit数据集靠Qwen3-8B生成目标文本,编辑质量全看大模型脸色,可靠性存疑。 🔗 开源详情 代码:论文中未提及是否开源代码或推理实现。 模型权重:AST本身无额外训练权重,完全依赖公开的预训练模型IndexTTS-2。IndexTTS-2的权重是否公开论文未明确说明。 数据集:论文提出并声称发布(“we release”)LibriSpeech-Edit数据集(2000条样本,总时长3.6小时),但未在正文中提供具体下载链接、HuggingFace仓库或数据许可协议。 预训练权重:基于IndexTTS-2。 在线Demo:论文中未提及。 依赖的开源工具:Whisper large-v3(OpenAI)、Qwen3-ForcedAligner-0.6B(阿里巴巴)、Qwen3-8B(阿里巴巴)、WavLM(微软)。 📌 核心摘要 本文针对现有语音编辑方法依赖任务特定训练、未编辑区域时间一致性差的问题,提出了AST(Adaptive, Seamless, and Training-free),一种基于预训练AM-FM(自回归-流匹配)范式TTS模型的精确语音编辑框架。AST首先通过逆Euler ODE求解器将原始语音反演至潜空间,然后利用最长公共子序列(LCS)进行词级对齐,将未编辑区域的反演潜流与编辑区域的高斯噪声进行潜变量重组(Latent Recomposition)。为防止拼接边界出现伪影,论文提出了自适应弱事实引导(AWFG),根据当前潜流与原始反演流的偏差动态加权mel空间引导信号。此外,AST天然支持局部风格编辑(如情感、方言)。为填补公开基准空白,论文还发布了LibriSpeech-Edit数据集(2000条,3.6小时)和词级动态时间规整指标(WDTW)。实验表明,AST在说话人相似度(0.986)和时间一致性(WDTW 0.2025)上达到SOTA,WER比专门训练的基线降低近70%,且无需任何额外训练。 🏗️ 模型架构 AST的整体架构是一个免训练的推理框架,依附于一个预训练的AM-FM(Autoregressive Model-Flow Matching)TTS模型(论文使用IndexTTS-2)。其核心不是重新设计网络层,而是在已有模型的潜空间中进行“手术刀式”干预。完整输入输出流程如下: 输入:原始mel-谱图 $m_{\mathrm{ori}}$、原始转录 $y_{\mathrm{ori}}$、目标转录 $y_{\mathrm{tgt}}$、声学提示 $m_{\mathrm{ref}}$。 ...

2026-04-20 · 更新于 2026-05-20 · 3 min · 447 words

CoSyncDiT: Cognitive Synchronous Diffusion Transformer for Movie Dubbing

📄 CoSyncDiT: Cognitive Synchronous Diffusion Transformer for Movie Dubbing #语音克隆 #扩散模型 #流匹配 #多模态 🔥 评分:8.5/10 | arxiv 👥 作者与机构 第一作者:Gaoxiang Cong(推测,因其在作者列表中排首位,且为论文主要工作贡献者) 通讯作者:Qingming Huang(推测,因其为资深作者,且通常通讯作者在最后) 其他作者及机构: Gaoxiang Cong, Liang Li, Jiaxin Ye, Zhedong Zhang, Hongming Shan:中国科学院计算技术研究所(Institute of Computing Technology, Chinese Academy of Sciences)/ 中国科学院大学(University of Chinese Academy of Sciences) Yuankai Qi:复旦大学(Fudan University) Qingming Huang:中国科学院计算技术研究所 / 杭州电子科技大学(Hangzhou Dianzi University) / 麦考瑞大学(Macquarie University) 💡 毒舌点评 亮点:把配音演员“听-看-说”的认知过程拆解成模型的三阶段流水线,这个思路相当优雅,不仅解决了特征早期纠缠的问题,还让复杂的对齐任务变得模块化、可解释。槽点:论文里“认知同步”、“渐进式引导”这类高大上的词汇层出不穷,但核心的JSAR机制本质上还是对比学习+CTC损失的“老三样”,创新包装大于内核突破。另外,号称完全消除外部对齐工具依赖,但训练时却用上了预训练的AV-HuBERT,这算不算一种“隐形”的依赖呢? 🔗 开源详情 代码:论文中明确表示“We will open-source all detailed experimental settings, source code, and pre-trained weights.”(我们将开源所有详细的实验设置、源代码和预训练权重)。但截至分析时,未提供具体的GitHub链接。 模型权重:承诺开源预训练权重。 数据集:实验中使用了Chem, CelebV-Dub, CinePile-Dub数据集。论文未提及是否会开源新的数据集。 在线Demo:论文中未提及。 引用的开源项目:论文中提及并依赖了多个开源工具/模型:AV-HuBERT(用于唇部特征提取和JSAR中的对比目标)、ConvNeXtV2(文本编码器)、Whisper-large-V3(用于计算WER)、Emotion2Vec(用于计算EMOSIM)、WavLM-TDNN(用于计算SPKSIM)。 📌 核心摘要 本文针对电影配音(视觉语音克隆)中音色保真度与唇形同步难以兼得的痛点,提出了一种基于流匹配的认知同步扩散Transformer(CoSyncDiT)框架。该方法受专业配音员认知过程启发,将噪声到语音的生成过程解耦为三个顺序阶段:声学风格适应、细粒度视觉校准和时间感知上下文对齐,从而渐进式地引导生成轨迹,避免了早期多模态特征干扰。为进一步稳定训练并提升对齐精度,作者设计了联合语义与对齐正则化(JSAR)机制,在中间上下文输出上施加帧级对比学习以强化时间一致性,在最终隐藏状态上施加CTC损失以保障语义正确性。在多个标准数据集及具有挑战性的“野外”场景下的实验表明,CoSyncDiT在说话人相似度、发音清晰度、情感相似度和音视频同步等关键指标上均取得了当前最佳性能,尤其在零样本和跨领域设定下展现出卓越的鲁棒性。 ...

2026-04-19 · 更新于 2026-05-20 · 3 min · 482 words