VoxCPM2 Technical Report

📄 VoxCPM2 Technical Report #语音合成 #语音克隆 #多语言 9.5/10 | 创新 1.5/2 | 严谨 1.3/1.5 | 实验 1.3/1.5 | 清晰 1/1 | 影响 1.3/1.5 | 开源 1.2/1.5 | 复现 0.5/0.5 | 工程 1.4/1.5 🔥 9.5/10 | 前50% | #语音合成 | #语音克隆 | #多语言 | arxiv 👥 作者与机构 核心贡献者:Yixuan Zhou, Guoyang Zeng, Xin Liu, Xiang Li, Renjie Yu, Jiancheng Gui, Jiaheng Wu, Ziyang Wang, Xudong Shen, Runchuan Ye, Zhisheng Zhang, Jiuyang Zhou, Bingsong Bai, Weiyue Sun, Mengyuan Deng, Qundong Shi, Zhiyong Wu, Zhiyuan Liu 其他贡献者:Biyuan Lin, Caixian Chen, Chao Jia, Chenzhe Jing, Daixi Zeng, Jiayi Zhang, Jie Zhou, Jilong Ma, Jie Sun, Ling Zheng, Minmin Fan, Siyuan Huang, Shuo Wang, Susu Bai, Wenxi Yang, YingJiao Wang, Yitong Wang, Zhen Luo, Zhizheng Yang, Zhong Zhuang 机构:清华大学深圳国际研究生院人机语音交互实验室(THUHCSI),清华大学自然语言处理实验室(THUNLP),ModelBest ...

2026-06-08 · 更新于 2026-06-12 · 5 min · 1038 words

PilotTTS: A Disciplined Modular Recipe for Competitive Speech Synthesis

📄 PilotTTS: A Disciplined Modular Recipe for Competitive Speech Synthesis #语音合成 #语音生成 #自回归模型 #生成对抗网络 #数据增强 #低资源 #多任务学习 #语音克隆 🔥 9.2/10 | 前25% | #语音合成 | #生成对抗网络 | #语音生成 #自回归模型 | arxiv 学术质量 5.7/7 | 影响力 1.8/2 | 可复现性 1.7/2 | 置信度 高 👥 作者与机构 作者:Bowen Li, Shaotong Guo, Zhen Wang, Yang Xiang, Mingli Jin, Yihang Lin, Jiahui Zhao, Weibo Xiong, Dongrui Li, Keming Chen, Yunze Gao, Yuze Zhou, Zeyang Lin, Yue Liu 机构:高德(Amap, Alibaba Group);香港中文大学(深圳) ...

2026-05-27 · 更新于 2026-06-12 · 3 min · 480 words

Omni-Customizer: End-to-End MultiModal Customization for Joint Audio-Video Generation

📄 Omni-Customizer: End-to-End MultiModal Customization for Joint Audio-Video Generation #音视频 #多模态模型 #语音克隆 #生成模型 #扩散模型 ✅ 7.3/10 | 前25% | #音视频 | #多模态模型 | #语音克隆 #生成模型 | arxiv 学术质量 6.2/8 | 影响力 0.8/1 | 可复现性 0.3/1 | 置信度 高 👥 作者与机构 第一作者:Yuheng Chen(上海交通大学) 通讯作者:Qingdong He(电子科技大学,论文中标注为对应作者及项目负责人) 作者列表:Yuheng Chen(上海交通大学,等同贡献)、Qingdong He(电子科技大学,等同贡献)、Teng Hu(上海交通大学)、Yuji Wang(上海交通大学)、Yabiao Wang(浙江大学)、Lizhuang Ma(上海交通大学)、Jiangning Zhang(浙江大学,对应作者) 💡 毒舌点评 这篇论文为“多主体联合音视频定制”这一具体问题提出了一套工程实现相对完整的端到端框架,其针对“Caption Vocalization”问题设计的MTP-CA掩码机制简单有效,SA-MRoPE的位置编码设计思路也具启发性。然而,其核心的OCF模块本质上是标准Transformer块对拼接序列的处理,架构创新度有限,且论文在“Caption Vocalization”的成因分析和SA-MRoPE有效性的理论解释上均显薄弱,更像是一次成功的系统工程集成而非深度理论探索。 📌 核心摘要 本文旨在解决在联合音视频生成中,为多个主体同时保持其视觉身份和声音音色,并实现精准绑定的难题。现有方法存在多主体身份混淆、无法有效跨模态绑定,以及基础模型固有的语音合成异常等问题。论文提出了Omni-Customizer,一个端到端框架。其核心方法包括:1) Omni-Context Fusion (OCF) 模块,将文本、视觉参考、音频参考和TTS嵌入拼接成统一序列,通过L层专用Transformer块进行深度跨模态交互,以富化文本表示;2) Semantic-Anchored Multimodal RoPE (SA-MRoPE),为不同模态的参考token设计了基于其对应文本描述符位置的3D位置编码,实现语义锚定;3) Masked TTS Cross-Attention (MTP-CA),通过二进制掩码机制,确保TTS语音信息仅注入到提示词中被<S>和<E>标签包裹的对话部分,消除“Caption Vocalization”异常。此外,论文提出了交错式模态解耦训练策略(交替进行联合音视频训练和纯音频训练)和渐进式课程学习(从单主体配对到多主体非配对数据),以在不损害基础模型能力的前提下,让模型适应多语言环境并学习鲁棒的身份特征。论文还详细描述了构建多主体多模态数据集的完整流程,并提出了新的评估基准OC-Bench。实验在OC-Bench上进行,结果表明,Omni-Customizer在视觉身份相似度、音色一致性、音视频同步和整体保真度上均达到了当前最佳水平。 ...

2026-05-19 · 更新于 2026-06-12 · 4 min · 673 words

Voice ''Cloning'' is Style Transfer

📄 Voice ‘‘Cloning’’ is Style Transfer #语音克隆 #人类实验 #语音质量评估 #数据隐私 #语音合成 ✅ 7/10 | 前25% | #语音克隆 | #人类实验 | #语音质量评估 #数据隐私 | arxiv 学术质量 5.7/8 | 影响力 0.8/1 | 可复现性 0.5/1 | 置信度 高 👥 作者与机构 第一作者:Kaitlyn Zhou (Cornell University, TogetherAI) 通讯作者:未说明 作者列表:Kaitlyn Zhou (Cornell University, TogetherAI), Federico Bianchi (TogetherAI), Martijn Bartelds (TogetherAI), Anna Pot (Stanford University), Yongchan Kwon (TogetherAI), James Zou (Cornell University, Stanford University) 💡 毒舌点评 这篇论文精准地戳破了“语音克隆”这一商业术语的技术泡沫,通过扎实的人类感知实验与多维度计算分析,雄辩地证明了当前主流克隆系统实为“风格转移与同质化”机器。其社会伦理警示价值显著,揭示了技术背后隐藏的偏见与权力塑造。然而,论证的核心弱点在于将复杂的社会感知变化主要归因于技术“局限性”,而非更根本的训练数据偏见或生成模型固有的归纳偏置,导致对“为何如此”的机制性解释乏力。此外,实验设计在控制“克隆”本身引入的误差(如跨句子生成)方面存在模糊地带,使得“风格转移”的归因不够干净。 📌 核心摘要 要解决什么问题:本文旨在实证检验并挑战一个普遍假设——语音克隆技术能忠实复制说话人的声音身份。它系统性地探究了当前零样本语音克隆系统在实际应用中,是保留了说话人的独特特征,还是引入了未被声明的、系统性的修改。 方法核心是什么:研究采用“人类感知实验+计算分析”的双重验证框架。首先,收集了86名非英语母语者的语音数据作为源音频。然后,使用三个主流语音克隆模型(ElevenLabs V3, Coqui-XTTS, ChatterBox)通过“跨句子克隆”范式生成克隆音频。核心流程包括:1) 通过大规模人类标注实验(n=177),对源与克隆音频在多个感知维度(如人性化、权威感、信任度)进行成对比较评分;2) 进行计算分析,包括口音分类、说话人识别探针和迭代克隆实验,以量化口音变化、身份可区分性下降及特征漂移方向。 与已有方法相比新在哪里:与以往聚焦于克隆语音“保真度”或“误用风险”的研究不同,本文首次将研究焦点从“能否骗过人”转向“克隆过程如何改变了说话人的特质”。它系统性地揭示了语音克隆作为一个过程所带来的、非预期的、方向性的“风格转移”(使声音听起来更权威、温暖、客服化)和“身份同质化”效应(削弱口音和个体特征),并将这些发现与潜在的社会行为影响(如增加信任和信息披露意愿)直接关联。 主要实验结果如何:人类标注实验显示,克隆语音在所有感知维度上的评分均显著高于源语音(p<0.05)。计算分析表明:1) 克隆显著降低了说话人识别任务的分类准确率(随机森林从85%降至53%),并增加了错误分布的广度和跨性别误识率;2) 口音分类显示,非英语母语者的克隆语音被大量映射为美式、英式等“内部圈”英语;3) 50轮迭代克隆实验显示,音频嵌入点逐渐收敛,与源音频的余弦相似度持续下降,音高显著上升。 实际意义是什么:研究揭示了语音克隆技术一项被忽视的风险:在未经用户明确知情的情况下,系统可能系统性地改变其声音特质,使其听起来更“标准化”、更具说服力或更“本土化”。这可能影响社会感知(如信任度)、加剧文化多样性侵蚀,并对内容标注、用户知情同意和技术透明度政策提出新要求。 主要局限性是什么:论文承认仅评估了三个模型;数据集仅包含非英语母语者,可能放大了观察到的同质化效应,结论对母语者的普适性未验证;研究主要揭示了“是什么”(现象),但对于“为什么”(模型内部机制为何产生此特定方向的风格偏移)的深入剖析不足。此外,跨句子克隆范式在控制生成误差方面可能不够完美。 🔗 开源详情 代码:https://github.com/kzhou-cloud/voice-cloning-public 模型权重:论文中未提及具体权重下载链接。论文评估了两个开源模型(ChatterBox, Coqui-XTTS)和一个专有模型(ElevenLabs V3),但未提供这些模型预训练权重的直接下载地址。 数据集:Voice Cloning Style Transfer Dataset。获取链接:https://huggingface.co/datasets/kzhou/voice_cloning_style_transfer。该数据集包含86位非英语母语者的语音数据,包含源音频和克隆音频对,用于研究目的。附有详细的使用条款和禁止用途(如禁止商业使用、禁止用于生成仇恨言论或合成声音等)。 Demo:论文中未提及。 复现材料: 实验协议、同意书模板、完整段落文本及任务截图详见论文附录A(§A)。 用于口音分类的开源模型为 CommonAccent (Zuluaga-Gomez et al., 2023)。 用于音频特征提取的开源库为 librosa (McFee et al., 2015)。 用于音频嵌入的模型为 ECAPA-TDNN (Desplanques et al., 2020)。 用于情感分类的模型为 NVIDIA’s Audio2Emotion-v3.0 (Chung et al., 2025)。 用于音频预处理的强迫对齐工具基于 Whisper (Radford et al., 2023)。 论文中引用的开源项目: Whisper (Radford et al., 2023):用于音频分割的强迫对齐。链接(标准仓库):https://github.com/openai/whisper CommonAccent (Zuluaga-Gomez et al., 2023):用于口音分类。链接(标准仓库):https://github.com/facebookresearch/commonaccent (注:该链接为项目相关仓库,论文原文未提供具体链接) ECAPA-TDNN (Desplanques et al., 2020):说话人嵌入模型。链接(常用实现):https://github.com/speechbrain/speechbrain (SpeechBrain框架包含该模型) librosa (McFee et al., 2015):用于音频特征提取。链接:https://github.com/librosa/librosa NVIDIA’s Audio2Emotion-v3.0 (Chung et al., 2025):用于情感分类。论文中未提及具体开源链接。 ElevenLabs, ChatterBox, Coqui-XTTS:论文中评估的TTS/语音克隆模型。其中ChatterBox和Coqui-XTTS为开源模型,ElevenLabs为专有模型。论文未提供这些模型的具体权重或独立项目主页链接。 🏗️ 方法概述和架构 本论文并非提出一个新的模型架构,而是提出了一种用于剖析和评估现有语音克隆系统行为特性的研究框架。其核心是一个多阶段的实验流程,旨在从人类感知和声学计算两个维度,系统性地量化“语音克隆”这一过程所引入的、非预期的改变。 ...

2026-05-19 · 更新于 2026-06-12 · 2 min · 323 words

X-Voice: Enabling Everyone to Speak 30 Languages via Zero-Shot Cross-Lingual Voice Cloning

📄 X-Voice: Enabling Everyone to Speak 30 Languages via Zero-Shot Cross-Lingual Voice Cloning #语音合成 #语音克隆 #流匹配 #多语言 #零样本 🔥 8.0/10 | 前25% | #语音克隆 | #流匹配 | #语音合成 #多语言 | arxiv 学术质量 6.0/7 | 选题价值 2.0/2 | 复现加成 1.0 | 置信度 高 👥 作者与机构 第一作者:Rixi Xu(上海交通大学,MoE Key Lab of Artificial Intelligence, X-LANCE Lab) 通讯作者:Xie Chen(上海交通大学,MoE Key Lab of Artificial Intelligence, X-LANCE Lab; 上海创新研究院) 作者列表:Rixi Xu(上海交通大学X-LANCE实验室)、Qingyu Liu(上海交通大学X-LANCE实验室; 约翰霍普金斯大学CLSP)、Haitao Li(浙江大学; 北京海天瑞声科技有限公司)、Yushen Chen(上海交通大学X-LANCE实验室; 上海创新研究院)、Zhikang Niu(上海交通大学X-LANCE实验室; 上海创新研究院)、Yunting Yang(吉利汽车研究院(宁波)有限公司)、Jian Zhao(吉利汽车研究院(宁波)有限公司)、Ke Li(北京海天瑞声科技有限公司)、Berrak Sisman(约翰霍普金斯大学CLSP)、Qinyuan Cheng(上海创新研究院; 复旦大学)、Xipeng Qiu(上海创新研究院; 复旦大学)、Kai Yu(上海交通大学)、Xie Chen(上海交通大学X-LANCE实验室; 上海创新研究院) 注:论文明确说明第一作者Rixi Xu与通讯作者Xie Chen贡献相当,且Xie Chen为通讯作者。 💡 毒舌点评 亮点在于其“两阶段免文本提示”训练范式非常巧妙,利用第一阶段模型生成的数据来训练第二阶段的免文本能力,形成了一个优雅的数据自举闭环,并且全套资源(数据、模型、评测)的开源诚意十足。短板是模型规模(0.4B)限制了其在极端复杂口音或高保真场景下的表现上限,且非流式推理的时延对于实时交互应用可能仍是一个瓶颈。 ...

2026-05-08 · 更新于 2026-06-12 · 3 min · 593 words

MiniMind-O Technical Report: An Open Small-Scale Speech-Native Omni Model

📄 MiniMind-O Technical Report: An Open Small-Scale Speech-Native Omni Model #语音对话系统 #端到端 #多模态模型 #流式处理 #语音克隆 ✅ 7.5/10 | 前25% | #语音对话系统 | #端到端 | #多模态模型 #流式处理 | arxiv 学术质量 5.5/7 | 选题价值 1.0/2 | 复现加成 1.0 | 置信度 高 👥 作者与机构 第一作者:Jingyao Gong(Independent Researcher,独立研究者) 通讯作者:未明确说明(论文中仅提供第一作者邮箱 gongjy.cs@foxmail.com,未指明通讯作者) 作者列表:Jingyao Gong(Independent Researcher) 毛舌点评 该论文的亮点在于它将一个完整的“听-看-想-说”全模态闭环在0.1B的小模型规模上实现并彻底开源,包括训练代码、模型权重和处理过的多模态训练数据集,为社区提供了一个可完全复现和修改的小型研究基线。然而,其短板也十分明显:受限于极小的模型规模,在语音自然度、长句稳定性和复杂指令跟随能力上与大模型存在显著差距,其评估也主要集中在内部一致性而非端到端的用户体验,更像一个验证技术可行性的原型而非实用系统。 核心摘要 问题:旨在探索在极小参数规模(0.1B)下,构建一个能够同时处理文本、语音、图像输入并输出文本与流式语音的端到端全模态模型的可行性与设计范式。 方法:采用“思考者-说话者”分离架构。“思考者”是完整的MiniMind语言模型主干,接收文本、经过投影的语音(SenseVoice)和图像(SigLIP2)特征;“说话者”是一个独立的4层MiniMind模块,接收来自思考者中层的语义桥接状态和自回归的Mimi语音编码历史,以预测8层的Mimi码本用于生成流式语音。说话人身份通过参考语音编码和预计算的CAM++嵌入在说话者模块中进行条件化。 创新:核心创新在于为小规模全模态模型提出的三项设计选择:(1) 使用中层语义桥接,而非首层或末层状态,为说话者提供更干净的语义条件;(2) 公开了用于训练的多模态序列格式和数据集;(3) 为8个Mimi码本设计了参数高效的共享基础加低秩适配器的嵌入与输出头接口。 主要实验结果: 一致性:在内部一致性评估中,密集模型和MoE模型在平均字符错误率(CER)上分别为0.0897和0.0900。 语音克隆:使用CAM++说话人嵌入进行评估,密集模型和MoE模型的总体语音克隆相似度(余弦相似度)分别为0.5995和0.5937。 跨模型对比:在简短英文问答T2A一致性上,0.1B的MiniMind-O(Avg CER: 0.0964, Avg WER: 0.0973)落后于0.5B的Mini-Omni(Avg CER: 0.0101, Avg WER: 0.0185)和Mini-Omni2(Avg CER: 0.0371, Avg WER: 0.0431)。 消融实验:说话者模块的隐藏维度从768降至512或384时,CER显著恶化。低秩适配器消融显示输出头的秩比嵌入层的秩更重要。 实际意义:提供了一个完全可公开审查和复现的小规模全模态交互系统,降低了该领域的研究门槛。其明确的设计选择(如中层桥接)和完全开源的闭环数据,为分析和改进小模型全模态架构提供了可控的研究对象。 主要局限性:语音自然度和长句生成的稳定性不足;视觉通路依赖冻结编码器和固定占位符,能力有限;评估主要关注内部转录一致性,未充分评估自然度、鲁棒性和安全性等。 详细分析 01.模型架构 MiniMind-O 是一个端到端的全模态模型,其核心架构遵循“思考者-说话者”分离范式,整体数据流如图1所示。 ...

2026-05-06 · 更新于 2026-06-12 · 5 min · 929 words

JaiTTS: A Thai Voice Cloning Model

📄 JaiTTS: A Thai Voice Cloning Model #语音合成 #语音克隆 #自回归模型 #泰语 #语音大模型 🔥 8.0/10 | 前25% | #语音合成 | #自回归模型 | #语音克隆 #泰语 | arxiv 学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度 高 👥 作者与机构 第一作者:Jullajak Karnjanaekarin (Jasmine Technology Solution) 通讯作者:未明确说明(论文提供了团队邮箱 jts.ai.team@gmail.com) 作者列表: Jullajak Karnjanaekarin (Jasmine Technology Solution) Pontakorn Trakuekul (Jasmine Technology Solution) Narongkorn Panitsrisit (Jasmine Technology Solution) Sumana Sumanakul (Jasmine Technology Solution) Vichayuth Nitayasomboon (Jasmine Technology Solution) Nithid Guntasin (Sirindhorn International Institute of Technology, 实习于Jasmine Technology Solution) Thanavin Denkavin (Sirindhorn International Institute of Technology) Attapol T. Rutherford (Jasmine Technology Solution; Chulalongkorn University, Department of Linguistics) 💡 毒舌点评 亮点:论文在泰语语音克隆上实现了SOTA,CER甚至优于人类基准,并在400次盲测中以70%胜率击败商业巨头,展示了强大的工程落地和数据调优能力。短板:模型核心架构源自VoxCPM,原创性有限;更关键的是“代码、模型、数据”三无状态,使得其优异的实验结果暂时停留在“不可复现的宣称”阶段,大大削弱了学术贡献的可验证性和社区价值。 ...

2026-05-02 · 更新于 2026-06-12 · 2 min · 425 words

MambaVoiceCloning: Efficient and Expressive Text-to-Speech via State-Space Modeling and Diffusion Control

📄 MambaVoiceCloning: Efficient and Expressive Text-to-Speech via State-Space Modeling and Diffusion Control #语音克隆 #语音合成 #状态空间模型 #语音大模型 #扩散模型 ✅ 7.5/10 | 前25% | #语音克隆 | #状态空间模型 | #语音合成 #语音大模型 学术质量 6.5/7 | 选题价值 7.0/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Sahil Kumar(Yeshiva University, Department of Mathematics) 通讯作者:Youshan Zhang(Chuzhou University, School of Artificial Intelligence) 作者列表:Sahil Kumar(Yeshiva University, Department of Mathematics)、Namrataben Patel(Yeshiva University, Department of Mathematics)、Honggang Wang(Yeshiva University, Department of Computer Science & Engineering)、Youshan Zhang(Chuzhou University, School of Artificial Intelligence) 💡 毒舌点评 亮点: 架构设计全面且理论动机清晰,通过引入门控双向融合与AdaLN调制,在完全移除推理时注意力的同时,有效提升了长文本的韵律稳定性和跨语言泛化能力,是Mamba在TTS领域一次扎实的工程化探索。 短板: 尽管声称改进,但核心性能增益(MOS +0.07, RTF -0.0005)绝对值很小,被扩散解码器主导的延迟瓶颈严重掩盖了SSM-only编码器的理论优势,实际部署价值提升有限。 ...

2026-05-02 · 更新于 2026-06-12 · 3 min · 453 words

Tell me Habibi, is it Real or Fake?

📄 Tell me Habibi, is it Real or Fake? #音频深度伪造检测 #数据集 #多语言 #语音克隆 #音视频 🔥 8.0/10 | 前25% | #音频深度伪造检测 | #数据集 | #多语言 #语音克隆 学术质量 5.5/7 | 选题价值 2.0/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Kartik Kuckreja (MBZUAI) 通讯作者:未说明 作者列表:Kartik Kuckreja (MBZUAI), Parul Gupta (Monash University), Injy Hamed (MBZUAI), Thamar Solorio (MBZUAI), Muhammad Haris Khan (MBZUAI), Abhinav Dhall (Monash University) 💡 毒舌点评 这篇论文精准地抓住了现有深度伪造检测数据集在多语言(尤其是阿拉伯语-英语语码转换)场景下的巨大空白,并提供了一个规模空前的数据集(387k视频),填补了这一重要缺口。然而,其数据生成管道高度依赖多个前沿但复杂的TTS/唇同步模型组合以及GPT-4的文本编辑,虽然保证了多样性,但也使得“伪造”样本的生成过程本身成为一个“黑盒”集成,其质量的上限和下限都极大程度地受限于这些商业/开源模型的能力,而非论文提出的统一框架。 🔗 开源详情 代码:论文中未提及代码仓库链接。 模型权重:未提及。 数据集:论文明确表示将公开数据集,并提供了获取所需的EULA表单(图7)。访问需通过机构IRB批准和签署EULA。 Demo:未提及在线演示。 复现材料:论文提供了数据生成管道的详细描述、关键工具(Whisper-v2, GPT-4.1-mini, XTTS-v2, OpenVoice-v2, Fairseq, Diff2Lip, LatentSync)以及评估脚本的开源承诺。附录中提供了详细的文本操作提示(图6)、数据分布、扰动列表和身份重叠分析等复现相关信息。 论文中引用的开源项目:Whisper, wav2vec 2.0, XTTS-v2, OpenVoice-v2, Fairseq, Diff2Lip, LatentSync, XLSR-Mamba, Jais-3B, Qwen2.5等。 📌 核心摘要 问题:现有的深度伪造检测研究主要针对单语内容,忽略了全球普遍存在的多语言,特别是阿拉伯语-英语语码转换(CSW)场景下的检测挑战。 方法核心:提出了ArEnAV,首个大规模阿拉伯-英语音视频深度伪造数据集,并设计了一个三阶段数据生成流程:利用GPT-4.1-mini进行受控的文本(语码转换)操纵,使用4种TTS和2种唇同步模型组合生成伪造的音频和视频。 创新点:数据集首次系统性地包含了句内语码转换、方言变体和纯阿拉伯语内容;生成流程专门针对阿拉伯语-英语混合内容设计;提供了多维度的基准测试,包括与现有单语/多语言数据集的对比、SOTA模型评估及用户研究。 主要实验结果: 数据集对比:ArEnAV是目前最大的多语言音视频深度伪造数据集(387k视频,765小时),远超PolyGlotFake(15k)和Illusion(1.37M但非重点CSW)。伪造片段更长,检测更难。 检测性能:现有SOTA模型(如BA-TFD+)在ArEnAV上性能大幅下降。在测试集上,BA-TFD+(AV-1M预训练)的AP@0.5仅为3.74,而微调后AUC可达79.97%。 跨数据集泛化:在DFDC, FF++, CelebDF上表现良好的模型(如Face-X-Ray, LipForensics),在ArEnAV上AUC接近随机猜测(~50%)。 用户研究:人类参与者的检测准确率仅为60.00%,定位精度(AP@0.5)仅0.79,证明该任务极具挑战性。85%的失败案例发生在语码转换中的英语单词部分。 实际意义:为构建更具鲁棒性、能应对真实世界多语言语码转换场景的深度伪造检测模型提供了关键资源和基准,推动了该领域向全球化、多样化方向发展。 主要局限性:生成管道复杂,依赖外部模型(Whisper, GPT-4, TTS,唇同步模型),其质量和特性直接影响数据集质量;“含义+翻译”模式下,LLM有时未能充分改变语义;数据集目前仅限于阿拉伯语和英语。 🏗️ 模型架构 本文的主要贡献是数据集而非一个新的检测模型架构。论文的核心是ArEnAV数据生成管道,其架构如图1所示: 整个流程分为三个主要阶段: ...

2026-05-02 · 更新于 2026-06-12 · 2 min · 305 words

JaiTTS: A Thai Voice Cloning Model

📄 JaiTTS: A Thai Voice Cloning Model #语音合成 #语音克隆 #自回归模型 #流匹配 #低资源 ✅ 7.5/10 | 前25% | #语音合成 | #自回归模型 | #语音克隆 #流匹配 | arxiv 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度 中 👥 作者与机构 第一作者:Jullajak Karnjanaekarin (Jasmine Technology Solution) 通讯作者:未明确说明(论文提供了共同邮箱 jts.ai.team@gmail.com) 作者列表: Jullajak Karnjanaekarin (Jasmine Technology Solution) Pontakorn Trakuekul (Jasmine Technology Solution) Narongkorn Panitsrisit (Jasmine Technology Solution) Sumana Sumanakul (Jasmine Technology Solution) Vichayuth Nitayasomboon (Jasmine Technology Solution) Nithid Guntasin (Sirindhorn International Institute of Technology) Thanavin Denkavin (Sirindhorn International Institute of Technology) Attapol T. Rutherford (Jasmine Technology Solution, Chulalongkorn University Department of Linguistics) 💡 毒舌点评 JaiTTS在泰语这一垂直赛道上确实“秀了一把肌肉”,性能数据(如CER低于人类基准)和人类盲测胜率都相当漂亮,证明了其在目标语言上的强大实力。然而,论文对模型“黑箱”的保护可谓严密,除了引用VoxCPM作为骨架,核心训练细节(如参数规模、优化器设置)几乎全部隐去,且没有任何开源复现的迹象,这使得其卓越的性能更像一个无法验证的“展示柜”,而非可供学术共同体推进的“开放工具”。 ...

2026-05-01 · 更新于 2026-06-12 · 2 min · 264 words