Robust Accent Identification via Voice Conversion and Non-Timbral Embeddings

📄 Robust Accent Identification via Voice Conversion and Non-Timbral Embeddings #语音识别 #数据增强 #语音转换 #自监督学习 ✅ 7.5/10 | 前25% | #语音识别 | #数据增强 #语音转换 | #数据增强 #语音转换 | arxiv 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度 中 👥 作者与机构 第一作者:未说明(摘要仅列出作者姓名,未明确排序) 通讯作者:未说明 作者列表:Rayane Bakari(未说明)、Olivier Le Blouch(未说明)、Nicolas Gengembre(未说明)、Nicholas Evans(未说明) 注:摘要文本未提供任何作者所属机构信息。 💡 毒舌点评 亮点:论文巧妙地将语音转换(VC)技术“反向”用作口音识别的数据增强工具,而非传统的说话人匿名化或转换,这种应用角度的创新性值得肯定,同时探索非时域嵌入也为特征解耦提供了新思路。 短板:口音识别本身是一个定义模糊、应用相对垂直的任务,且论文摘要未披露任何模型架构、训练代码或完整数据集,严重影响了方法的说服力和社区的可复现性,其影响力可能受限于这个“黑箱”状态。 🔗 开源详情 代码:论文中未提及代码链接。 模型权重:论文中未提及是否公开模型权重。 数据集:论文中使用了GenAID基准测试集,但未说明该数据集是公开的还是需申请获取。 Demo:论文中未提及是否提供在线演示。 复现材料:论文摘要中未提及是否提供训练细节、配置文件、检查点或附录说明。 论文中引用的开源项目:摘要中未提及具体依赖的开源工具或模型。 开源计划总结:论文中未提及开源计划。 📌 核心摘要 要解决的问题:自动口音识别(AID)面临三大挑战:口音本身的复杂多样性、口音线索与说话人身份特征纠缠不清,以及缺乏足够可靠的标注数据进行训练。 方法核心:提出两种互补策略。一是基于语音转换(VC)的说话人增强策略,利用VC系统将训练语音转换为不同说话人的声音,同时尽可能保留口音信息,以此生成新的训练数据。二是探索使用非时域嵌入,这类嵌入能捕捉语调、节奏等非音色特征,其中包含口音信息。 与已有方法相比新在哪里:以往数据增强方法可能破坏口音特征,而本研究明确筛选并评估了近期VC系统在保持口音方面的能力。同时,将非时域嵌入系统地应用于AID任务,并证明其不仅可用于识别,还能用于口音可控的语音合成,这比单纯改进分类器更进一步。 主要实验结果:在GenAID基准测试上,提出的方法取得了新的最先进(SOTA)结果,F1分数达到0.66,相比之前的0.55有显著提升。论文还进行了消融实验,验证了VC增强和非时域嵌入各自的有效性。此外,利用非时域嵌入成功实现了口音可控的文本到语音(TTS),能生成高保真度且口音准确转移的语音。 实际意义:为解决口音识别数据稀缺问题提供了有效的新思路(VC数据增强)。同时,研究打通了“口音分析”到“口音生成”的路径,为跨语言语音合成、个性化语音助手、语言学习工具等应用提供了技术支持。 主要局限性:口音本身的定义和标注标准可能存在主观性。VC转换过程可能会引入人工痕迹或损失细微的口音特征。论文摘要未透露方法在不同口音、不同语言对或噪声环境下的鲁棒性细节。 🏗️ 模型架构 根据摘要描述,本论文并未提出一个全新的端到端神经网络模型,而是主要利用和评估了现有的语音转换(VC)系统和非时域嵌入提取器,并将它们集成到一个口音识别(AID)框架中。 ...

2026-04-29 · 更新于 2026-05-19 · 1 min · 159 words

S2Voice: Style-Aware Autoregressive Modeling with Enhanced Conditioning for Singing Style Conversion

📄 S2Voice: Style-Aware Autoregressive Modeling with Enhanced Conditioning for Singing Style Conversion #歌唱语音转换 #语音转换 #流匹配 #自回归模型 #数据集 ✅ 7.0/10 | 前25% | #歌唱语音转换 | #流匹配 | #语音转换 #自回归模型 学术质量 6.5/7 | 选题价值 2.0/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Ziqian Wang(西北工业大学软件学院音频、语音与语言处理组 (ASLP@NPU)) 通讯作者:Lei Xie(西北工业大学软件学院音频、语音与语言处理组 (ASLP@NPU)) 作者列表:Ziqian Wang(西北工业大学软件学院音频、语音与语言处理组),Xianjun Xia(字节跳动),Chuanzeng Huang(字节跳动),Lei Xie(西北工业大学软件学院音频、语音与语言处理组) 💡 毒舌点评 亮点: 论文在SVCC 2025的两个赛道均取得冠军,系统性地将FiLM条件注入、全局说话人嵌入、大规模数据管线和SFT+DPO训练策略结合起来,在风格相似性和说话人相似性上取得了显著提升,实验设计完整,消融研究充分。 短板: 核心创新(FiLM调制、交叉注意力)多为现有技术的迁移应用,原创性有限;论文未提供开源代码或模型权重,且数据管线依赖的外部模型(如Whisper, Qwen3)版本和具体实现细节模糊,限制了可复现性。 🔗 开源详情 代码: 论文未提及公开代码仓库链接。仅提供了论文作者维护的演示网页链接。 模型权重: 未提及公开S2Voice的模型权重。 数据集: 自建的大规模歌唱语料库未公开。SVCC 2025挑战赛提供了约70小时的训练集和评估协议。 Demo: 提供了在线演示链接:https://honee-w.github.io/SVC-Challenge-Demo/ 复现材料: 论文给出了SFT和DPO阶段的学习率。但未提供模型配置文件、检查点、详细超参数(如隐藏维度、层数、码本大小)、硬件信息和训练时长。 论文中引用的开源项目: 论文明确使用了或依赖于以下开源工具/模型:ECAPA-TDNN [25](用于说话人嵌入/风格编码)、HuBERT [13]/Wav2Vec 2.0 [14](用于内容特征提取)、Whisper [27]/Paraformer [29](用于自动转录)、音乐人声分离模型 [28]、Qwen3 [30](用于转录精炼)、DNSMOS [31](用于质量评估)。基线系统Vevo [8]也是开源的。 📌 核心摘要 解决的问题: 歌唱风格转换(SSC)需要在改变演唱风格的同时保持歌词内容和歌手音色,现有方法存在风格与音色纠缠不完全、自回归模型捕捉细粒度风格能力有限、缺乏高质量训练数据和稳定训练策略等问题。 方法核心: 提出S2Voice,一个基于Vevo的两阶段框架。第一阶段(AR LLM)通过FiLM风格的层归一化调制和风格感知交叉注意力将风格嵌入整合到自回归大语言模型中,实现精细的风格控制。第二阶段(声学模型)在流匹配变换器中引入全局说话人嵌入,以增强音色相似性。此外,构建了大规模高质量歌唱数据语料库,并采用SFT + DPO的多阶段训练策略。 与已有方法相比新在哪里: (1)在AR LLM中引入了更精细的风格条件机制(FiLM+交叉注意力),相比直接拼接或简单注意力融合更有效;(2)在声学解码阶段明确使用预训练说话人���证网络提取的全局嵌入来指导音色,减少从音色参考中泄露风格;(3)构建了大规模、自动化的歌唱数据收集与清洗管线;(4)结合了DPO进行偏好优化,以解决推理中的失败模式,提升稳定性。 主要实验结果: 在SVCC 2025的Task 1(领域内)和Task 2(零样本)上均排名第一。具体指标如下表所示: 系统 任务 自然度 (MOS) 风格相似度 (%) 歌手相似度 (%) GT (真值) 1 3.90 ± 0.15 79 ± 3 63 ± 4 Vevo (基线) 1 3.10 ± 0.12 30 ± 5 42 ± 5 S2Voice 1 3.30 ± 0.10 59 ± 4 57 ± 4 GT (真值) 2 4.10 ± 0.15 78 ± 3 60 ± 4 Vevo (基线) 2 3.20 ± 0.12 32 ± 5 52 ± 5 S2Voice 2 3.75 ± 0.11 70 ± 3 59 ± 4 消融实验表明,各组件(数据、FiLM、交叉注意力、全局说话人嵌入、DPO)对最终性能均有贡献。 实际意义: 该系统为可控的歌唱内容创作(如风格模仿、歌曲翻唱)提供了强大的技术支撑,并在零样本场景下表现出良好的泛化能力,推动了歌唱转换领域的实用化进展。 主要局限性: (1)模型严重依赖大规模高质量数据,构建管线成本高;(2)DPO阶段虽然提升了稳定性,但略微降低了平均指标,表明“偏好”优化与“峰值性能”之间可能存在权衡;(3)论文未公开代码、模型和详细训练细节,阻碍了社区验证和应用。 🏗️ 模型架构 S2Voice是一个两阶段框架,构建在Vevo架构之上。 ...

2026-04-29 · 更新于 2026-05-19 · 3 min · 492 words

Speaker Anonymisation for Speech-Based Suicide Risk Detection

📄 Speaker Anonymisation for Speech-Based Suicide Risk Detection #语音匿名化 #语音大模型 #语音转换 #语音情感识别 #隐私保护 ✅ 7.5/10 | 前25% | #语音匿名化 | #语音转换 | #语音大模型 #语音情感识别 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度 中 👥 作者与机构 第一作者:Ziyun Cui (上海人工智能实验室 & 清华大学电子工程系) 通讯作者:Chang Lei (清华大学万科公共卫生与健康学院),Wen Wu (上海人工智能实验室) 作者列表:Ziyun Cui (上海人工智能实验室、清华大学电子工程系),Sike Jia (清华大学电子工程系),Yang Lin (清华大学为阳书院),Yinan Duan (清华大学万科公共卫生与健康学院),Diyang Qu (清华大学万科公共卫生与健康学院),Runsen Chen (清华大学万科公共卫生与健康学院),Chao Zhang (上海人工智能实验室、清华大学电子工程系),Chang Lei (清华大学万科公共卫生与健康学院),Wen Wu (上海人工智能实验室) 💡 毒舌点评 亮点:这是首个系统性研究语音匿名化对下游自杀风险检测任务影响的工作,其构建的多维评估框架(语音质量、说话人鉴别、语义/情感保留)和对互补性匿名化策略的验证(CosyVoice+RVC组合)具有很强的实用指导价值。短板:论文的核心下游任务(自杀风险检测)仅为一个简单的二分类,且未公开核心数据集和代码,使得其关键结论(如“接近原始性能”)的普适性和可复现性大打折扣。 🔗 开源详情 代码:论文中未提及提供本研究工作的代码仓库链接。 模型权重:未提及公开论文中使用的匿名化模型(如SSL-SAS, FreeVC等)或下游检测模型的权重。 数据集:数据集为临床采集的青少年语音,涉及隐私,未公开。 Demo:未提供在线演示。 复现材料:未给出训练细节(如学习率)、超参配置文件或检查点。 论文中引用的开源项目:论文在脚注中引用了多个开源项目或模型,包括: Qwen2.5-Omni-7B: https://huggingface.co/Qwen/Qwen2.5-Omni-7B Paraformer/FunASR Spark-TTS: https://huggingface.co/SparkAudio/Spark-TTS-0.5B CosyVoice 2.0: https://huggingface.co/FunAudioLLM/CosyVoice2-0.5B RVC项目: https://github.com/RVC-Project/Retrieval-based-Voice-Conversion-WebUI Emotion2Vec: https://huggingface.co/emotion2vec/emotion2vec_plus_seed 📌 核心摘要 问题:利用语音自动检测青少年自杀风险具有重要潜力,但语音数据本身包含丰富的个人可识别信息。如何在保护这一脆弱群体隐私(实现说话人匿名化)的同时,保留用于风险检测的关键信息,是一个亟待研究的空白。 方法:首次系统性评估了三大类语音匿名化技术:传统信号处理(基频调整、McAdams)、基于神经声码器的内容-说话人解耦(SSL-SAS, FreeVC, SeedVC, RVC)以及基于转录文本的语音合成(SparkTTS, CosyVoice)。构建了一个包含语音质量、说话人鉴别、基频偏移、语义和情感内容保留的五维评估框架。下游检测模型采用基于Qwen2.5-Omni-7B的语音大模型,通过DoRA进行微调。 创新:首次将隐私保护的“说话人匿名化”与心理健康领域的“语音自杀风险检测”任务进行深度耦合研究;提出了一个全面的匿名化效果评估框架;通过实验揭示了不同匿名化方法保留信息的互补性(RVC擅长保留声学特征,CosyVoice擅长保留语义内容),并验证了组合策略的有效性。 结果:在1,223名中国青少年的语音数据集上,原始语音检测准确率为0.702。单一匿名化方法中,RVC表现最好(准确率0.680, EER 0.510),CosyVoice次之(准确率0.658)。将二者概率平均的集成方法达到了0.692的准确率,与原始语音仅差1%,且统计上无显著差异(p=0.677),同时保持了有效的匿名化(EER ~0.5)。 方法 检测准确率 说话人等错误率 (EER) 基频相关性 (PCC_F0) 情感相似度 语义错误率 (CER) 原始语音 0.702 0.185 - - - RVC 0.680 0.510 0.443 0.619 0.362 CosyVoice 0.658 0.497 -0.002 0.257 0.024 CosyVoice+RVC 0.692 ~0.50 (组合) (组合) (组合) 其他方法 0.625-0.644 0.248-0.512 - - - 图4: 不同匿名化方法下的自杀风险检测准确率。集成CosyVoice+RVC达到了接近原始语音的性能。 ...

2026-04-29 · 更新于 2026-05-19 · 2 min · 259 words

StylePitcher: Generating Style-Following and Expressive Pitch Curves for Versatile Singing Tasks

📄 StylePitcher: Generating Style-Following and Expressive Pitch Curves for Versatile Singing Tasks #歌唱语音合成 #流匹配 #音频生成 #语音转换 #零样本 ✅ 7.5/10 | 前25% | #歌唱语音合成 | #流匹配 | #音频生成 #语音转换 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Jingyue Huang (University of California San Diego, Smule Labs) 通讯作者:未说明 作者列表:Jingyue Huang(△University of California San Diego, ◦Smule Labs)、Qihui Yang(△University of California San Diego, ◦Smule Labs)、Fei-Yueh Chen(†University of Rochester, ◦Smule Labs)、Julian McAuley(△University of California San Diego)、Randal Leistikow(◦Smule Labs)、Perry R. Cook(◦Smule Labs)、Yongyi Zang(◦Smule Labs) 💡 毒舌点评 亮点在于它敏锐地抓住了唱歌音高曲线“既要符合乐谱,又要保留歌手个人风格”这个核心矛盾,并用一个优雅的掩码填充框架将其统一解决,体现了扎实的工程直觉和对音乐的理解。短板是,虽然实验覆盖了多个任务,但其作为“通用模块”的潜力在很大程度上依赖于下游系统本身,论文并未深入探讨在极端风格差异或复杂旋律转移场景下的鲁棒性边界。 ...

2026-04-29 · 更新于 2026-05-19 · 2 min · 355 words

Target Speaker Anonymization in Multi-Speaker Recordings

📄 Target Speaker Anonymization in Multi-Speaker Recordings #语音匿名化 #语音转换 #说话人分离 #说话人验证 #基准测试 ✅ 7.6/10 | 前50% | #语音匿名化 | #语音转换 | #说话人分离 #说话人验证 学术质量 5.5/7 | 选题价值 1.8/2 | 复现加成 0.3 | 置信度 高 👥 作者与机构 第一作者:Natalia Tomashenko(Université de Lorraine, CNRS, Inria, Loria) 通讯作者:未说明 作者列表:Natalia Tomashenko(Université de Lorraine, CNRS, Inria, Loria)、Junichi Yamagishi(National Institute of Informatics)、Xin Wang(National Institute of Informatics)、Yun Liu(National Institute of Informatics)、Emmanuel Vincent(Université de Lorraine, CNRS, Inria, Loria) 💡 毒舌点评 亮点在于清晰地定义了多说话人场景下目标匿名化这一重要且实际的问题,并初步建立了一个包含“提取-匿名化-重组”的端到端评估框架,其对评估指标的讨论(如tcpWER、DER)比单纯追求更低EER更具工程指导意义。短板在于方法上本质上是将已有的TSE和匿名化模型进行管道式拼接,缺乏针对该联合任务的深度融合与创新,且实验揭示了管道中误差传递导致最终实用性(tcpWER)显著下降的核心矛盾,但论文并未提出根本性的解决方案。 ...

2026-04-29 · 更新于 2026-05-19 · 2 min · 280 words

VChangeCodec: An Ultra Low-Complexity Neural Speech Codec with Built-In Voice Changer for Customized Real-Time Communication

📄 VChangeCodec: An Ultra Low-Complexity Neural Speech Codec with Built-In Voice Changer for Customized Real-Time Communication #语音转换 #语音增强 #端到端 #流式处理 #实时处理 🔥 8.0/10 | 前25% | #语音转换 #语音增强 | #端到端 | #语音转换 #语音增强 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Xusheng Yang (⋆†) (北京大学深圳研究生院,超高清沉浸式媒体技术广东省重点实验室;ADSPLAB,电子与计算机工程学院) 通讯作者:Yuexian Zou (⋆†B) (北京大学深圳研究生院,超高清沉浸式媒体技术广东省重点实验室;ADSPLAB,电子与计算机工程学院) 作者列表: Xusheng Yang (北京大学深圳研究生院,超高清沉浸式媒体技术广东省重点实验室;ADSPLAB,电子与计算机工程学院) Wei Xiao (⋄) (腾讯天籁音频实验室) Bang Yang (‡) (鹏城实验室) Shidong Shang (⋄) (腾讯天籁音频实验室) Yuexian Zou (⋆†B) (北京大学深圳研究生院,超高清沉浸式媒体技术广东省重点实验室;ADSPLAB,电子与计算机工程学院) 💡 毒舌点评 本文提出的“编解码器内建变声器”架构确实是个聪明的集成创新,将语音转换从额外的级联模块变为编解码管道的一部分,从而将端到端延迟砍到了40ms,这对实时通信场景是实质性的提升。不过,论文在“超低复杂度”上做得更极致,但在“音质竞争力”和“变声效果竞争力”上更像是“足够好”而非“令人惊叹”,POLQA分数虽然不错但并未拉开与DAC等模型的差距,语音转换的自然度(N-MOS)也逊色于QuickVC。 ...

2026-04-29 · 更新于 2026-05-19 · 3 min · 460 words

X-VC: Zero-shot Streaming Voice Conversion in Codec Space

📄 X-VC: Zero-shot Streaming Voice Conversion in Codec Space #语音转换 #流匹配 #零样本 #流式处理 ✅ 6.5/10 | 前25% | #语音转换 | #流匹配 | #零样本 #流式处理 | arxiv 学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Qixi Zheng(上海交通大学) 通讯作者:Xie Chen(上海交通大学,上海创新研究院) 作者列表: Qixi Zheng(上海交通大学) Yuxiang Zhao(上海交通大学) Tianrui Wang(天津大学) Wenxi Chen(上海交通大学,上海创新研究院) Kele Xu(复杂与关键软件环境国家重点实验室) Yikang Li(上海创新研究院) Qinyuan Chen(复旦大学,上海创新研究院) Xipeng Qiu(复旦大学,上海创新研究院) Kai Yu(上海交通大学) Xie Chen(上海交通大学,上海创新研究院) 💡 毒舌点评 亮点:论文的工程实现非常扎实,将预训练编解码器、双条件Transformer和分块推理整合成一个高效的流式系统,在延迟(240ms)和离线效率(RTF 0.014)上达到了实用水平,且开源了代码和模型。 短板:核心创新略显“缝合”,双条件建模和流匹配都是已有技术,论文的主要贡献在于针对特定任务的适配和系统集成,缺乏更根本性的原理突破;同时,与之对比的基线(如MeanVC)可能并非最新或最强,削弱了结论的说服力。 🔗 开源详情 代码:论文明确提供了GitHub仓库链接:https://github.com/Jerrister/X-VC。 模型权重:论文提到已发布检查点(checkpoints),但未提供具体下载链接,需前往GitHub仓库查看。 数据集:论文使用了Emilia和LibriTTS数据集,但未提及是否公开了处理后的训练数据集或生成的配对数据。评估使用公开的Seed-TTS-Eval基准。 Demo:论文中未提及在线演示。 复现材料:论文详细说明了模型配置、训练数据处理流程、训练策略(优化器、学习率、batch size等)、超参数设置,并提供了架构图,复现信息充分。 引用的开源项目:论文依赖并提及了预训练的SAC编解码器、ERes2Net说话人编码器、Whisper和Paraformer用于评估,以及Seed-VC用于生成训练数据。 📌 核心摘要 问题:零样本语音转换需要同时实现高质量的说话人特征迁移和低延迟的流式推理,这是一个尚未很好解决的挑战。 方法核心:提出X-VC系统,在预训练的SAC语音编解码器的潜在空间中进行一步转换。核心是一个双条件声学转换器,它联合处理源语音的编解码器潜在表示和目标参考语音的帧级梅尔频谱条件,并通过自适应归一化注入全局说话人嵌入。 创新点:与已有方法相比,新在:(1) 在编解码器潜在空间而非波形或频谱图空间进行转换;(2) 设计了双分支Transformer架构来异构地建模帧级和句级条件;(3) 提出了基于生成对数据和角色分配策略的训练方法;(4) 设计了与编解码器分段训练范式对齐的分块流式推理方案。 实验结果:在Seed-TTS-Eval基准上,流式设置下,X-VC在英语和中文测试集上取得了最佳的WER(英语3.14%,中文2.65%)和领先的说话人相似度(SIM)。离线设置下,其实时因子(RTF)仅为0.014,远低于基线模型(如Seed-VC tiny为0.069)。跨语言评估也表现良好。 实际意义:提供了一种实用的高质量低延迟零样本语音转换方案,适用于需要实时交互的配音、对话等场景。 主要局限性:模型总参数量较大(539M);转换质量高度依赖预训练编解码器(SAC)的性能;论文未提供完整的训练数据集信息。 🏗️ 模型架构 X-VC是一个端到端的语音转换系统,整体流程如图1所示: ...

2026-04-23 · 更新于 2026-05-19 · 2 min · 307 words

MimicLM: Zero-Shot Voice Imitation through Autoregressive Modeling of Pseudo-Parallel Speech Corpora

📄 MimicLM: Zero-Shot Voice Imitation through Autoregressive Modeling of Pseudo-Parallel Speech Corpora #语音转换 #自回归模型 #强化学习 #多语言 #工业应用 🔥 评分:8.5/10 | arxiv 👥 作者与机构 第一作者:Tao Feng (清华大学) 通讯作者:Zhizheng Wu (香港中文大学(深圳)) 其他作者: Yuxiang Wang, Yuancheng Wang, Xueyao Zhang, Dekun Chen, Chaoren Wang (香港中文大学(深圳)) Xun Guan (清华大学) 💡 毒舌点评 亮点:把TTS生成的“垃圾”(合成语音)从训练目标变成训练源,这个“角色交换”的脑回路确实清奇,直接绕过了合成质量天花板,是论文最大的创新点。槽点:虽然思路巧妙,但整个框架依然严重依赖一个高质量的外部TTS系统来生成训练源,33%的数据过滤率也暗示了对TTS质量的敏感性;此外,构建850万对训练数据所需的计算资源(TTS推理+模型训练)恐怕不是一般实验室能承受的,可复现性存疑。 🔗 开源详情 代码:论文在摘要和正文末尾提供了项目页面 (https://fff-ttt.github.io/MimicLM_demo/) 和 GitHub Issue 链接,暗示代码可能开源或部分开源。但论文正文中未明确给出GitHub仓库地址。 模型权重:未明确说明是否公开预训练模型权重。 数据集:伪平行训练数据基于公开的Emilia数据集构建,但构建后的850M对数据本身未说明是否公开。 在线Demo:项目页面标题为“MimicLM_demo”,很可能提供在线演示。 引用的开源项目:论文明确依赖并集成了 CosyVoice 2.0 的音频分词器和流匹配解码器,以及 Qwen2.5 的语言模型架构。还使用了 Whisper-large-v3 进行ASR过滤和评估。 📌 核心摘要 这篇论文旨在解决零样本语音模仿任务中高质量平行训练数据稀缺的核心瓶颈。传统方法要么依赖复杂的解耦架构,要么使用合成语音作为训练目标,导致输出质量受限于合成系统的能力。作者提出了一种名为 MimicLM 的新框架,其核心创新在于**“角色交换”的数据构建策略**:使用TTS生成的语音作为训练源,而将真实的录音保留为训练目标。这使得模型能够直接从真实语音分布中学习,突破了合成质量的“天花板”。为应对这一新范式带来的内容保真度挑战和训练-推理分布不匹配问题,论文进一步引入了交错文本-音频建模(通过文本锚点引导内容生成)和基于DPO的偏好对齐(使用真实输入进行后训练以弥合分布差距)。实验表明,MimicLM在自然度、说话人相似度和情感保真度上取得了与SOTA方法竞争甚至更优的结果,尤其在主观评价中表现突出,并有效降低了在真实输入上的词错误率。该工作为语音模仿提供了一种概念更简单、效果显著的新范式。 ...

2026-04-21 · 更新于 2026-05-19 · 3 min · 472 words

X-VC: Zero-shot Streaming Voice Conversion in Codec Space

📄 X-VC: Zero-shot Streaming Voice Conversion in Codec Space #语音转换 #零样本 #流式处理 #自监督学习 🔥 评分:9.0/10 | arxiv 👥 作者与机构 第一作者:Qixi Zheng (上海交通大学) 通讯作者:Xie Chen (上海交通大学,上海创新研究院) 其他作者: Yuxiang Zhao (上海交通大学) Tianrui Wang (天津大学) Wenxi Chen (上海交通大学,上海创新研究院) Kele Xu (复杂与关键软件环境国家重点实验室) Yikang Li (上海创新研究院) Qinyuan Chen (复旦大学,上海创新研究院) Xipeng Qiu (复旦大学,上海创新研究院) Kai Yu (上海交通大学) 💡 毒舌点评 亮点:这篇论文最大的亮点是“化繁为简”,把复杂的零样本语音转换问题巧妙地“塞”进了一个预训练好的神经编解码器(SAC)的潜在空间里,用一步转换就搞定了,既避免了传统分析-合成管线的繁琐,又天然支持流式处理,RTF低得惊人。槽点:模型严重依赖一个高质量的、特定的编解码器(SAC),这相当于把“转换”这个核心难题的部分压力转移给了“重建”,有点“站在巨人肩膀上摘苹果”的意思;此外,539M的参数量对部署场景的硬件要求可不低。 🔗 开源详情 代码:论文提到“Our code and checkpoints will also be released.”,并提供了项目主页链接 https://x-vc.github.io。截至论文发布时(2026年4月),代码应已开源或即将开源,GitHub地址可能为项目主页所链接的仓库。 模型权重:论文提到将发布检查点(checkpoints),预计会发布X-VC的完整模型权重。 数据集:训练使用了公开的Emilia和LibriTTS数据集,以及由Seed-VC生成的配对数据。生成数据的方法已在论文中描述。 预训练权重:系统基于预训练的SAC编解码器和ERes2Net说话人编码器,这些预训练模型的可用性取决于SAC等项目的开源情况。 在线Demo:论文提供了音频样例链接 https://x-vc.github.io,可能包含在线演示。 依赖的开源项目:论文明确依赖并引用了SAC(编解码器)、Seed-VC(用于生成训练数据)、Whisper-large-v3和Paraformer-zh(用于WER评估)、WavLM(用于说话人相似度计算)、UTMOS(用于自然度评估)。 📌 核心摘要 这篇论文旨在解决零样本语音转换中高保真说话人迁移与低延迟流式推理难以兼得的核心挑战。作者提出了X-VC系统,其核心创新在于在预训练神经编解码器(SAC)的潜在空间中进行一步式语音转换,而非直接在波形或梅尔频谱图上操作。该方法通过一个双条件声学转换器,联合建模来自源语音的编解码器潜在表征(内容)和来自目标参考语音的帧级声学条件(梅尔谱)及句级说话人嵌入(身份),实现了对目标说话人细粒度和全局特征的有效利用。为减少训练与推理的不匹配,论文设计了基于生成配对数据和角色分配策略(标准、重建、反转模式)的训练范式。实验表明,X-VC在Seed-TTS-Eval基准测试中,在英语和中文的流式词错率(WER) 上取得最佳,同时在同语种和跨语种场景下保持了强大的说话人相似度(SIM),其离线实时因子(RTF) 远低于基线模型(0.014),证明了编解码器空间一步转换方案在构建高质量低延迟零样本语音转换系统中的实用性。 ...

2026-04-19 · 更新于 2026-05-19 · 2 min · 371 words