X-VC: Zero-shot Streaming Voice Conversion in Codec Space

📄 X-VC: Zero-shot Streaming Voice Conversion in Codec Space #语音转换 #零样本 #流式处理 #自监督学习 🔥 评分:9.0/10 | arxiv 👥 作者与机构 第一作者:Qixi Zheng (上海交通大学) 通讯作者:Xie Chen (上海交通大学,上海创新研究院) 其他作者: Yuxiang Zhao (上海交通大学) Tianrui Wang (天津大学) Wenxi Chen (上海交通大学,上海创新研究院) Kele Xu (复杂与关键软件环境国家重点实验室) Yikang Li (上海创新研究院) Qinyuan Chen (复旦大学,上海创新研究院) Xipeng Qiu (复旦大学,上海创新研究院) Kai Yu (上海交通大学) 💡 毒舌点评 亮点:这篇论文最大的亮点是“化繁为简”,把复杂的零样本语音转换问题巧妙地“塞”进了一个预训练好的神经编解码器(SAC)的潜在空间里,用一步转换就搞定了,既避免了传统分析-合成管线的繁琐,又天然支持流式处理,RTF低得惊人。槽点:模型严重依赖一个高质量的、特定的编解码器(SAC),这相当于把“转换”这个核心难题的部分压力转移给了“重建”,有点“站在巨人肩膀上摘苹果”的意思;此外,539M的参数量对部署场景的硬件要求可不低。 🔗 开源详情 代码:论文提到“Our code and checkpoints will also be released.”,并提供了项目主页链接 https://x-vc.github.io。截至论文发布时(2026年4月),代码应已开源或即将开源,GitHub地址可能为项目主页所链接的仓库。 模型权重:论文提到将发布检查点(checkpoints),预计会发布X-VC的完整模型权重。 数据集:训练使用了公开的Emilia和LibriTTS数据集,以及由Seed-VC生成的配对数据。生成数据的方法已在论文中描述。 预训练权重:系统基于预训练的SAC编解码器和ERes2Net说话人编码器,这些预训练模型的可用性取决于SAC等项目的开源情况。 在线Demo:论文提供了音频样例链接 https://x-vc.github.io,可能包含在线演示。 依赖的开源项目:论文明确依赖并引用了SAC(编解码器)、Seed-VC(用于生成训练数据)、Whisper-large-v3和Paraformer-zh(用于WER评估)、WavLM(用于说话人相似度计算)、UTMOS(用于自然度评估)。 📌 核心摘要 这篇论文旨在解决零样本语音转换中高保真说话人迁移与低延迟流式推理难以兼得的核心挑战。作者提出了X-VC系统,其核心创新在于在预训练神经编解码器(SAC)的潜在空间中进行一步式语音转换,而非直接在波形或梅尔频谱图上操作。该方法通过一个双条件声学转换器,联合建模来自源语音的编解码器潜在表征(内容)和来自目标参考语音的帧级声学条件(梅尔谱)及句级说话人嵌入(身份),实现了对目标说话人细粒度和全局特征的有效利用。为减少训练与推理的不匹配,论文设计了基于生成配对数据和角色分配策略(标准、重建、反转模式)的训练范式。实验表明,X-VC在Seed-TTS-Eval基准测试中,在英语和中文的流式词错率(WER) 上取得最佳,同时在同语种和跨语种场景下保持了强大的说话人相似度(SIM),其离线实时因子(RTF) 远低于基线模型(0.014),证明了编解码器空间一步转换方案在构建高质量低延迟零样本语音转换系统中的实用性。 ...

2026-04-19 · 更新于 2026-05-22 · 2 min · 371 words

语音/音频论文速递 2026-04-19

语音/音频论文速递 2026-04-19 共分析 42 篇论文 ⚡ 今日概览 📥 抓取 42 篇 → 🔬 深度分析完成 🏷️ 热门方向 方向 数量 分布 #音频理解 12篇 ████████████ #基准测试 10篇 ██████████ #音频大模型 9篇 █████████ #多模态模型 7篇 ███████ #信号处理 6篇 ██████ #强化学习 6篇 ██████ #自监督学习 6篇 ██████ #大语言模型 5篇 █████ 📊 论文评分排行榜(42 篇,按分数降序) 排名 论文 评分 🥇 ControlFoley: Unified and Controllable Video-to-Audio G 9.2分 🥈 ClariCodec: Optimising Neural Speech Codes for 200bps C 9.0分 🥉 X-VC: Zero-shot Streaming Voice Conversion in Codec Spa 9.0分 4 Why Your Tokenizer Fails in Information Fusion: A Timin 9.0分 5 Hijacking Large Audio-Language Models via Context-Agnos 8.8分 6 UniPASE: A Generative Model for Universal Speech Enhanc 8.5分 7 VoxSafeBench: Not Just What Is Said, but Who, How, and 8.5分 8 Who is Speaking or Who is Depressed? A Controlled Study 8.5分 9 ProSDD: Learning Prosodic Representations for Speech De 8.5分 10 MoshiRAG: Asynchronous Knowledge Retrieval for Full-Dup 8.5分 11 Four Decades of Digital Waveguides 8.5分 12 Audio-Cogito: Towards Deep Audio Reasoning in Large Aud 8.5分 13 An Ultra-Low Latency, End-to-End Streaming Speech Synth 8.5分 14 Listen, Pause, and Reason: Toward Perception-Grounded H 8.5分 15 Geo2Sound: A Scalable Geo-Aligned Framework for Soundsc 8.5分 16 SpotSound: Enhancing Large Audio-Language Models with F 8.5分 17 Beyond Transcription: Unified Audio Schema for Percepti 8.5分 18 CoSyncDiT: Cognitive Synchronous Diffusion Transformer 8.5分 19 Diffusion Language Models for Speech Recognition 8.5分 20 WavAlign: Enhancing Intelligence and Expressiveness in 8.5分 21 AVID: A Benchmark for Omni-Modal Audio-Visual Inconsist 8.5分 22 SpeakerRPL v2: Robust Open-set Speaker Identification t 8.3分 23 Towards Fine-grained Temporal Perception: Post-Training 8.3分 24 Room compensation for loudspeaker reproduction using a 8.2分 25 StreamMark: A Deep Learning-Based Semi-Fragile Audio Wa 8.2分 26 From Reactive to Proactive: Assessing the Proactivity o 8.2分 27 Elastic Net Regularization and Gabor Dictionary for Cla 8.2分 28 Sky-Ear: An Unmanned Aerial Vehicle-Enabled Victim Soun 8.0分 29 Contextual Biasing for ASR in Speech LLM with Common Wo 8.0分 30 A Manual Bar-by-Bar Tempo Measurement Protocol for Poly 7.8分 31 Classical Machine Learning Baselines for Deepfake Audio 7.8分 32 Adaptive Test-Time Scaling for Zero-Shot Respiratory Au 7.8分 33 Dual-Axis Generative Reward Model Toward Semantic and T 7.8分 34 Tora3: Trajectory-Guided Audio-Video Generation with Ph 7.8分 35 Few-Shot and Pseudo-Label Guided Speech Quality Evaluat 7.5分 36 VoxEffects: A Speech-Oriented Audio Effects Dataset and 7.5分 37 TokenSE: a Mamba-based discrete token speech enhancemen 7.5分 38 Audio Source Separation in Reverberant Environments usi 7.5分 39 On the Distillation Loss Functions of Speech VAE for Un 7.5分 40 Listening Deepfake Detection: A New Perspective Beyond 7.5分 41 Comparison of window shapes and lengths in short-time f 6.5分 42 Transformer Based Machine Fault Detection From Audio In 6.5分 📋 论文列表 🥇 ControlFoley: Unified and Controllable Video-to-Audio Generation with Cross-Modal Conflict Handling 🔥 9.2分 | #音频生成 #多模态模型 #扩散模型 #基准测试 | arxiv ...

2026-04-19 · 更新于 2026-05-22 · 15 min · 3104 words

语音/音频论文速递 2026-04-18

语音/音频论文速递 2026-04-18 共分析 39 篇论文 ⚡ 今日概览 📥 抓取 39 篇 → 🔬 深度分析完成 🏷️ 热门方向 方向 数量 分布 #基准测试 11篇 ███████████ #音频理解 10篇 ██████████ #数据集 7篇 ███████ #音频大模型 7篇 ███████ #大语言模型 6篇 ██████ #信号处理 6篇 ██████ #音频生成 5篇 █████ #音频分类 5篇 █████ 🏆 高分论文 TOP 10 排名 论文 评分 🥇 StreamMark: A Deep Learning-Based Semi-Fragile Audio Wa 9.2分 🥈 A Manual Bar-by-Bar Tempo Measurement Protocol for Poly 8.5分 🥉 ClariCodec: Optimising Neural Speech Codes for 200bps C 8.5分 4 UniPASE: A Generative Model for Universal Speech Enhanc 8.5分 5 Who is Speaking or Who is Depressed? A Controlled Study 8.5分 6 SpeakerRPL v2: Robust Open-set Speaker Identification t 8.5分 7 ProSDD: Learning Prosodic Representations for Speech De 8.5分 8 MoshiRAG: Asynchronous Knowledge Retrieval for Full-Dup 8.5分 9 X-VC: Zero-shot Streaming Voice Conversion in Codec Spa 8.5分 10 An Ultra-Low Latency, End-to-End Streaming Speech Synth 8.5分 📄 StreamMark: A Deep Learning-Based Semi-Fragile Audio Watermarking for Proactive Deepfake Detection #音频安全 #音频深度伪造检测 #语音伪造检测 #基准测试 ...

2026-04-18 · 更新于 2026-05-22 · 43 min · 9080 words