ICLR 2026 - 语音转换 #语音匿名化 论文列表

ICLR 2026 - 语音转换 #语音匿名化 共 1 篇论文 ← 返回 ICLR 2026 总览 排名 论文 评分 分档 🥇 TVTSyn: Content-Synchronous Time-Varying Timbre for Streamin 8.0分 前25% 📋 论文详情 🥇 TVTSyn: Content-Synchronous Time-Varying Timbre for Streaming Voice Conversion and Anonymization 🔥 8.0/10 | 前25% | #语音转换 #语音匿名化 | #时变建模 #流式处理 | #语音转换 #语音匿名化 👥 作者与机构 第一作者:Waris Quamer(德克萨斯A&M大学计算机科学与工程系) 通讯作者:未明确说明 作者列表:Waris Quamer(德克萨斯A&M大学计算机科学与工程系)、Mu-Ruei Tseng(德克萨斯A&M大学计算机科学与工程系)、Ghady Nasrallah(德克萨斯A&M大学计算机科学与工程系)、Ricardo Gutierrez-Osuna(德克萨斯A&M大学计算机科学与工程系) 💡 毒舌点评 论文的亮点在于精准捕捉了流式语音转换/匿名化中“静态说话人嵌入 vs 动态内容序列”这一核心矛盾,并设计了结构化的时变音色表示(TVT)和全局音色记忆(GTM)来优雅地解决它,设计思路清晰且有启发性。短板则在于实验部分,虽然全面对比了流式基线,但与VPC’24中表现更好的离线系统(如T8-4在隐私上远超TVTSyn)对比时,论文以“设计目标不同”为由回避了直接比较,这在一定程度上削弱了其声明的“SOTA”说服力;另外,UAR指标显示其情绪抑制很强(37.32%),但这可能是过度匿名化的副作用,论文未深入探讨如何可控地平衡身份与副语言信息。 🔗 开源详情 代码:论文提供了一个代码仓库的链接:https://anonymized0826.github.io/TVTSyn/。这通常意味着代码可能开源或至少包含演示。 模型权重:论文中未提及是否公开预训练模型权重。 数据集:训练使用了公开的LibriTTS语料库。评估数据集(CMU ARCTIC, L2-ARCTIC, VCTK, EMIME, LibriSpeech)也均为公开数据集,获取方式遵循标准学术协议。 Demo:上述链接页面可能包含音频演示样本(论文中提到“Audio samples can be found at”)。 复现材料:论文提供了详尽的架构描述(附录A)、超参数配置表(表5、表6)、训练策略和评估协议,为复现提供了重要指导。但未明确提供训练脚本、环境配置或检查点。 引用的开源项目:论文中提到了SpeechBrain(用于说话人编码器)和Fairseq(用于HuBERT伪标签生成)。 📌 核心摘要 ...

2026-05-04 · 更新于 2026-05-19 · 1 min · 168 words