TVTSyn: Content-Synchronous Time-Varying Timbre for Streaming Voice Conversion and Anonymization

📄 TVTSyn: Content-Synchronous Time-Varying Timbre for Streaming Voice Conversion and Anonymization #语音转换 #语音匿名化 #自监督学习 #端到端 #流式处理 ✅ 7.5/10 | 前25% | #语音转换 | #端到端 | #语音匿名化 #自监督学习 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度 高 👥 作者与机构 第一作者:Waris Quamer (德克萨斯A&M大学计算机科学与工程系) 通讯作者:未说明 作者列表:Waris Quamer (德克萨斯A&M大学计算机科学与工程系)、Mu-Ruei Tseng (德克萨斯A&M大学计算机科学与工程系)、Ghady Nasrallah (德克萨斯A&M大学计算机科学与工程系)、Ricardo Gutierrez-Osuna (德克萨斯A&M大学计算机科学与工程系) 💡 毒舌点评 亮点:论文一针见血地指出了流式语音转换/匿名化系统中“静态说话人嵌入 vs 动态内容嵌入”这一核心矛盾,并为此设计了一个逻辑自洽、模块化的优雅解决方案(TVT表示),将说话人条件也“动态化”。 短板:虽然方法新颖,但其“内容同步时变音色”的精细控制(如选择性屏蔽情绪而保留性别特征)尚停留在愿景层面,未在实验中验证;此外,论文的实证主要局限于英文和特定数据集,对于该方法在复杂多语言、多说话人交互场景下的泛化能力缺乏探讨。 🔗 开源详情 代码:论文中未提及代码链接。 模型权重:未提及公开的预训练模型权重。 数据集:使用了公开数据集LibriTTS, LibriSpeech, VoxCeleb等,但论文中未提供其处理脚本或专用数据集。 Demo:提供了音频样例演示页面链接:https://anonymized0826.github.io/TVTSyn/ 复现材料:论文附录提供了非常详细的架构配置(表5)和流式实现细节(表6),包括超参数、模块尺寸、缓存机制等,为复现提供了重要信息。但未提供训练脚本、配置文件或检查点。 引用的开源项目:依赖的开源项目包括SpeechBrain(用于预训练说话人编码器)和fairseq(用于HuBERT模型获取伪标签)。 总体:论文中未提及完整的开源计划,尽管提供了详尽的架构细节和音频样例,但缺乏核心代码和模型,可复现性受限。 📌 核心摘要 解决的问题:当前的实时语音转换(VC)和说话人匿名化(SA)系统存在核心的表征失配问题:语言内容是时变的序列,而说话人身份通常作为静态的全局向量注入。这种动态-静态失配会导致合成语音音色过度平滑、表现力下降,并影响匿名化效果与语音自然度之间的平衡。 方法核心:提出了TVTSyn,一个端到端的流式语音合成器。其核心是引入了内容同步的时变音色(TVT)表示:通过一个全局音色记忆(GTM) 将全局说话人嵌入扩展为多个紧凑的“音色面”;帧级内容特征通过注意力机制检索相关的音色面;一个学习的门控调节音色变化的程度;并通过球面线性插值(Slerp) 在全局和时变路径之间平滑过渡,以保持身份几何结构。此外,采用分解向量量化(VQ)瓶颈来正则化内容网络,减少残余说话人信息泄漏。 与已有方法的创新点: 表示创新:首次在流式VC/SA中提出让说话人条件与内容在时间粒度上对齐,从根本上解决动态-静态失配问题。 架构创新:设计了完全因果、低延迟的流式架构(GPU延迟<80ms),集成了GTM、VQ瓶颈和音高/能量预测器,实现了自然度、说话人保真度和匿名化强度之间的平衡。 全面评估:在VC和SA任务上,针对感知质量、说话人相似度、隐私(EER)、效用(WER)和实时性能进行了全面基准测试和消融研究。 主要实验结果:在VC任务上,TVTSyn在人类听测中获得了最高MOS(3.82)和说话人可验证率(74.33%)。在SA任务上(遵循VPC‘24协议),TVTSyn在保持高可懂度(WER=5.35%,优于所有流式基线)的同时,取得了有竞争力的匿名化效果(EER-lazy: 47.55%)。消融实验显示,移除TVT或VQ会显著降低合成自然度(MOS从3.91降至3.42-3.45)。流式性能方面,TVTSyn在GPU上延迟约79ms,实时因子(RTF)为0.308,满足实时要求。 实际意义:该工作为需要实时、低延迟的语音隐私保护(如安全通信、匿名会议)和高表现力语音转换(如配音、个性化合成)场景提供了一个可扩展的解决方案,展示了在严格延迟预算下实现隐私-效用更好平衡的可能性。 主要局限性:1)论文展望了更精细的、可控的匿名化(如选择性屏蔽情绪但保留性别��,但未进行实验验证。2)主要实验在英文数据集上进行,对多语言和跨语言场景的适用性未被探讨。3)在匿名化任务中使用了固定的28个伪说话人,未来可结合生成模型进行更丰富的伪说话人生成。 🏗️ 模型架构 TVTSyn是一个端到端的流式语音转换/匿名化系统,包含四个核心模块(见图1): ...

2026-05-02 · 更新于 2026-06-12 · 2 min · 396 words

Accent Conversion: A Problem-Driven Survey of Sociolinguistic and Technical Constraints

📄 Accent Conversion: A Problem-Driven Survey of Sociolinguistic and Technical Constraints #语音转换 #语音合成 #综述 #跨语言 ✅ 7.5/10 | 前50% | #语音转换 | #综述 | #语音合成 #跨语言 | arxiv 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度 中 👥 作者与机构 第一作者:Yurii Halychanskyi(伊利诺伊大学厄巴纳-香槟分校,西贝尔计算与数据科学学院,国家超级计算应用中心) 通讯作者:Yurii Halychanskyi(同上) 作者列表:Yurii Halychanskyi(伊利诺伊大学厄巴纳-香槟分校,西贝尔计算与数据科学学院,国家超级计算应用中心)、Jianfeng Steven Guo(伊利诺伊大学厄巴纳-香槟分校,西贝尔计算与数据科学学院,国家超级计算应用中心)、Volodymyr Kindratenko(伊利诺伊大学厄巴纳-香槟分校,西贝尔计算与数据科学学院,国家超级计算应用中心,东亚语言文化系) 💡 毒舌点评 亮点:成功地将口音转换这一技术问题,嵌入到社会语言学约束(偏见、公平)和技术瓶颈(对齐、解耦、低资源)的双重框架中进行系统性梳理,视角比传统工程综述更深刻。短板:本质上是对现有工作的“重新包装”和“排序”,缺乏算法层面的新见解或对某一具体问题的深度技术突破,对于寻求具体模型设计灵感的读者帮助有限。 🔗 开源详情 代码:论文中未提及代码链接。该论文是一篇综述文章,未提出新的算法或开源代码仓库。 模型权重:论文中未提及。 数据集:论文在第7节“Datasets”和表1中总结并引用了多个常用于口音转换研究的英语语音数据集。这些数据集为第三方公开数据集,论文本身未提供新的数据集或直接下载链接。具体引用的数据集及其获取途径(根据论文引用推断)如下: VCTK: https://datashare.ed.ac.uk/handle/10283/3443 (论文引用 [VCTK]) Common Voice: https://commonvoice.mozilla.org/ (论文引用 [CommonVoice]) Speech Accent Archive (SAA): https://accent.gmu.edu/ (论文引用中对应为 [47],指向A.C. Cohn的论文) CMU Arctic: http://www.festvox.org/cmu_arctic/ (论文引用 [CMU-Arctic]) L2-Arctic: https://btsync.csl.illinois.edu/BTSync/publicpage/publicprojects/L2-ARCTIC.html (论文引用 [L2-Arctic]) AccentDB: https://github.com/rahuly1/AccentDB (论文引用 [AccentDB]) UME-ERJ: 论文中提及但未给出明确链接,通常需通过原论文获取。 LibriLight, LibriSpeech, LibriTTS, LibriTTS-R, LJSpeech: 这些是常用于语音合成与识别的通用数据集,并非为口音转换专门设计,但论文指出AC研究常借用它们。获取链接如 LibriSpeech 等,但论文本身未给出。 Demo:论文中未提及。 复现材料:论文中未提及。该论文为综述,未提供自身的实验细节、训练配置或检查点。 论文中引用的开源项目:论文主要引用了数据集和方法(如DTW、PSOLA等),并未明确引用除数据集外的其他独立开源项目或工具。因此,此部分标记为“未提及”。 补充信息 [核心摘要/细节详述] 补充:论文第5节明确阐述了口音转换(AC)与其他语音处理任务的具体关系,指出: ...

2026-05-01 · 更新于 2026-06-12 · 1 min · 181 words

DiffAnon: Diffusion-based Prosody Control for Voice Anonymization

📄 DiffAnon: Diffusion-based Prosody Control for Voice Anonymization #语音匿名化 #扩散模型 #语音转换 #说话人验证 ✅ 7.5/10 | 前25% | #语音匿名化 | #扩散模型 | #语音转换 #说话人验证 | arxiv 学术质量 6.0/7 | 选题价值 2.0/2 | 复现加成 1.0 | 置信度 高 👥 作者与机构 第一作者:Ismail Rasim Ulgen(约翰斯·霍普金斯大学,语言与语音处理中心) 通讯作者:未说明(论文未明确指定通讯作者,但Berrak Sisman为最后作者) 作者列表:Ismail Rasim Ulgen(约翰斯·霍普金斯大学,语言与语音处理中心;人类语言技术卓越中心),Zexin Cai(约翰斯·霍普金斯大学),Nicholas Andrews(约翰斯·霍普金斯大学,语言与语音处理中心;人类语言技术卓越中心),Philipp Koehn(约翰斯·霍普金斯大学,语言与语音处理中心),Berrak Sisman(约翰斯·霍普金斯大学,语言与语音处理中心;人类语言技术卓越中心) 💡 毒舌点评 亮点在于它巧妙地将分类器无关引导(CFG)这一图像生成领域的控制技术迁移到了语音匿名化任务中,首次实现了在单个模型内对韵律保留程度的连续、推理时控制,为解决隐私-效用权衡这一核心矛盾提供了优雅的工程化方案。短板是实验仅验证了韵律这一个属性对权衡曲线的影响,而论文承认“说话人条件”和“韵律条件”之间可能存在纠缠(说话人编码器本身可能泄露韵律信息),且其在极端匿名化设置下的实用性(如高失真、低可懂度)尚需更全面的评估。 🔗 开源详情 代码:提供代码仓库链接:https://github.com/lightensyrup/diffanon.git 模型权重:论文提到将公开预训练模型(“We publicly release the codes and pretrained models to enable reproducibility.”)。 数据集:使用LibriTTS(训练)和LibriSpeech(评估)数据集,均为公开数据集。IEMOCAP也是公开数据集。 Demo:未提及。 复现材料:提供了关键训练细节(数据集、训练步数、学习率、batch size、硬件、CFG训练策略)和推理设置(采样器、步数)。架构细节(网络层数、维度)也有描述。 论文中引用的开源项目:SpeechTokenizer(语音编解码器)、FreeVC(说话人编码器)、Masked Prosody Model (MPM)(韵律模型)、NaturalSpeech2(扩散模型架构参考)、SpeechBrain(用于WER评估的ASR系统)。 📌 核心摘要 本文旨在解决语音匿名化中一个核心矛盾:韵律(传递情感与意义)的保留对语用性至关重要,但同时也容易泄露说话人身份,导致隐私与效用难以兼顾。现有方法通常静态地处理韵律(丢弃、隐式保留或随机扰动),缺乏灵活的控制机制。为此,作者提出了DiffAnon,一个基于扩散模型的匿名化框架,其核心创新在于利用分类器无关引导(CFG) 在推理时对源语音的韵律保留强度进行显式、连续的控制。该模型在RVQ语音编解码器的语义嵌入(Q1)之上,通过扩散过程细化声学细节(Q2-8),并同时受内容、韵律和说话人条件约束。通过在训练时随机丢弃条件,并在推理时应用CFG公式,实现了对生成语音中韵律成分的“旋钮式”调节。在VoicePrivacy 2024挑战赛评估中,DiffAnon展示了清晰的权衡趋势:随着韵律引导权重降低,隐私性提升(例如libri-test懒惰攻击EER从33.09%增至42.43%),而韵律保真度下降(F0相关性从75.58%降至62.45%,情绪识别UAR从50.80%降至45.23%),同时内容可懂度(WER)保持在相对稳定的低水平(4.62%至5.61%)。这证明了DiffAnon能在单一模型内系统化地导航隐私-效用曲线。主要局限在于其实验集中于英语数据集,且对韵律与说话人信息的解耦程度尚有疑问。 ...

2026-04-30 · 更新于 2026-06-12 · 2 min · 404 words

Conditional Diffusion Models for Mental Health-Preserving Voice Conversion

📄 Conditional Diffusion Models for Mental Health-Preserving Voice Conversion #语音转换 #扩散模型 #语音匿名化 #语音生物标志物 #零样本 🔥 8.0/10 | 前25% | #语音转换 | #扩散模型 | #语音匿名化 #语音生物标志物 学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0 | 置信度 高 👥 作者与机构 第一作者:Siddharth Kalyanasundaram(科罗拉多大学博尔德分校认知科学与计算机科学研究所) 通讯作者:未说明(从邮箱格式和惯例推断,Theodora Chaspari可能为通讯作者,但论文未明确标注) 作者列表:Siddharth Kalyanasundaram(科罗拉多大学博尔德分校认知科学与计算机科学研究所)、Theodora Chaspari(科罗拉多大学博尔德分校认知科学与计算机科学研究所) 💡 毒舌点评 这篇论文巧妙地将扩散模型用于一个“政治正确”但技术挑战十足的场景——在给抑郁症语音“变声”脱敏的同时,还要保住其病情线索,想法和落点都值得称赞。但遗憾的是,模型的训练“粮草”太少(仅28小时语音),导致其在通用语音质量(自然度、可懂度)上略逊于“吃得多”的基线,显得“巧妇难为无米之炊”。 🔗 开源详情 代码:论文中未提及代码链接。 模型权重:未提及公开权重。 数据集:使用了E-DAIC-WOZ数据集,这是一个公开但需要申请获取的数据集(论文未提供获取方式)。 Demo:提供在线演示链接:https://sidks.github.io/icassp26_vcdemo/。 复现材料:给出了模型规模(23M/67M)、优化器(AdamW)、学习率(5e-5)、训练轮数(446)、批大小(32)、训练硬件(单A100)和时长(72小时)等关键信息。 论文中引用的开源项目/工具:引用了XLS-R (Wav2Vec 2.0)、VQ-VAE、YAAPT、OpenSMILE(eGeMAPS特征)、Whisper、StyleEncoder、Vevo-Voice、QuickVC等相关模型或工具,但未指明本文是否直接依赖这些项目的开源代码。 整体开源情况:论文中未提及完整的开源计划。 📌 核心摘要 解决的问题:语音是心理健康(如抑郁症)的重要生物标志物,但包含说话人身份等敏感信息,阻碍了数据共享与研究复现。需要在匿名化语音的同时,保留对心理健康研究至关重要的副语言信息。 方法核心:提出一种基于条件扩散模型(DM)的语音转换(VC)框架。首先,将语音解耦为内容(w2v)、音高(f0)、说话人身份(s)和抑郁(d)四个嵌入表示。然后,以目标说话人嵌入(s’)和抑郁嵌入(d)作为条件,指导扩散模型的反向去噪过程,生成既改变身份又保留抑郁线索的新语音。 与已有方法的新意:首次将扩散模型应用于明确保留抑郁线索的语音转换任务。现有VC方法(如基于VAE、GAN的模型)在匿名化时会严重退化副语言信息(如情绪、抑郁线索),而本文通过将抑郁嵌入作为扩散过程的显式条件,实现了对关键生物标志物的保护。 主要实验结果:在未见说话人的零样本设置下,所提模型(DM-23M, DM-67M)与SOTA基线(Vevo-Voice, QuickVC)在语音可懂度(WER/CER)和说话人相似度(SECS)上表现相当。核心优势在于抑郁信息保留:所提模型转换后语音的抑郁严重程度(PHQ-8)预测平均绝对误差(MAE)显著低于基线(DM-23M:5.025 vs. Vevo-Voice:5.478, QuickVC:5.804),且预测分数分布与原始语音更接近(KL散度约0.06 vs. 24+)。 模型 WER ↓ CER ↓ SECS ↑ PHQ-8 MAE ↓ nMOS ↑ sMOS ↑ 原始语音 0.046 0.025 0.872 4.522 4.17 3.85 Vevo-Voice 0.078 0.043 0.850 5.478 4.14 3.74 QuickVC 0.059 0.046 0.731 5.804 4.04 3.59 DM-23M (本文) 0.082 0.047 0.804 5.025 3.97 3.71 DM-67M (本文) 0.068 0.041 0.829 5.055 4.03 3.78 实际意义:为心理健康研究提供了一种潜在的隐私保护工具,可以在保护参与者隐私的前提下,促进脱敏语音数据的共享与分析,有助于推动该领域的研究复现和跨机构合作。 主要局限性:训练数据规模较小(仅28小时),限制了模型生成语音的自然度和可懂度;仅针对抑郁症进行评估,未验证对其他副语言信息(如情绪、认知状态)的保留能力;隐私-效用权衡(EER指标)显示匿名化程度还有提升空间。 🏗️ 模型架构 论文提出的模型架构遵循“源-滤波器”分解框架,并采用扩散模型进行条件生成。整体流程如图1所示。 ...

2026-04-29 · 更新于 2026-06-12 · 2 min · 246 words

CosyAccent: Duration-Controllable Accent Normalization using Source-Synthesis Training Data

📄 CosyAccent: Duration-Controllable Accent Normalization using Source-Synthesis Training Data #语音转换 #流匹配 #语音合成 #数据增强 #非自回归 ✅ 7.8/10 | 前25% | #语音转换 | #流匹配 | #语音合成 #数据增强 学术质量 7.8/7 | 选题价值 7.5/2 | 复现加成 0.8 | 置信度 高 👥 作者与机构 第一作者:Qibing Bai(香港中文大学(深圳)数据科学学院、腾讯天籁音频实验室) 通讯作者:Shuai Wang(南京大学智能科学与技术学院,标注†) 作者列表:Qibing Bai(香港中文大学(深圳)数据科学学院、腾讯天籁音频实验室)、Shuhao Shi(香港中文大学(深圳)数据科学学院)、Shuai Wang(南京大学智能科学与技术学院)、Yukai Ju(腾讯天籁音频实验室)、Yannan Wang(腾讯天籁音频实验室)、Haizhou Li(香港中文大学(深圳)数据科学学院、深圳市大数据研究院、香港中文大学(深圳)高等金融研究院) 💡 毒舌点评 亮点在于“源合成”数据策略的构思巧妙——通过合成非母语语音来使用纯净母语语音作为目标,从根本上规避了TTS伪影污染,这一思路颇具启发性。短板则是其宣称的“无需真实L2数据”在泛化到真实、多样且含噪声的L2语音时可能面临挑战,且模型在说话人相似度上略逊于基线。 🔗 开源详情 代码:提供了GitHub代码仓库链接:https://github.com/P1ping/CosyAccent。 模型权重:论文中未明确提及是否公开预训练模型权重。 数据集:论文中描述了使用LibriTTS-R和L2-ARCTIC构建合成数据集的方法,但未明确说明是否公开最终的合成数据集。 Demo:提供了在线演示链接:https://p1ping.github.io/CosyAccent-Demo。 复现材料:论文详细描述了模型架构、数据构建流水线、关键训练技术(CTC损失、位置缩放、CFG)。但未提供训练的具体超参数(如学习率、Batch size)、训练硬件信息和检查点。 论文中引用的开源项目: CosyVoice2 [19]:用于合成L2语音的提示式TTS模型。 Whisper [27]:用作冻结的语音编码器前端。 Resemblyzer:用于提取说话人嵌入。 HiFTNet [34]:用作声码器。 其他基准模型代码:FramAN [13], TokAN [18]。 论文中未提及开源计划的其他方面:如合成数据集权重。 📌 核心摘要 这篇论文针对口音归一化(AN)中训练数据稀缺和时长建模生硬两大挑战,提出了一种新的解决方案。核心方法包括:1)提出“源合成”训练数据构建策略,使用强大的提示式TTS(CosyVoice2)从大规模母语语料中合成非母语语音,从而在完全不使用真实L2数据的情况下,构建以高质量母语语音为目标的平行训练对。2)提出了CosyAccent模型,一个基于流匹配的非自回归(NAR)系统,它通过隐式韵律建模保证自然度,并引入“位置缩放”技术实现对输出总时长的显式控制。实验结果显示,尽管未使用真实L2数据训练,CosyAccent在内容保持(WER降至12.96% vs. 基线16.21%)和自然度(主观NAT评分64.62)上显著优于使用真实数据的基线模型。该工作证明了合成数据策略的有效性,为减少对稀缺口音数据的依赖提供了新途径。其主要局限性在于合成数据可能缺乏真实L2语音的声学复杂性和副语言特征。 ...

2026-04-29 · 更新于 2026-06-12 · 2 min · 246 words

Expressive Voice Conversion with Controllable Emotional Intensity

📄 Expressive Voice Conversion with Controllable Emotional Intensity #语音转换 #数据增强 #注意力机制 #语音情感识别 #自监督学习 ✅ 7.5/10 | 前25% | #语音转换 | #数据增强 | #注意力机制 #语音情感识别 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Nannan Teng(丝绸之路多语种认知计算联合国际研究实验室,新疆大学计算机科学与技术学院) 通讯作者:Ying Hu(丝绸之路多语种认知计算联合国际研究实验室,新疆大学计算机科学与技术学院) 作者列表:Nannan Teng(丝绸之路多语种认知计算联合国际研究实验室,新疆大学计算机科学与技术学院)、Ying Hu(丝绸之路多语种认知计算联合国际研究实验室,新疆大学计算机科学与技术学院)、Zhijian Ou(清华大学电机工程与应用电子技术系)、Sheng Li(东京科学大学工程学院) 💡 毒舌点评 这篇论文最亮眼的地方在于它清晰的“问题-方案”对应逻辑:用“特定属性增强”制造更鲁棒的特征,用“联合注意力”优雅地融合并控制说话人与情感风格,最后用“扰动归一化”来提升合成的表现力,模块设计环环相扣且动机明确。短板则在于情感控制的粒度仍显粗糙,一个标量α控制所有情绪类别的强度,缺乏对不同情绪(如“喜悦”与“愤怒”)可能具有不同强度响应曲线的建模,这在一定程度上限制了其实用性和精细度。 🔗 开源详情 代码:提供了代码仓库链接:https://tengnn.github.io/ExpressiveVC/。 模型权重:论文中未提及是否公开预训练模型权重。 数据集:使用ESD英文数据集和RAVDESS数据集进行测试,这两个均为公开数据集,但论文未提供具体的获取或预处理脚本。 Demo:提供了在线演示链接:https://tengnn.github.io/ExpressiveVC/。 复现材料:论文提供了方法的基本描述和公式,但缺乏具体的训练细节(如优化器、学习率、批大小、训练时长)和模型配置信息。 引用的开源项目:论文未明确列出所有依赖项,但可以推断其使用了Wav2vec 2.0(用于特征提取)、以及可能的HiFi-GAN(作为声码器)等开源模型。 📌 核心摘要 解决的问题:现有的表现力语音转换(VC)方法要么专注于说话人身份和情感风格的迁移,要么专注于情感强度的可控调节,未能很好地将两者结合。本文旨在提出一个能同时实现高质量说话人转换、情感迁移,并允许用户精细控制目标情感强度的VC模型。 方法核心:提出了CEI-VC模型,包含三个关键组件:a) 特定属性增强(SAA):通过共振峰偏移和音高单调化等数据扰动策略,增强模型对说话人和情感特征的鲁棒性。b) 情感解耦与强度控制(EDIC)模块:利用解耦损失和基于联合注意力的风格融合机制,将说话人与情感特征分离,并引入可调参数α在推理时控制情感强度。c) 扰动自适应实例归一化(PbAdaIN):在归一化层中对风格特征施加扰动,提升合成语音的自然度和表现力。 与已有方法相比新在哪里:主要新意在于系统性地结合了数据增强、特征解耦与可控生成三个环节。具体创新包括:1)提出了针对性的SAA策略来同时扰动说话人和情感属性;2)设计了UDIA模块,通过联合注意力机制和可调参数实现情感强度的连续控制;3)提出了PbAdaIN,通过在特征归一化时引入可控噪声来增强表达力。 主要实验结果:在ESD英语数据集上的实验表明,CEI-VC在多项指标上优于5个对比模型。在Unseen-to-Unseen场景下,其自然度MOS(nMOS)为4.02,情感相似度MOS(eMOS)为3.30,情感嵌入余弦相似度(EECS)为0.6663,均为最佳或次佳。消融实验证明SAA、PbAdaIN和UDIA模块均对性能有显著贡献。通过调节参数α(0.2, 0.5, 0.9),转换语音的平均音高和情感分类准确率随强度增加而变化,验证了情感强度控制的有效性。 实际意义:该模型可应用于需要情感表现力和身份控制的语音合成场景,如个性化有声读物生成、影视配音、以及更自然的人机交互对话系统。 主要局限性:论文未讨论模型在极短语音或噪声环境下的鲁棒性;情感强度控制机制(标量α)可能对所有情绪类型过于简化;未公开模型权重和详细训练配置,限制了完全复现。 🏗️ 模型架构 本文提出的CEI-VC模型整体架构如图1所示。其核心是基于变分自编码器(VAE)和归一化流(Normalizing Flow)的框架,旨在学习并转换语音的说话人、情感和内容特征。 ...

2026-04-29 · 更新于 2026-06-12 · 2 min · 387 words

FAC-FACodec: Controllable Zero-Shot Foreign Accent Conversion with Factorized Speech Codec

📄 FAC-FACodec: Controllable Zero-Shot Foreign Accent Conversion with Factorized Speech Codec #语音转换 #扩散模型 #零样本 #语音编解码器 🔥 8.0/10 | 前25% | #语音转换 | #扩散模型 | #零样本 #语音编解码器 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 中 👥 作者与机构 第一作者:Yurii Halychanskyi(University of Illinois Urbana-Champaign, The Grainger College of Engineering, Siebel School of Computing and Data Science) 通讯作者:未说明 作者列表:Yurii Halychanskyi(UIUC)、Cameron Churchwell(UIUC)、Yutong Wen(UIUC)、Volodymyr Kindratenko(UIUC) 💡 毒舌点评 亮点在于巧妙地将扩散模型的噪声控制机制转化为口音强度的“旋钮”,首次实现了在口音转换中对“转多少”的显式、平滑控制,这对实际应用非常友好。短板是训练数据“作弊”——只用了美式英语单说话人(LJSpeech),这好比只学会了标准答案却没练习过如何修改各地“方言”作业,其面对真正多样化非母语口音时的泛化能力和适应性存疑,而论文对此缺乏深入验证。 🔗 开源详情 代码:提供代码仓库链接:https://claussss.github.io/accent_control_demo/ 模型权重:论文中未提及是否公开预训练模型权重。 数据集:训练集LJSpeech和评测集L2-Arctic均为公开数据集,论文中给出了使用方式。 Demo:论文提供的网站链接即为Demo页面(同上)。 复现材料:提供了完整的训练细节(优化器、学习率、批大小、epoch数、硬件)、模型架构细节、预处理流程(文本归一化、音素转换、对齐工具),以及关键超参数(网络尺寸、噪声调度、推理步数)。 引用的开源项目:Nvidia NeMo文本归一化、Phonemizer、Wav2Vec2 XLSR(对齐)、FACodec、Whisper(评测)、SpeechBrain/WavLM(说话人相似度评测)。 📌 核心摘要 问题:现有的口音转换方法缺乏对转换强度的显式控制,难以在“更地道”和“更像本人”之间灵活权衡。 方法核心:提出FAC-FACodec框架,利用FACodec将语音解耦,仅对内容(发音)潜变量zc1进行建模。在训练时,模型学习从加噪的zc1中恢复出美式英语的先验分布。在推理时,通过选择初始加噪的时间步t_start来控制转换强度:t_start越大,表示从越“混乱”的状态开始去噪,结果越偏向先验(美式发音),但可能丢失更多原始特征。 创新点:这是首个提供用户可控参数来调节口音转换强度的框架;仅需目标口音(美式英语)的语音和转录文本进行训练,实现零样本转换;专注于发音层面的修改,严格保留说话人的韵律和音色。 主要实验结果:在L2-Arctic数据集(6种非母语口音)上测试,随着t_start从25增至100,美式口音分类器得分(Acc)从72.22平均提升至89.86,而说话人相似度(SS)从0.97降至0.88,词错误率(WER)从0.07升至0.15,证明了转换强度与身份保留之间的可控权衡。与基线系统相比,在 t_start=100时,本方法在说话人相似度和WER上持平或更优,但在口音得分上通常低于同时重构韵律的系统。 关键数据表(节选): ...

2026-04-29 · 更新于 2026-06-12 · 2 min · 297 words

ICASSP 2026 - 语音转换 论文列表

ICASSP 2026 - 语音转换 共 9 篇论文 ← 返回 ICASSP 2026 总览 排名 论文 评分 分档 🥇 FAC-FACodec: Controllable Zero-Shot Foreign Accent Conversio 8.0分 前25% 🥈 Conditional Diffusion Models for Mental Health-Preserving Vo 8.0分 前25% 🥉 CosyAccent: Duration-Controllable Accent Normalization using 7.8分 前25% 4. QE-XVC: Zero-Shot Cross-Lingual Voice Conversion via Query-E 7.5分 前25% 5. MeanVC: Lightweight and Streaming Zero-Shot Voice Conversion 7.5分 前25% 6. Expressive Voice Conversion with Controllable Emotional Inte 7.5分 前25% 7. Lightweight and Perceptually-Guided Voice Conversion for Ele 7.5分 前25% 8. MeanVoiceFlow: One-Step Nonparallel Voice Conversion with Me 7.0分 前25% 9. MaskVCT: Masked Voice Codec Transformer for Zero-Shot Voice 6.5分 前50% 📋 论文详情 🥇 FAC-FACodec: Controllable Zero-Shot Foreign Accent Conversion with Factorized Speech Codec 🔥 8.0/10 | 前25% | #语音转换 | #扩散模型 | #零样本 #语音编解码器 ...

2026-04-29 · 更新于 2026-06-12 · 5 min · 962 words

Leveraging Text-to-Speech and Voice Conversion as Data Augmentation for Alzheimer's Disease Detection from Spontaneous Speech

📄 Leveraging Text-to-Speech and Voice Conversion as Data Augmentation for Alzheimer’s Disease Detection from Spontaneous Speech #语音生物标志物 #数据增强 #语音合成 #语音转换 #语音识别 ✅ 7.0/10 | 前50% | #语音生物标志物 | #数据增强 | #语音合成 #语音转换 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度 中 👥 作者与机构 第一作者:Sina Rashidi(哥伦比亚大学欧文医学中心) 通讯作者:未说明 作者列表:Sina Rashidi(哥伦比亚大学欧文医学中心),Yasaman Haghbin(哥伦比亚大学欧文医学中心),Hossein Azadmaleki(哥伦比亚大学欧文医学中心),Ali Zolnour(哥伦比亚大学欧文医学中心),Maryam Zolnoori(哥伦比亚大学欧文医学中心) 💡 毒舌点评 论文的亮点在于直击临床语音数据稀缺的痛点,巧妙地将大语言模型生成诊断特定文本与语音合成/转换相结合,构成了一套针对ADRD检测的端到端增强框架,并在实验中展示了显著的性能提升。然而,其短板在于作为一篇方法论论文,对生成数据可能引入的分布偏移、领域外泛化性,以及临床部署中至关重要的伦理与隐私风险讨论不足,且关键的复现细节(如完整训练脚本、生成样本的定性评估)缺失,使其更多像一个成功的系统集成案例,而非深入的方法学探索。 🔗 开源详情 代码:论文中未提及代码链接。 模型权重:未提及公开权重。 数据集:使用的是公开���DementiaBank Pitt Corpus和ADReSSo 2021测试集。 Demo:未提供在线演示。 复现材料:论文描述了方法框架和部分参数(如SpecAugment设置、特征选择),但缺乏完整的训练脚本、配置文件和超参数搜索细节。 论文中引用的开源项目:提到了以下开源工具/模型:WhisperX, LLaMA-3.1-405B (用于说话人分离), mGTE, mHuBERT, Whisper, LLaMA-3.1-8B-Instruct, medGemma-27B-it, SparkTTS-0.5B, OpenVoice。 📌 核心摘要 问题:基于语音的阿尔茨海默病及相关痴呆(ADRD)检测受限于高质量患者语音数据的稀缺,这限制了深度学习模型(尤其是Transformer)的性能。 方法核心:提出两种生成式语音数据增强管道:(1) TTS管道:先微调LLM(如LLaMA-3.1-8B、medGemma-27B)生成诊断特定的合成文本,再通过零样本TTS(SparkTTS)生成语音;(2) 语音转换(VC)管道:通过基于声学特征的图论配对,使用OpenVoice在说话人之间转换语音,以增加声学多样性同时保留语言内容。 新在哪里:相比传统的SpecAugment等信号域扰动方法,生成式方法能提供更丰富的、具有临床相关性的语言与声学变异性。TTS管道创新性地引入了LLM生成诊断特定文本来驱动语音合成。 主要实验结果:在DementiaBank Pitt Corpus训练,ADReSSo 2021测试集上评估。TTS管道在纯声学模型(SpeechCARE-Whisper)上取得最佳性能,Micro-F1从80.2%提升至90.1%,F1-ADRD从82.9%提升至90.4%。多模态模型(SpeechCARE-AGF)在TTS+VC组合下取得最佳性能(Micro-F1 84.5%)。关键对比如下表: 模型 方法 Micro-F1 (%) F1-ADRD (%) SpeechCARE-AGF 基线 77.4 75.0 TTS管道 78.8 76.1 VC管道 78.8 76.9 TTS+VC 84.5 84.5 SpeechCARE-Whisper 基线 80.2 82.9 频率掩蔽 85.9 87.1 时间掩蔽 87.3 88.3 时间偏移 85.9 87.1 TTS管道 90.1 90.4 VC管道 90.1 90.1 TTS+VC 90.1 90.1 实际意义:为构建可扩展、非侵入性的ADRD语音筛查工具提供了数据层面的解决方案,有助于缓解临床数据收集的困难。 主要局限性:生成语音的质量和保真度未进行详细评估;方法高度依赖于生成模型(LLM, TTS)的质量和可用性;未探讨模型在不同口音、语言及更多样化人群上的泛化能力;伦理考量(如使用合成医疗数据)讨论有限。 🏗️ 模型架构 论文主要描述了两个用于ADRD检测的下游分类模型架构,以及用于数据增强的生成管道。 ...

2026-04-29 · 更新于 2026-06-12 · 2 min · 307 words

Lightweight and Perceptually-Guided Voice Conversion for Electro-Laryngeal Speech

📄 Lightweight and Perceptually-Guided Voice Conversion for Electro-Laryngeal Speech #语音转换 #语音增强 #自监督学习 #低资源 #领域适应 ✅ 7.5/10 | 前25% | #语音转换 | #自监督学习 | #语音增强 #低资源 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Benedikt Mayrhofer(格拉茨理工大学 信号处理与语音通信实验室;维也纳医科大学 综合人工智能医学中心) 通讯作者:未说明(论文提供了多位作者的邮箱,未明确指定通讯作者) 作者列表:Benedikt Mayrhofer(格拉茨理工大学 信号处理与语音通信实验室;维也纳医科大学 综合人工智能医学中心)、Franz Pernkopf(格拉茨理工大学 信号处理与语音通信实验室)、Philipp Aichinger(维也纳医科大学 耳鼻喉科,语音学与语言治疗科;维也纳医科大学 综合人工智能医学中心)、Martin Hagmüller(格拉茨理工大学 信号处理与语音通信实验室;维也纳医科大学 综合人工智能医学中心) 💡 毒舌点评 这篇论文的亮点在于精准的“临床需求驱动工程适配”,它没有空谈大模型,而是针对电子喉语音的具体缺陷(无F0、机械噪声),对现有流式架构StreamVC进行了务实而有效的“减法”改造(移除音高/能量模块)和“加法”增强(感知引导损失),实验设计严谨且消融分析充分。短板在于创新更多是“组合”与“调优”,缺乏一个能引发范式思考的核心算法突破,且模型在韵律生成和极端噪声下的可懂度方面仍有明显差距。 🔗 开源详情 代码:论文中提供了项目主页链接 https://spsc-tugraz.github.io/lw-elvc-icassp26/,其中可能包含代码。论文正文提到模型代码基于一个非官方StreamVC实现2(https://github.com/yuval-reshef/StreamVC),但未明确说明本文所有组件的代码是否完全开源。 模型权重:未提及是否公开预训练或微调后的模型权重。 数据集:使用了公开的德语语料(Common Voice, HUI, MLS)和公开的EL-HE平行数据库[20]。论文未提及自建新数据集。 Demo:未提及在线演示。 复现材料:论文给出了详细的超参数设置(学习率、批大小、训练步数、优化器参数、模型大小等)、数据预处理流程(对齐、增强)和损失函数组合,复现信息较为充分。 论文中引用的开源项目:StreamVC非官方实现、mHuBERT-147、Whisper、FCPE音高估计器、FastSpeech2(未直接使用,但在相关工作提及)。 📌 核心摘要 这篇论文针对喉切除患者使用的电子喉(EL)语音存在音高单调、韵律缺失和机械噪声的问题,提出了一种轻量级且感知引导的语音转换(VC)方法。其核心方法是在现有的流式Voice Conversion架构StreamVC基础上进行针对性适配:1)移除了不适用于EL语音的音高(F0)和能量估计模块以简化模型;2)设计了一种利用Whisper编码器特征和DTW对EL-HE(健康语音)平行数据进行时间对齐的预处理流程;3)在训练中引入了包括WavLM感知损失、人类反馈(HF)损失、可懂度损失等多种感知引导损失函数。与已有方法相比,本文的新意在于为EL语音转换这一特殊场景提供了端到端的轻量级流式解决方案,并系统评估了不同感知损失组合的影响。实验结果表明,最佳模型配置(+WavLM+HF)将EL语音的字符错误率(CER)从88.2%大幅降低至41.9%,将自然度评分(nMOS)从1.1提升至3.3,显著缩小了与健康语音的差距。其实际意义在于为语音康复提供了一种低延迟、轻量化的潜在工具。主要局限性是韵律生成和极端条件下的可懂度仍是瓶颈。 ...

2026-04-29 · 更新于 2026-06-12 · 2 min · 388 words