语音转换 | 语音/音乐/音频论文速递

TVTSyn: Content-Synchronous Time-Varying Timbre for Streaming Voice Conversion and Anonymization

📄 TVTSyn: Content-Synchronous Time-Varying Timbre for Streaming Voice Conversion and Anonymization #语音转换 #语音匿名化 #自监督学习 #端到端 #流式处理 ✅ 7.5/10 | 前25% | #语音转换 | #端到端 | #语音匿名化 #自监督学习学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度高 👥 作者与机构第一作者：Waris Quamer (德克萨斯A&M大学计算机科学与工程系) 通讯作者：未说明作者列表：Waris Quamer (德克萨斯A&M大学计算机科学与工程系)、Mu-Ruei Tseng (德克萨斯A&M大学计算机科学与工程系)、Ghady Nasrallah (德克萨斯A&M大学计算机科学与工程系)、Ricardo Gutierrez-Osuna (德克萨斯A&M大学计算机科学与工程系) 💡 毒舌点评亮点：论文一针见血地指出了流式语音转换/匿名化系统中“静态说话人嵌入 vs 动态内容嵌入”这一核心矛盾，并为此设计了一个逻辑自洽、模块化的优雅解决方案（TVT表示），将说话人条件也“动态化”。短板：虽然方法新颖，但其“内容同步时变音色”的精细控制（如选择性屏蔽情绪而保留性别特征）尚停留在愿景层面，未在实验中验证；此外，论文的实证主要局限于英文和特定数据集，对于该方法在复杂多语言、多说话人交互场景下的泛化能力缺乏探讨。 🔗 开源详情代码：论文中未提及代码链接。模型权重：未提及公开的预训练模型权重。数据集：使用了公开数据集LibriTTS， LibriSpeech， VoxCeleb等，但论文中未提供其处理脚本或专用数据集。 Demo：提供了音频样例演示页面链接：https://anonymized0826.github.io/TVTSyn/ 复现材料：论文附录提供了非常详细的架构配置（表5）和流式实现细节（表6），包括超参数、模块尺寸、缓存机制等，为复现提供了重要信息。但未提供训练脚本、配置文件或检查点。引用的开源项目：依赖的开源项目包括SpeechBrain（用于预训练说话人编码器）和fairseq（用于HuBERT模型获取伪标签）。总体：论文中未提及完整的开源计划，尽管提供了详尽的架构细节和音频样例，但缺乏核心代码和模型，可复现性受限。 📌 核心摘要解决的问题：当前的实时语音转换（VC）和说话人匿名化（SA）系统存在核心的表征失配问题：语言内容是时变的序列，而说话人身份通常作为静态的全局向量注入。这种动态-静态失配会导致合成语音音色过度平滑、表现力下降，并影响匿名化效果与语音自然度之间的平衡。方法核心：提出了TVTSyn，一个端到端的流式语音合成器。其核心是引入了内容同步的时变音色（TVT）表示：通过一个全局音色记忆（GTM）将全局说话人嵌入扩展为多个紧凑的“音色面”；帧级内容特征通过注意力机制检索相关的音色面；一个学习的门控调节音色变化的程度；并通过球面线性插值（Slerp）在全局和时变路径之间平滑过渡，以保持身份几何结构。此外，采用分解向量量化（VQ）瓶颈来正则化内容网络，减少残余说话人信息泄漏。与已有方法的创新点：表示创新：首次在流式VC/SA中提出让说话人条件与内容在时间粒度上对齐，从根本上解决动态-静态失配问题。架构创新：设计了完全因果、低延迟的流式架构（GPU延迟<80ms），集成了GTM、VQ瓶颈和音高/能量预测器，实现了自然度、说话人保真度和匿名化强度之间的平衡。全面评估：在VC和SA任务上，针对感知质量、说话人相似度、隐私（EER）、效用（WER）和实时性能进行了全面基准测试和消融研究。主要实验结果：在VC任务上，TVTSyn在人类听测中获得了最高MOS（3.82）和说话人可验证率（74.33%）。在SA任务上（遵循VPC‘24协议），TVTSyn在保持高可懂度（WER=5.35%，优于所有流式基线）的同时，取得了有竞争力的匿名化效果（EER-lazy: 47.55%）。消融实验显示，移除TVT或VQ会显著降低合成自然度（MOS从3.91降至3.42-3.45）。流式性能方面，TVTSyn在GPU上延迟约79ms，实时因子（RTF）为0.308，满足实时要求。实际意义：该工作为需要实时、低延迟的语音隐私保护（如安全通信、匿名会议）和高表现力语音转换（如配音、个性化合成）场景提供了一个可扩展的解决方案，展示了在严格延迟预算下实现隐私-效用更好平衡的可能性。主要局限性：1）论文展望了更精细的、可控的匿名化（如选择性屏蔽情绪但保留性别��，但未进行实验验证。2）主要实验在英文数据集上进行，对多语言和跨语言场景的适用性未被探讨。3）在匿名化任务中使用了固定的28个伪说话人，未来可结合生成模型进行更丰富的伪说话人生成。 🏗️ 模型架构 TVTSyn是一个端到端的流式语音转换/匿名化系统，包含四个核心模块（见图1）： ...

Accent Conversion: A Problem-Driven Survey of Sociolinguistic and Technical Constraints

📄 Accent Conversion: A Problem-Driven Survey of Sociolinguistic and Technical Constraints #语音转换 #语音合成 #综述 #跨语言 ✅ 7.5/10 | 前50% | #语音转换 | #综述 | #语音合成 #跨语言 | arxiv 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度中 👥 作者与机构第一作者：Yurii Halychanskyi（伊利诺伊大学厄巴纳-香槟分校，西贝尔计算与数据科学学院，国家超级计算应用中心）通讯作者：Yurii Halychanskyi（同上）作者列表：Yurii Halychanskyi（伊利诺伊大学厄巴纳-香槟分校，西贝尔计算与数据科学学院，国家超级计算应用中心）、Jianfeng Steven Guo（伊利诺伊大学厄巴纳-香槟分校，西贝尔计算与数据科学学院，国家超级计算应用中心）、Volodymyr Kindratenko（伊利诺伊大学厄巴纳-香槟分校，西贝尔计算与数据科学学院，国家超级计算应用中心，东亚语言文化系） 💡 毒舌点评亮点：成功地将口音转换这一技术问题，嵌入到社会语言学约束（偏见、公平）和技术瓶颈（对齐、解耦、低资源）的双重框架中进行系统性梳理，视角比传统工程综述更深刻。短板：本质上是对现有工作的“重新包装”和“排序”，缺乏算法层面的新见解或对某一具体问题的深度技术突破，对于寻求具体模型设计灵感的读者帮助有限。 🔗 开源详情代码：论文中未提及代码链接。该论文是一篇综述文章，未提出新的算法或开源代码仓库。模型权重：论文中未提及。数据集：论文在第7节“Datasets”和表1中总结并引用了多个常用于口音转换研究的英语语音数据集。这些数据集为第三方公开数据集，论文本身未提供新的数据集或直接下载链接。具体引用的数据集及其获取途径（根据论文引用推断）如下： VCTK: https://datashare.ed.ac.uk/handle/10283/3443 (论文引用 [VCTK]) Common Voice: https://commonvoice.mozilla.org/ (论文引用 [CommonVoice]) Speech Accent Archive (SAA): https://accent.gmu.edu/ (论文引用中对应为 [47]，指向A.C. Cohn的论文) CMU Arctic: http://www.festvox.org/cmu_arctic/ (论文引用 [CMU-Arctic]) L2-Arctic: https://btsync.csl.illinois.edu/BTSync/publicpage/publicprojects/L2-ARCTIC.html (论文引用 [L2-Arctic]) AccentDB: https://github.com/rahuly1/AccentDB (论文引用 [AccentDB]) UME-ERJ: 论文中提及但未给出明确链接，通常需通过原论文获取。 LibriLight, LibriSpeech, LibriTTS, LibriTTS-R, LJSpeech: 这些是常用于语音合成与识别的通用数据集，并非为口音转换专门设计，但论文指出AC研究常借用它们。获取链接如 LibriSpeech 等，但论文本身未给出。 Demo：论文中未提及。复现材料：论文中未提及。该论文为综述，未提供自身的实验细节、训练配置或检查点。论文中引用的开源项目：论文主要引用了数据集和方法（如DTW、PSOLA等），并未明确引用除数据集外的其他独立开源项目或工具。因此，此部分标记为“未提及”。补充信息 [核心摘要/细节详述] 补充：论文第5节明确阐述了口音转换（AC）与其他语音处理任务的具体关系，指出： ...

DiffAnon: Diffusion-based Prosody Control for Voice Anonymization

📄 DiffAnon: Diffusion-based Prosody Control for Voice Anonymization #语音匿名化 #扩散模型 #语音转换 #说话人验证 ✅ 7.5/10 | 前25% | #语音匿名化 | #扩散模型 | #语音转换 #说话人验证 | arxiv 学术质量 6.0/7 | 选题价值 2.0/2 | 复现加成 1.0 | 置信度高 👥 作者与机构第一作者：Ismail Rasim Ulgen（约翰斯·霍普金斯大学，语言与语音处理中心）通讯作者：未说明（论文未明确指定通讯作者，但Berrak Sisman为最后作者）作者列表：Ismail Rasim Ulgen（约翰斯·霍普金斯大学，语言与语音处理中心；人类语言技术卓越中心），Zexin Cai（约翰斯·霍普金斯大学），Nicholas Andrews（约翰斯·霍普金斯大学，语言与语音处理中心；人类语言技术卓越中心），Philipp Koehn（约翰斯·霍普金斯大学，语言与语音处理中心），Berrak Sisman（约翰斯·霍普金斯大学，语言与语音处理中心；人类语言技术卓越中心） 💡 毒舌点评亮点在于它巧妙地将分类器无关引导（CFG）这一图像生成领域的控制技术迁移到了语音匿名化任务中，首次实现了在单个模型内对韵律保留程度的连续、推理时控制，为解决隐私-效用权衡这一核心矛盾提供了优雅的工程化方案。短板是实验仅验证了韵律这一个属性对权衡曲线的影响，而论文承认“说话人条件”和“韵律条件”之间可能存在纠缠（说话人编码器本身可能泄露韵律信息），且其在极端匿名化设置下的实用性（如高失真、低可懂度）尚需更全面的评估。 🔗 开源详情代码：提供代码仓库链接：https://github.com/lightensyrup/diffanon.git 模型权重：论文提到将公开预训练模型（“We publicly release the codes and pretrained models to enable reproducibility.”）。数据集：使用LibriTTS（训练）和LibriSpeech（评估）数据集，均为公开数据集。IEMOCAP也是公开数据集。 Demo：未提及。复现材料：提供了关键训练细节（数据集、训练步数、学习率、batch size、硬件、CFG训练策略）和推理设置（采样器、步数）。架构细节（网络层数、维度）也有描述。论文中引用的开源项目：SpeechTokenizer（语音编解码器）、FreeVC（说话人编码器）、Masked Prosody Model (MPM)（韵律模型）、NaturalSpeech2（扩散模型架构参考）、SpeechBrain（用于WER评估的ASR系统）。 📌 核心摘要本文旨在解决语音匿名化中一个核心矛盾：韵律（传递情感与意义）的保留对语用性至关重要，但同时也容易泄露说话人身份，导致隐私与效用难以兼顾。现有方法通常静态地处理韵律（丢弃、隐式保留或随机扰动），缺乏灵活的控制机制。为此，作者提出了DiffAnon，一个基于扩散模型的匿名化框架，其核心创新在于利用分类器无关引导（CFG）在推理时对源语音的韵律保留强度进行显式、连续的控制。该模型在RVQ语音编解码器的语义嵌入（Q1）之上，通过扩散过程细化声学细节（Q2-8），并同时受内容、韵律和说话人条件约束。通过在训练时随机丢弃条件，并在推理时应用CFG公式，实现了对生成语音中韵律成分的“旋钮式”调节。在VoicePrivacy 2024挑战赛评估中，DiffAnon展示了清晰的权衡趋势：随着韵律引导权重降低，隐私性提升（例如libri-test懒惰攻击EER从33.09%增至42.43%），而韵律保真度下降（F0相关性从75.58%降至62.45%，情绪识别UAR从50.80%降至45.23%），同时内容可懂度（WER）保持在相对稳定的低水平（4.62%至5.61%）。这证明了DiffAnon能在单一模型内系统化地导航隐私-效用曲线。主要局限在于其实验集中于英语数据集，且对韵律与说话人信息的解耦程度尚有疑问。 ...

Conditional Diffusion Models for Mental Health-Preserving Voice Conversion

📄 Conditional Diffusion Models for Mental Health-Preserving Voice Conversion #语音转换 #扩散模型 #语音匿名化 #语音生物标志物 #零样本 🔥 8.0/10 | 前25% | #语音转换 | #扩散模型 | #语音匿名化 #语音生物标志物学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0 | 置信度高 👥 作者与机构第一作者：Siddharth Kalyanasundaram（科罗拉多大学博尔德分校认知科学与计算机科学研究所）通讯作者：未说明（从邮箱格式和惯例推断，Theodora Chaspari可能为通讯作者，但论文未明确标注）作者列表：Siddharth Kalyanasundaram（科罗拉多大学博尔德分校认知科学与计算机科学研究所）、Theodora Chaspari（科罗拉多大学博尔德分校认知科学与计算机科学研究所） 💡 毒舌点评这篇论文巧妙地将扩散模型用于一个“政治正确”但技术挑战十足的场景——在给抑郁症语音“变声”脱敏的同时，还要保住其病情线索，想法和落点都值得称赞。但遗憾的是，模型的训练“粮草”太少（仅28小时语音），导致其在通用语音质量（自然度、可懂度）上略逊于“吃得多”的基线，显得“巧妇难为无米之炊”。 🔗 开源详情代码：论文中未提及代码链接。模型权重：未提及公开权重。数据集：使用了E-DAIC-WOZ数据集，这是一个公开但需要申请获取的数据集（论文未提供获取方式）。 Demo：提供在线演示链接：https://sidks.github.io/icassp26_vcdemo/。复现材料：给出了模型规模（23M/67M）、优化器（AdamW）、学习率（5e-5）、训练轮数（446）、批大小（32）、训练硬件（单A100）和时长（72小时）等关键信息。论文中引用的开源项目/工具：引用了XLS-R (Wav2Vec 2.0)、VQ-VAE、YAAPT、OpenSMILE（eGeMAPS特征）、Whisper、StyleEncoder、Vevo-Voice、QuickVC等相关模型或工具，但未指明本文是否直接依赖这些项目的开源代码。整体开源情况：论文中未提及完整的开源计划。 📌 核心摘要解决的问题：语音是心理健康（如抑郁症）的重要生物标志物，但包含说话人身份等敏感信息，阻碍了数据共享与研究复现。需要在匿名化语音的同时，保留对心理健康研究至关重要的副语言信息。方法核心：提出一种基于条件扩散模型（DM）的语音转换（VC）框架。首先，将语音解耦为内容（w2v）、音高（f0）、说话人身份（s）和抑郁（d）四个嵌入表示。然后，以目标说话人嵌入（s’）和抑郁嵌入（d）作为条件，指导扩散模型的反向去噪过程，生成既改变身份又保留抑郁线索的新语音。与已有方法的新意：首次将扩散模型应用于明确保留抑郁线索的语音转换任务。现有VC方法（如基于VAE、GAN的模型）在匿名化时会严重退化副语言信息（如情绪、抑郁线索），而本文通过将抑郁嵌入作为扩散过程的显式条件，实现了对关键生物标志物的保护。主要实验结果：在未见说话人的零样本设置下，所提模型（DM-23M， DM-67M）与SOTA基线（Vevo-Voice， QuickVC）在语音可懂度（WER/CER）和说话人相似度（SECS）上表现相当。核心优势在于抑郁信息保留：所提模型转换后语音的抑郁严重程度（PHQ-8）预测平均绝对误差（MAE）显著低于基线（DM-23M：5.025 vs. Vevo-Voice：5.478, QuickVC：5.804），且预测分数分布与原始语音更接近（KL散度约0.06 vs. 24+）。模型 WER ↓ CER ↓ SECS ↑ PHQ-8 MAE ↓ nMOS ↑ sMOS ↑ 原始语音 0.046 0.025 0.872 4.522 4.17 3.85 Vevo-Voice 0.078 0.043 0.850 5.478 4.14 3.74 QuickVC 0.059 0.046 0.731 5.804 4.04 3.59 DM-23M (本文) 0.082 0.047 0.804 5.025 3.97 3.71 DM-67M (本文) 0.068 0.041 0.829 5.055 4.03 3.78 实际意义：为心理健康研究提供了一种潜在的隐私保护工具，可以在保护参与者隐私的前提下，促进脱敏语音数据的共享与分析，有助于推动该领域的研究复现和跨机构合作。主要局限性：训练数据规模较小（仅28小时），限制了模型生成语音的自然度和可懂度；仅针对抑郁症进行评估，未验证对其他副语言信息（如情绪、认知状态）的保留能力；隐私-效用权衡（EER指标）显示匿名化程度还有提升空间。 🏗️ 模型架构论文提出的模型架构遵循“源-滤波器”分解框架，并采用扩散模型进行条件生成。整体流程如图1所示。 ...

CosyAccent: Duration-Controllable Accent Normalization using Source-Synthesis Training Data

📄 CosyAccent: Duration-Controllable Accent Normalization using Source-Synthesis Training Data #语音转换 #流匹配 #语音合成 #数据增强 #非自回归 ✅ 7.8/10 | 前25% | #语音转换 | #流匹配 | #语音合成 #数据增强学术质量 7.8/7 | 选题价值 7.5/2 | 复现加成 0.8 | 置信度高 👥 作者与机构第一作者：Qibing Bai（香港中文大学（深圳）数据科学学院、腾讯天籁音频实验室）通讯作者：Shuai Wang（南京大学智能科学与技术学院，标注†）作者列表：Qibing Bai（香港中文大学（深圳）数据科学学院、腾讯天籁音频实验室）、Shuhao Shi（香港中文大学（深圳）数据科学学院）、Shuai Wang（南京大学智能科学与技术学院）、Yukai Ju（腾讯天籁音频实验室）、Yannan Wang（腾讯天籁音频实验室）、Haizhou Li（香港中文大学（深圳）数据科学学院、深圳市大数据研究院、香港中文大学（深圳）高等金融研究院） 💡 毒舌点评亮点在于“源合成”数据策略的构思巧妙——通过合成非母语语音来使用纯净母语语音作为目标，从根本上规避了TTS伪影污染，这一思路颇具启发性。短板则是其宣称的“无需真实L2数据”在泛化到真实、多样且含噪声的L2语音时可能面临挑战，且模型在说话人相似度上略逊于基线。 🔗 开源详情代码：提供了GitHub代码仓库链接：https://github.com/P1ping/CosyAccent。模型权重：论文中未明确提及是否公开预训练模型权重。数据集：论文中描述了使用LibriTTS-R和L2-ARCTIC构建合成数据集的方法，但未明确说明是否公开最终的合成数据集。 Demo：提供了在线演示链接：https://p1ping.github.io/CosyAccent-Demo。复现材料：论文详细描述了模型架构、数据构建流水线、关键训练技术（CTC损失、位置缩放、CFG）。但未提供训练的具体超参数（如学习率、Batch size）、训练硬件信息和检查点。论文中引用的开源项目： CosyVoice2 [19]：用于合成L2语音的提示式TTS模型。 Whisper [27]：用作冻结的语音编码器前端。 Resemblyzer：用于提取说话人嵌入。 HiFTNet [34]：用作声码器。其他基准模型代码：FramAN [13], TokAN [18]。论文中未提及开源计划的其他方面：如合成数据集权重。 📌 核心摘要这篇论文针对口音归一化（AN）中训练数据稀缺和时长建模生硬两大挑战，提出了一种新的解决方案。核心方法包括：1）提出“源合成”训练数据构建策略，使用强大的提示式TTS（CosyVoice2）从大规模母语语料中合成非母语语音，从而在完全不使用真实L2数据的情况下，构建以高质量母语语音为目标的平行训练对。2）提出了CosyAccent模型，一个基于流匹配的非自回归（NAR）系统，它通过隐式韵律建模保证自然度，并引入“位置缩放”技术实现对输出总时长的显式控制。实验结果显示，尽管未使用真实L2数据训练，CosyAccent在内容保持（WER降至12.96% vs. 基线16.21%）和自然度（主观NAT评分64.62）上显著优于使用真实数据的基线模型。该工作证明了合成数据策略的有效性，为减少对稀缺口音数据的依赖提供了新途径。其主要局限性在于合成数据可能缺乏真实L2语音的声学复杂性和副语言特征。 ...

Expressive Voice Conversion with Controllable Emotional Intensity

📄 Expressive Voice Conversion with Controllable Emotional Intensity #语音转换 #数据增强 #注意力机制 #语音情感识别 #自监督学习 ✅ 7.5/10 | 前25% | #语音转换 | #数据增强 | #注意力机制 #语音情感识别学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Nannan Teng（丝绸之路多语种认知计算联合国际研究实验室，新疆大学计算机科学与技术学院）通讯作者：Ying Hu（丝绸之路多语种认知计算联合国际研究实验室，新疆大学计算机科学与技术学院）作者列表：Nannan Teng（丝绸之路多语种认知计算联合国际研究实验室，新疆大学计算机科学与技术学院）、Ying Hu（丝绸之路多语种认知计算联合国际研究实验室，新疆大学计算机科学与技术学院）、Zhijian Ou（清华大学电机工程与应用电子技术系）、Sheng Li（东京科学大学工程学院） 💡 毒舌点评这篇论文最亮眼的地方在于它清晰的“问题-方案”对应逻辑：用“特定属性增强”制造更鲁棒的特征，用“联合注意力”优雅地融合并控制说话人与情感风格，最后用“扰动归一化”来提升合成的表现力，模块设计环环相扣且动机明确。短板则在于情感控制的粒度仍显粗糙，一个标量α控制所有情绪类别的强度，缺乏对不同情绪（如“喜悦”与“愤怒”）可能具有不同强度响应曲线的建模，这在一定程度上限制了其实用性和精细度。 🔗 开源详情代码：提供了代码仓库链接：https://tengnn.github.io/ExpressiveVC/。模型权重：论文中未提及是否公开预训练模型权重。数据集：使用ESD英文数据集和RAVDESS数据集进行测试，这两个均为公开数据集，但论文未提供具体的获取或预处理脚本。 Demo：提供了在线演示链接：https://tengnn.github.io/ExpressiveVC/。复现材料：论文提供了方法的基本描述和公式，但缺乏具体的训练细节（如优化器、学习率、批大小、训练时长）和模型配置信息。引用的开源项目：论文未明确列出所有依赖项，但可以推断其使用了Wav2vec 2.0（用于特征提取）、以及可能的HiFi-GAN（作为声码器）等开源模型。 📌 核心摘要解决的问题：现有的表现力语音转换（VC）方法要么专注于说话人身份和情感风格的迁移，要么专注于情感强度的可控调节，未能很好地将两者结合。本文旨在提出一个能同时实现高质量说话人转换、情感迁移，并允许用户精细控制目标情感强度的VC模型。方法核心：提出了CEI-VC模型，包含三个关键组件：a) 特定属性增强（SAA）：通过共振峰偏移和音高单调化等数据扰动策略，增强模型对说话人和情感特征的鲁棒性。b) 情感解耦与强度控制（EDIC）模块：利用解耦损失和基于联合注意力的风格融合机制，将说话人与情感特征分离，并引入可调参数α在推理时控制情感强度。c) 扰动自适应实例归一化（PbAdaIN）：在归一化层中对风格特征施加扰动，提升合成语音的自然度和表现力。与已有方法相比新在哪里：主要新意在于系统性地结合了数据增强、特征解耦与可控生成三个环节。具体创新包括：1）提出了针对性的SAA策略来同时扰动说话人和情感属性；2）设计了UDIA模块，通过联合注意力机制和可调参数实现情感强度的连续控制；3）提出了PbAdaIN，通过在特征归一化时引入可控噪声来增强表达力。主要实验结果：在ESD英语数据集上的实验表明，CEI-VC在多项指标上优于5个对比模型。在Unseen-to-Unseen场景下，其自然度MOS（nMOS）为4.02，情感相似度MOS（eMOS）为3.30，情感嵌入余弦相似度（EECS）为0.6663，均为最佳或次佳。消融实验证明SAA、PbAdaIN和UDIA模块均对性能有显著贡献。通过调节参数α（0.2， 0.5， 0.9），转换语音的平均音高和情感分类准确率随强度增加而变化，验证了情感强度控制的有效性。实际意义：该模型可应用于需要情感表现力和身份控制的语音合成场景，如个性化有声读物生成、影视配音、以及更自然的人机交互对话系统。主要局限性：论文未讨论模型在极短语音或噪声环境下的鲁棒性；情感强度控制机制（标量α）可能对所有情绪类型过于简化；未公开模型权重和详细训练配置，限制了完全复现。 🏗️ 模型架构本文提出的CEI-VC模型整体架构如图1所示。其核心是基于变分自编码器（VAE）和归一化流（Normalizing Flow）的框架，旨在学习并转换语音的说话人、情感和内容特征。 ...

FAC-FACodec: Controllable Zero-Shot Foreign Accent Conversion with Factorized Speech Codec

📄 FAC-FACodec: Controllable Zero-Shot Foreign Accent Conversion with Factorized Speech Codec #语音转换 #扩散模型 #零样本 #语音编解码器 🔥 8.0/10 | 前25% | #语音转换 | #扩散模型 | #零样本 #语音编解码器学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度中 👥 作者与机构第一作者：Yurii Halychanskyi（University of Illinois Urbana-Champaign, The Grainger College of Engineering, Siebel School of Computing and Data Science）通讯作者：未说明作者列表：Yurii Halychanskyi（UIUC）、Cameron Churchwell（UIUC）、Yutong Wen（UIUC）、Volodymyr Kindratenko（UIUC） 💡 毒舌点评亮点在于巧妙地将扩散模型的噪声控制机制转化为口音强度的“旋钮”，首次实现了在口音转换中对“转多少”的显式、平滑控制，这对实际应用非常友好。短板是训练数据“作弊”——只用了美式英语单说话人（LJSpeech），这好比只学会了标准答案却没练习过如何修改各地“方言”作业，其面对真正多样化非母语口音时的泛化能力和适应性存疑，而论文对此缺乏深入验证。 🔗 开源详情代码：提供代码仓库链接：https://claussss.github.io/accent_control_demo/ 模型权重：论文中未提及是否公开预训练模型权重。数据集：训练集LJSpeech和评测集L2-Arctic均为公开数据集，论文中给出了使用方式。 Demo：论文提供的网站链接即为Demo页面（同上）。复现材料：提供了完整的训练细节（优化器、学习率、批大小、epoch数、硬件）、模型架构细节、预处理流程（文本归一化、音素转换、对齐工具），以及关键超参数（网络尺寸、噪声调度、推理步数）。引用的开源项目：Nvidia NeMo文本归一化、Phonemizer、Wav2Vec2 XLSR（对齐）、FACodec、Whisper（评测）、SpeechBrain/WavLM（说话人相似度评测）。 📌 核心摘要问题：现有的口音转换方法缺乏对转换强度的显式控制，难以在“更地道”和“更像本人”之间灵活权衡。方法核心：提出FAC-FACodec框架，利用FACodec将语音解耦，仅对内容（发音）潜变量zc1进行建模。在训练时，模型学习从加噪的zc1中恢复出美式英语的先验分布。在推理时，通过选择初始加噪的时间步t_start来控制转换强度：t_start越大，表示从越“混乱”的状态开始去噪，结果越偏向先验（美式发音），但可能丢失更多原始特征。创新点：这是首个提供用户可控参数来调节口音转换强度的框架；仅需目标口音（美式英语）的语音和转录文本进行训练，实现零样本转换；专注于发音层面的修改，严格保留说话人的韵律和音色。主要实验结果：在L2-Arctic数据集（6种非母语口音）上测试，随着t_start从25增至100，美式口音分类器得分（Acc）从72.22平均提升至89.86，而说话人相似度（SS）从0.97降至0.88，词错误率（WER）从0.07升至0.15，证明了转换强度与身份保留之间的可控权衡。与基线系统相比，在 t_start=100时，本方法在说话人相似度和WER上持平或更优，但在口音得分上通常低于同时重构韵律的系统。关键数据表（节选）： ...

ICASSP 2026 - 语音转换论文列表

ICASSP 2026 - 语音转换共 9 篇论文 ← 返回 ICASSP 2026 总览排名论文评分分档 🥇 FAC-FACodec: Controllable Zero-Shot Foreign Accent Conversio 8.0分前25% 🥈 Conditional Diffusion Models for Mental Health-Preserving Vo 8.0分前25% 🥉 CosyAccent: Duration-Controllable Accent Normalization using 7.8分前25% 4. QE-XVC: Zero-Shot Cross-Lingual Voice Conversion via Query-E 7.5分前25% 5. MeanVC: Lightweight and Streaming Zero-Shot Voice Conversion 7.5分前25% 6. Expressive Voice Conversion with Controllable Emotional Inte 7.5分前25% 7. Lightweight and Perceptually-Guided Voice Conversion for Ele 7.5分前25% 8. MeanVoiceFlow: One-Step Nonparallel Voice Conversion with Me 7.0分前25% 9. MaskVCT: Masked Voice Codec Transformer for Zero-Shot Voice 6.5分前50% 📋 论文详情 🥇 FAC-FACodec: Controllable Zero-Shot Foreign Accent Conversion with Factorized Speech Codec 🔥 8.0/10 | 前25% | #语音转换 | #扩散模型 | #零样本 #语音编解码器 ...

Leveraging Text-to-Speech and Voice Conversion as Data Augmentation for Alzheimer's Disease Detection from Spontaneous Speech

📄 Leveraging Text-to-Speech and Voice Conversion as Data Augmentation for Alzheimer’s Disease Detection from Spontaneous Speech #语音生物标志物 #数据增强 #语音合成 #语音转换 #语音识别 ✅ 7.0/10 | 前50% | #语音生物标志物 | #数据增强 | #语音合成 #语音转换学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度中 👥 作者与机构第一作者：Sina Rashidi（哥伦比亚大学欧文医学中心）通讯作者：未说明作者列表：Sina Rashidi（哥伦比亚大学欧文医学中心），Yasaman Haghbin（哥伦比亚大学欧文医学中心），Hossein Azadmaleki（哥伦比亚大学欧文医学中心），Ali Zolnour（哥伦比亚大学欧文医学中心），Maryam Zolnoori（哥伦比亚大学欧文医学中心） 💡 毒舌点评论文的亮点在于直击临床语音数据稀缺的痛点，巧妙地将大语言模型生成诊断特定文本与语音合成/转换相结合，构成了一套针对ADRD检测的端到端增强框架，并在实验中展示了显著的性能提升。然而，其短板在于作为一篇方法论论文，对生成数据可能引入的分布偏移、领域外泛化性，以及临床部署中至关重要的伦理与隐私风险讨论不足，且关键的复现细节（如完整训练脚本、生成样本的定性评估）缺失，使其更多像一个成功的系统集成案例，而非深入的方法学探索。 🔗 开源详情代码：论文中未提及代码链接。模型权重：未提及公开权重。数据集：使用的是公开��DementiaBank Pitt Corpus和ADReSSo 2021测试集。 Demo：未提供在线演示。复现材料：论文描述了方法框架和部分参数（如SpecAugment设置、特征选择），但缺乏完整的训练脚本、配置文件和超参数搜索细节。论文中引用的开源项目：提到了以下开源工具/模型：WhisperX, LLaMA-3.1-405B (用于说话人分离), mGTE, mHuBERT, Whisper, LLaMA-3.1-8B-Instruct, medGemma-27B-it, SparkTTS-0.5B, OpenVoice。 📌 核心摘要问题：基于语音的阿尔茨海默病及相关痴呆（ADRD）检测受限于高质量患者语音数据的稀缺，这限制了深度学习模型（尤其是Transformer）的性能。方法核心：提出两种生成式语音数据增强管道：(1) TTS管道：先微调LLM（如LLaMA-3.1-8B、medGemma-27B）生成诊断特定的合成文本，再通过零样本TTS（SparkTTS）生成语音；(2) 语音转换（VC）管道：通过基于声学特征的图论配对，使用OpenVoice在说话人之间转换语音，以增加声学多样性同时保留语言内容。新在哪里：相比传统的SpecAugment等信号域扰动方法，生成式方法能提供更丰富的、具有临床相关性的语言与声学变异性。TTS管道创新性地引入了LLM生成诊断特定文本来驱动语音合成。主要实验结果：在DementiaBank Pitt Corpus训练，ADReSSo 2021测试集上评估。TTS管道在纯声学模型（SpeechCARE-Whisper）上取得最佳性能，Micro-F1从80.2%提升至90.1%，F1-ADRD从82.9%提升至90.4%。多模态模型（SpeechCARE-AGF）在TTS+VC组合下取得最佳性能（Micro-F1 84.5%）。关键对比如下表：模型方法 Micro-F1 (%) F1-ADRD (%) SpeechCARE-AGF 基线 77.4 75.0 TTS管道 78.8 76.1 VC管道 78.8 76.9 TTS+VC 84.5 84.5 SpeechCARE-Whisper 基线 80.2 82.9 频率掩蔽 85.9 87.1 时间掩蔽 87.3 88.3 时间偏移 85.9 87.1 TTS管道 90.1 90.4 VC管道 90.1 90.1 TTS+VC 90.1 90.1 实际意义：为构建可扩展、非侵入性的ADRD语音筛查工具提供了数据层面的解决方案，有助于缓解临床数据收集的困难。主要局限性：生成语音的质量和保真度未进行详细评估；方法高度依赖于生成模型（LLM， TTS）的质量和可用性；未探讨模型在不同口音、语言及更多样化人群上的泛化能力；伦理考量（如使用合成医疗数据）讨论有限。 🏗️ 模型架构论文主要描述了两个用于ADRD检测的下游分类模型架构，以及用于数据增强的生成管道。 ...

Lightweight and Perceptually-Guided Voice Conversion for Electro-Laryngeal Speech

📄 Lightweight and Perceptually-Guided Voice Conversion for Electro-Laryngeal Speech #语音转换 #语音增强 #自监督学习 #低资源 #领域适应 ✅ 7.5/10 | 前25% | #语音转换 | #自监督学习 | #语音增强 #低资源学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Benedikt Mayrhofer（格拉茨理工大学信号处理与语音通信实验室；维也纳医科大学综合人工智能医学中心）通讯作者：未说明（论文提供了多位作者的邮箱，未明确指定通讯作者）作者列表：Benedikt Mayrhofer（格拉茨理工大学信号处理与语音通信实验室；维也纳医科大学综合人工智能医学中心）、Franz Pernkopf（格拉茨理工大学信号处理与语音通信实验室）、Philipp Aichinger（维也纳医科大学耳鼻喉科，语音学与语言治疗科；维也纳医科大学综合人工智能医学中心）、Martin Hagmüller（格拉茨理工大学信号处理与语音通信实验室；维也纳医科大学综合人工智能医学中心） 💡 毒舌点评这篇论文的亮点在于精准的“临床需求驱动工程适配”，它没有空谈大模型，而是针对电子喉语音的具体缺陷（无F0、机械噪声），对现有流式架构StreamVC进行了务实而有效的“减法”改造（移除音高/能量模块）和“加法”增强（感知引导损失），实验设计严谨且消融分析充分。短板在于创新更多是“组合”与“调优”，缺乏一个能引发范式思考的核心算法突破，且模型在韵律生成和极端噪声下的可懂度方面仍有明显差距。 🔗 开源详情代码：论文中提供了项目主页链接 https://spsc-tugraz.github.io/lw-elvc-icassp26/，其中可能包含代码。论文正文提到模型代码基于一个非官方StreamVC实现2（https://github.com/yuval-reshef/StreamVC），但未明确说明本文所有组件的代码是否完全开源。模型权重：未提及是否公开预训练或微调后的模型权重。数据集：使用了公开的德语语料（Common Voice, HUI, MLS）和公开的EL-HE平行数据库[20]。论文未提及自建新数据集。 Demo：未提及在线演示。复现材料：论文给出了详细的超参数设置（学习率、批大小、训练步数、优化器参数、模型大小等）、数据预处理流程（对齐、增强）和损失函数组合，复现信息较为充分。论文中引用的开源项目：StreamVC非官方实现、mHuBERT-147、Whisper、FCPE音高估计器、FastSpeech2（未直接使用，但在相关工作提及）。 📌 核心摘要这篇论文针对喉切除患者使用的电子喉（EL）语音存在音高单调、韵律缺失和机械噪声的问题，提出了一种轻量级且感知引导的语音转换（VC）方法。其核心方法是在现有的流式Voice Conversion架构StreamVC基础上进行针对性适配：1）移除了不适用于EL语音的音高（F0）和能量估计模块以简化模型；2）设计了一种利用Whisper编码器特征和DTW对EL-HE（健康语音）平行数据进行时间对齐的预处理流程；3）在训练中引入了包括WavLM感知损失、人类反馈（HF）损失、可懂度损失等多种感知引导损失函数。与已有方法相比，本文的新意在于为EL语音转换这一特殊场景提供了端到端的轻量级流式解决方案，并系统评估了不同感知损失组合的影响。实验结果表明，最佳模型配置（+WavLM+HF）将EL语音的字符错误率（CER）从88.2%大幅降低至41.9%，将自然度评分（nMOS）从1.1提升至3.3，显著缩小了与健康语音的差距。其实际意义在于为语音康复提供了一种低延迟、轻量化的潜在工具。主要局限性是韵律生成和极端条件下的可懂度仍是瓶颈。 ...