Conditional Diffusion Models for Mental Health-Preserving Voice Conversion
📄 Conditional Diffusion Models for Mental Health-Preserving Voice Conversion #语音转换 #扩散模型 #语音匿名化 #语音生物标志物 #零样本 🔥 8.0/10 | 前25% | #语音转换 | #扩散模型 | #语音匿名化 #语音生物标志物 学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0 | 置信度 高 👥 作者与机构 第一作者:Siddharth Kalyanasundaram(科罗拉多大学博尔德分校认知科学与计算机科学研究所) 通讯作者:未说明(从邮箱格式和惯例推断,Theodora Chaspari可能为通讯作者,但论文未明确标注) 作者列表:Siddharth Kalyanasundaram(科罗拉多大学博尔德分校认知科学与计算机科学研究所)、Theodora Chaspari(科罗拉多大学博尔德分校认知科学与计算机科学研究所) 💡 毒舌点评 这篇论文巧妙地将扩散模型用于一个“政治正确”但技术挑战十足的场景——在给抑郁症语音“变声”脱敏的同时,还要保住其病情线索,想法和落点都值得称赞。但遗憾的是,模型的训练“粮草”太少(仅28小时语音),导致其在通用语音质量(自然度、可懂度)上略逊于“吃得多”的基线,显得“巧妇难为无米之炊”。 📌 核心摘要 解决的问题:语音是心理健康(如抑郁症)的重要生物标志物,但包含说话人身份等敏感信息,阻碍了数据共享与研究复现。需要在匿名化语音的同时,保留对心理健康研究至关重要的副语言信息。 方法核心:提出一种基于条件扩散模型(DM)的语音转换(VC)框架。首先,将语音解耦为内容(w2v)、音高(f0)、说话人身份(s)和抑郁(d)四个嵌入表示。然后,以目标说话人嵌入(s’)和抑郁嵌入(d)作为条件,指导扩散模型的反向去噪过程,生成既改变身份又保留抑郁线索的新语音。 与已有方法的新意:首次将扩散模型应用于明确保留抑郁线索的语音转换任务。现有VC方法(如基于VAE、GAN的模型)在匿名化时会严重退化副语言信息(如情绪、抑郁线索),而本文通过将抑郁嵌入作为扩散过程的显式条件,实现了对关键生物标志物的保护。 主要实验结果:在未见说话人的零样本设置下,所提模型(DM-23M, DM-67M)与SOTA基线(Vevo-Voice, QuickVC)在语音可懂度(WER/CER)和说话人相似度(SECS)上表现相当。核心优势在于抑郁信息保留:所提模型转换后语音的抑郁严重程度(PHQ-8)预测平均绝对误差(MAE)显著低于基线(DM-23M:5.025 vs. Vevo-Voice:5.478, QuickVC:5.804),且预测分数分布与原始语音更接近(KL散度约0.06 vs. 24+)。 模型 WER ↓ CER ↓ SECS ↑ PHQ-8 MAE ↓ nMOS ↑ sMOS ↑ 原始语音 0.046 0.025 0.872 4.522 4.17 3.85 Vevo-Voice 0.078 0.043 0.850 5.478 4.14 3.74 QuickVC 0.059 0.046 0.731 5.804 4.04 3.59 DM-23M (本文) 0.082 0.047 0.804 5.025 3.97 3.71 DM-67M (本文) 0.068 0.041 0.829 5.055 4.03 3.78 实际意义:为心理健康研究提供了一种潜在的隐私保护工具,可以在保护参与者隐私的前提下,促进脱敏语音数据的共享与分析,有助于推动该领域的研究复现和跨机构合作。 主要局限性:训练数据规模较小(仅28小时),限制了模型生成语音的自然度和可懂度;仅针对抑郁症进行评估,未验证对其他副语言信息(如情绪、认知状态)的保留能力;隐私-效用权衡(EER指标)显示匿名化程度还有提升空间。 🏗️ 模型架构 论文提出的模型架构遵循“源-滤波器”分解框架,并采用扩散模型进行条件生成。整体流程如图1所示。 ...