CTC-DRO: Robust Optimization for Reducing Language Disparities in Speech Recognition

📄 CTC-DRO: Robust Optimization for Reducing Language Disparities in Speech Recognition #语音识别 #多语言 #分布鲁棒优化 #基准测试 #开源工具 🔥 8.0/10 | 前25% | #语音识别 | #分布鲁棒优化 | #多语言 #基准测试 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Martijn Bartelds(斯坦福大学计算机科学系),Ananjan Nandi(斯坦福大学计算机科学系) (论文注明两位作者贡献均等) 通讯作者:Dan Jurafsky(斯坦福大学计算机科学系) 作者列表: Martijn Bartelds(斯坦福大学计算机科学系) Ananjan Nandi(斯坦福大学计算机科学系) Moussa Koulako Bala Doumbouya(斯坦福大学计算机科学系) Dan Jurafsky(斯坦福大学计算机科学系) Tatsunori Hashimoto(斯坦福大学计算机科学系) Karen Livescu(丰田芝加哥理工学院) 💡 毒舌点评 本文精准地诊断了Group DRO在CTC训练中失效的病因——损失值因序列长度和语言特性变得“不可比”,并开出了对症的“药方”(CTC-DRO),在多个语言集上实现了最差语言性能的显著提升,是一次理论动机清晰、工程实现扎实、效果立竿见影的应用创新。然而,CTC-DRO的疗效目前主要验证于6个语言一组的设定,当语言组规模扩大到几十甚至上百时,其权重的平滑机制和“最差语言”的定义是否依然有效,可能需要更严苛的检验;此外,该方法本质上是“优化权衡”,提升最差性能的同时,部分设置下最优语言的性能有轻微波动(尽管统计不显著),这在追求绝对平均或帕累托最优的场景下需谨慎考量。 🔗 开源详情 代码:论文提供了公开的代码仓库链接:https://github.com/Bartelds/ctc-dro。 模型权重:论文提到“newly trained models are publicly available”,并指向了上述GitHub仓库。 数据集:实验使用公开基准ML-SUPERB 2.0,论文详细描述了如何从原始数据中构建实验语言集(附录D),数据本身需从原始来源获取。 Demo:论文中未提及在线演示。 复现材料:论文提供了极详细的复现信息,包括: 算法伪代码(Algorithm 1)。 详尽的实验设置:模型架构(XLS-R, MMS)、训练超参数(学习率、batch duration、梯度累积、epoch数、ηq、α)、评估指标。 数据集划分的具体语言列表(表4)和统计信息(表5, 表6)。 附录中包含更多开发集结果、消融实验细节、训练时间分析等。 论文中引用的开源项目:论文基于XLS-R和MMS预训练模型,使用ML-SUPERB 2.0基准,并提及了ESPnet工具包(用于讨论,非核心依赖)。 📌 核心摘要 问题:现代深度学习模型常在特定子群体上表现不佳。在多语言自动语音识别(ASR)中,不同语言的性能差异显著。分布鲁棒优化(Group DRO)旨在最小化最差组损失,但在ASR中因广泛使用的CTC损失受输入长度及语言声学特性影响,导致各组损失不可比,使Group DRO失效甚至恶化性能。 方法:提出CTC-DRO算法。核心改进有二:一是采用“长度匹配批处理”,确保每个语言组的损失是在大致相同的音频总时长下计算,缓解CTC损失随长度缩放的问题;二是引入“平滑最大化目标”,通过修改组权重更新规则,防止权重过度集中于损失持续偏高的组,从而使权重分布更均衡稳定。 创新:与直接应用Group DRO相比,CTC-DRO首次系统性地解决了CTC损失在多语言场景下的不可比性问题。其平滑更新目标可通过拉格朗日乘数法证明,仍能保证权重与损失成正比,但调整更平滑。 实验结果:在ML-SUPERB 2.0基准的五个语言集上进行评估。CTC-DRO在平衡与不平衡数据设置下均优于基线模型和标准Group DRO。关键结果如下: 最差语言字符错误率(CER)相对基线最高降低47.1%。 平均CER相对基线最高降低32.9%。 标准Group DRO在超过一半的设置中反而提升了最差语言CER和平均CER。 关键结果表格(平衡数据设置): 设置 模型 ηq α 最差语言CER (↓) 平均CER (↓) 1 MMS 基线 - - 60.8% 23.4% 1 MMS Group DRO 10⁻⁴ - 86.6% 30.5% 1 MMS CTC-DRO 10⁻⁴ 1.0 56.8% 22.9% 2 XLS-R 基线 - - 68.8% 19.0% 2 XLS-R Group DRO 10⁻⁴ - 58.8% 21.6% 2 XLS-R CTC-DRO 10⁻⁴ 0.5 45.0% 15.8% 消融实验显示,移除平滑目标或长度匹配批处理都会导致性能大幅下降。 意义:CTC-DRO以极小的计算开销,有效提升了多语言ASR的公平性,对促进数字包容性有积极作用。其思想可推广至其他损失不可比的群组鲁棒优化场景(如医疗AI)。 局限:性能差距虽被缩小但未完全消除;算法性能依赖于预定义的语言组划分;在极端不平衡数据下效果需进一步验证。 🏗️ 模型架构 论文提出的CTC-DRO并非一个新的神经网络模型架构,而是一种用于优化现有基于CTC的ASR模型的训练算法。其核心是修改了Group DRO的优化流程。 ...

2026-05-02 · 更新于 2026-05-19 · 2 min · 374 words