Bangla-WhisperDiar: Fine-Tuning Whisper and PyAnnote for Bangla Long-Form Speech Recognition and Speaker Diarization
📄 Bangla-WhisperDiar: Fine-Tuning Whisper and PyAnnote for Bangla Long-Form Speech Recognition and Speaker Diarization #语音识别 #说话人日志 #低资源 #数据增强 #迁移学习 📝 5.5/10 | 前50% | #语音识别 #说话人日志 | #迁移学习 #数据增强 | #语音识别 #说话人日志 | arxiv 学术质量 5.5/8 | 影响力 0.8/2 | 可复现性 0.8/1 | 置信度 高 👥 作者与机构 第一作者:Mohammed Aman Bhuiyan(North South University, Department of ECE) 通讯作者:论文中未明确指定 作者列表:Mohammed Aman Bhuiyan(North South University, Department of ECE),Md Sazzad Hossain Adib(North South University, Department of ECE),Samiul Basir Bhuiyan(North South University, Department of ECE),Amit Chakraborty(North South University, Department of ECE),Aritra Islam Saswato(North South University, Department of ECE),Ahmed Faizul Haque Dhrubo(North South University, Department of ECE),Mohammad Ashrafuzzaman Khan(North South University, Department of ECE) 💡 毒舌点评 亮点:本文作为一篇竞赛报告,系统性地整合了主流工具链(Whisper + PyAnnote),并针对孟加拉语这一低资源语言场景进行了细致的工程适配(如文本规范化、ASR引导的对齐、全面的数据增强),最终在特定竞赛集上取得了显著的性能提升,体现了较强的工程实践能力和问题解决导向。方法描述详尽,流程图清晰,代码开源。 短板:核心方法本质上是“在预训练模型上微调 + 设计数据增强流水线”,缺乏本质性的算法或理论创新。部分关键设计选择(如仅微调说话人日志的分段模型)虽经实验证明有效,但缺乏充分的消融实验支撑,使其贡献更偏向于特定场景的“配方优化”而非普适性方法论的突破。论文自身在局限性部分的表述存在前后矛盾(关于是否进行了全参数微调),且验证集过小的问题直接影响了结论的可靠性。 ...