An End-to-End Multimodal System for Subtitle Recognition and Chinese-Japanese Translation in Short Dramas
📄 An End-to-End Multimodal System for Subtitle Recognition and Chinese-Japanese Translation in Short Dramas #多模态模型 #端到端 #语音识别 #机器翻译 ✅ 7.0/10 | 前50% | #多模态模型 | #端到端 | #语音识别 #机器翻译 学术质量 5.0/7 | 选题价值 1.5/2 | 复现加成 0.3 | 置信度 中 👥 作者与机构 第一作者:Jing An (北京第二外国语学院人工智能与语言科学学院) 通讯作者:Yanbing Bai (中国人民大学统计学院应用统计研究中心) 作者列表:Jing An (北京第二外国语学院人工智能与语言科学学院)、Haofei Chang (中国人民大学信息学院)、Rui-Yang Ju (京都大学信息学研究生院)、Jinhua Su (中国人民大学统计学院应用统计中心 & Simashuhui Ltd.)、Yanbing Bai (中国人民大学统计学院应用统计研究中心)、Xin Qu (北京第二外国语学院人工智能与语言科学学院) 💡 毒舌点评 亮点:系统设计思路清晰务实,将OCR和ASR两条路径的结果通过简单有效的融合策略进行互补,直接解决了短剧字幕识别中“文字准”与“时间准”难以兼得的痛点。 短板:论文最大的弱点在于“端到端”的宣称与实验的割裂——虽然架构图展示了从视频到日语字幕的流水线,但实验部分的“识别”和“翻译”模块是分开评估的,缺乏对整个系统在端到端指标上的验证;同时,构建的翻译数据集规模极小(仅79集短剧),其泛化能力存疑。 📌 核心摘要 本文针对中国短剧出海所面临的字幕识别与中日翻译难题,提出了一个端到端的多模态系统。问题核心在于短剧字幕具有口语化、无标点、片段化、上下文缺失等特殊性,且识别过程需同时应对复杂画面和背景噪音。方法核心是采用双通道并行识别:视觉通道使用Qwen2-VL进行OCR提取帧内文字,音频通道使用Whisper进行ASR转写,并设计了一种基于时间对齐和文本相似度的融合策略来选择最优结果。随后,通过LoRA微调Qwen2.5模型,在自建的短剧数据集上进行中日翻译。与已有方法相比,该系统的新颖之处在于其多模态融合策略能有效结合OCR的高精度专有名词识别与ASR的流畅性和精准时间戳,同时采用了将整集字幕作为整体输入LLM进行翻译的策略,以保留上下文。主要实验结果显示,融合策略在字幕识别任务上(表1)优于单独的Qwen2-VL和Whisper(CER从0.2984/0.2491降至0.1598);微调后的翻译模型(表2)在chrF++和COMET指标上也优于零样本Qwen2.5基线。该工作的实际意义在于为短剧这一新兴内容的本地化提供了一套可落地的技术方案。其主要局限性在于翻译数据集规模较小,且系统各模块(识别、融合、翻译)是独立评估,未对完整端到端流程进行一体化性能测试与优化。 ...