机器翻译 | 语音/音频论文速递

WARDEN: Endangered Indigenous Language Transcription and Translation with 6 Hours of Training Data

📄 WARDEN: Endangered Indigenous Language Transcription and Translation with 6 Hours of Training Data #语音识别 #机器翻译 #低资源 #迁移学习 #濒危语言 #知识增强 ✅ 7.0/10 | 前25% | #语音识别 | #迁移学习 | #机器翻译 #低资源 | arxiv 学术质量 7.2/8 | 影响力 0.8/2 | 可复现性 0.8/1 | 置信度高 👥 作者与机构第一作者：Ziheng Zhang（Australian National University）通讯作者：Liang Zheng（Australian National University）作者列表：Ziheng Zhang（Australian National University）， Yunzhong Hou（Australian National University）， Naijing Liu（University of Oxford）， Liang Zheng（Australian National University） 💡 毒舌点评本文为濒危语言文档化提供了一个实用且思路清晰的工具链，其核心价值在于用语言学知识（音系相似性、词典）巧妙弥补了数据匮乏的短板。然而，该系统更像是一个精心设计的工程方案，而非一个具有广泛启示性的算法突破。其性能严重依赖一个外部的、覆盖率有限的词典，且两阶段设计带来的错误传播问题未得到充分缓解。在仅单一语言上验证，其宣称的“强基线”意义有待更多数据集检验。 ...

An End-to-End Multimodal System for Subtitle Recognition and Chinese-Japanese Translation in Short Dramas

📄 An End-to-End Multimodal System for Subtitle Recognition and Chinese-Japanese Translation in Short Dramas #多模态模型 #端到端 #语音识别 #机器翻译 ✅ 7.0/10 | 前50% | #多模态模型 | #端到端 | #语音识别 #机器翻译学术质量 5.0/7 | 选题价值 1.5/2 | 复现加成 0.3 | 置信度中 👥 作者与机构第一作者：Jing An (北京第二外国语学院人工智能与语言科学学院) 通讯作者：Yanbing Bai (中国人民大学统计学院应用统计研究中心) 作者列表：Jing An (北京第二外国语学院人工智能与语言科学学院)、Haofei Chang (中国人民大学信息学院)、Rui-Yang Ju (京都大学信息学研究生院)、Jinhua Su (中国人民大学统计学院应用统计中心 & Simashuhui Ltd.)、Yanbing Bai (中国人民大学统计学院应用统计研究中心)、Xin Qu (北京第二外国语学院人工智能与语言科学学院) 💡 毒舌点评亮点：系统设计思路清晰务实，将OCR和ASR两条路径的结果通过简单有效的融合策略进行互补，直接解决了短剧字幕识别中“文字准”与“时间准”难以兼得的痛点。短板：论文最大的弱点在于“端到端”的宣称与实验的割裂——虽然架构图展示了从视频到日语字幕的流水线，但实验部分的“识别”和“翻译”模块是分开评估的，缺乏对整个系统在端到端指标上的验证；同时，构建的翻译数据集规模极小（仅79集短剧），其泛化能力存疑。 🔗 开源详情代码：论文中未提及代码链接或开源计划。模型权重：未提及公开微调后的模型权重或检查点。数据集：论文构建并描述了一个短剧数据集，但未提及是否公开或如何获取。 Demo：未提供在线演示。复现材料：论文给出了翻译模块微调的详细超参数（LoRA r/α，学习率，batch size，早停策略等），但对识别模块的融合策略参数（时间窗口、相似度阈值）的选择依据和搜索过程未作说明。提供了硬件型号（RTX 3090），但未提及训练时长。引用的开源项目：论文明确依赖以下开源模型/工具： Qwen2-VL：用于OCR。 Whisper：用于ASR。 Qwen2.5：作为翻译模块的基线及微调基础。 LoRA：用于高效微调。 RapidFuzz：用于计算文本相似度。 📌 核心摘要本文针对中国短剧出海所面临的字幕识别与中日翻译难题，提出了一个端到端的多模态系统。问题核心在于短剧字幕具有口语化、无标点、片段化、上下文缺失等特殊性，且识别过程需同时应对复杂画面和背景噪音。方法核心是采用双通道并行识别：视觉通道使用Qwen2-VL进行OCR提取帧内文字，音频通道使用Whisper进行ASR转写，并设计了一种基于时间对齐和文本相似度的融合策略来选择最优结果。随后，通过LoRA微调Qwen2.5模型，在自建的短剧数据集上进行中日翻译。与已有方法相比，该系统的新颖之处在于其多模态融合策略能有效结合OCR的高精度专有名词识别与ASR的流畅性和精准时间戳，同时采用了将整集字幕作为整体输入LLM进行翻译的策略，以保留上下文。主要实验结果显示，融合策略在字幕识别任务上（表1）优于单独的Qwen2-VL和Whisper（CER从0.2984/0.2491降至0.1598）；微调后的翻译模型（表2）在chrF++和COMET指标上也优于零样本Qwen2.5基线。该工作的实际意义在于为短剧这一新兴内容的本地化提供了一套可落地的技术方案。其主要局限性在于翻译数据集规模较小，且系统各模块（识别、融合、翻译）是独立评估，未对完整端到端流程进行一体化性能测试与优化。 ...

Style Attack Disguise: When Fonts Become a Camouflage for Adversarial Intent

📄 Style Attack Disguise: When Fonts Become a Camouflage for Adversarial Intent #对抗样本 #文本分类 #机器翻译 #数据增强 #大语言模型 ✅ 7.0/10 | 前25% | #对抗样本 | #数据增强 | #文本分类 #机器翻译学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度高 👥 作者与机构第一作者：Yangshijie Zhang† (Lanzhou University) 通讯作者：Xingxing Jia⋆ (Lanzhou University, jiaxx@lzu.edu.cn) 作者列表： Yangshijie Zhang† (Lanzhou University) Xinda Wang† (Peking University) Jialin Liu (Peking University) Wenqiang Wang (Sun Yat-sen University) Zhicong Ma (Lanzhou University) Xingxing Jia⋆ (Lanzhou University) 机构：兰州大学、北京大学、中山大学 💡 毒舌点评亮点：选题角度刁钻且极具现实意义，将社交媒体上常见的“花式字体”转化为对AI系统的武器，这种“社会工程学+技术漏洞”的结合方式颇有新意，且实验结果确实亮眼。短板：论文对“为什么这些字体能骗过LLM”的机制分析略显肤浅（仅提及“过度解释”），更像是一个现象观察和应用展示，理论贡献深度有限；同时，一个声称“即插即用”的框架却没有开源代码，让其宣称的“实用价值”打了折扣。 ...