Reasoning LLM Improves Speaker Recognition in Long-form TV Dramas
📄 Reasoning LLM Improves Speaker Recognition in Long-form TV Dramas #强化学习 #多模态模型 #基准测试 #数据集 #音视频理解 7.2/10 | 创新 1.6/2 | 严谨 1/1.5 | 实验 1/1.5 | 清晰 0.7/1 | 影响 1/1.5 | 开源 0.5/1.5 | 复现 0.3/0.5 | 工程 1.1/1.5 ✅ 7.2/10 | 前50% | #音视频理解 | #强化学习 | #多模态模型 #基准测试 | arxiv 👥 作者与机构 第一作者:Yuxuan Li(未说明所属机构) 通讯作者:未明确标注 其他作者:Lingxi Xie, Xinyue Huo, Jihao Qiu, Jiacheng Shao, Pengfei Chen, Jiannan Ge, Kaiwen Duan, Qi Tian(均未提供完整机构信息) 💡 毒舌点评 这篇论文做了一个很扎实的马鞍,但配了一匹昂贵的瘸马。DramaSR-532K 数据集构建用心,填补了长剧集复杂场景下说话人识别的空白,工程上值得肯定。但 DramaSR-LRM 方法本质上是用一个推理 LLM 做多模态证据的“阅读理解”和纠错,依赖昂贵的 Gemini-3-Pro 蒸馏和 RL 微调,还绑定了一堆大模型做周边工具。更关键的是,开源承诺目前还是张空头支票,复现门槛高得离谱。2.3% 的绝对提升聊胜于无,但为了这点收益投入的计算成本,工业界看了大概要摇头。 ...