TextlessRAG: End-to-End Visual Document RAG by Speech without Text
📄 TextlessRAG: End-to-End Visual Document RAG by Speech without Text #语音问答 #端到端 #基准测试 #跨模态 #工业应用 🔥 8.5/10 | 前25% | #语音问答 | #端到端 | #基准测试 #跨模态 学术质量 6.0/7 | 选题价值 1.8/2 | 复现加成 0.5 | 置信度 中 👥 作者与机构 第一作者:Peijin Xie (哈尔滨工业大学 ITNLP实验室) 通讯作者:Bingquan Liu (哈尔滨工业大学 ITNLP实验室) 作者列表:Peijin Xie (哈尔滨工业大学 ITNLP实验室)、Shun Qian (哈尔滨工业大学 ITNLP实验室)、Bingquan Liu (哈尔滨工业大学 ITNLP实验室)、Dexin Wang (奇虎360科技 智脑AI实验室)、Lin Sun (奇虎360科技 智脑AI实验室)、Xiangzheng Zhang (奇虎360科技 智脑AI实验室) 💡 毒舌点评 亮点:创新性地提出了完全“去文本化”的语音文档RAG框架,将语音交互的便捷性与视觉文档理解相结合,是“多模态原生”交互的一次有意义探索,并首次发布了双语语音-文档RAG基准数据集。 短板:端到端框架严重依赖现有的强多模态模型(ColQwen-Omni, Qwen2.5-Omni),核心的“无文本”生成质量在部分数据集(如DUDE、CDR)上仍明显低于使用文本的SOTA模型,延迟优势相对SOTA(ViDoRAG)的差距也未充分证明。 ...