📄 TextlessRAG: End-to-End Visual Document RAG by Speech without Text
#语音问答 #端到端 #基准测试 #跨模态 #工业应用
🔥 8.5/10 | 前25% | #语音问答 | #端到端 | #基准测试 #跨模态
学术质量 6.0/7 | 选题价值 1.8/2 | 复现加成 0.5 | 置信度 中
👥 作者与机构
- 第一作者:Peijin Xie (哈尔滨工业大学 ITNLP实验室)
- 通讯作者:Bingquan Liu (哈尔滨工业大学 ITNLP实验室)
- 作者列表:Peijin Xie (哈尔滨工业大学 ITNLP实验室)、Shun Qian (哈尔滨工业大学 ITNLP实验室)、Bingquan Liu (哈尔滨工业大学 ITNLP实验室)、Dexin Wang (奇虎360科技 智脑AI实验室)、Lin Sun (奇虎360科技 智脑AI实验室)、Xiangzheng Zhang (奇虎360科技 智脑AI实验室)
💡 毒舌点评
亮点:创新性地提出了完全“去文本化”的语音文档RAG框架,将语音交互的便捷性与视觉文档理解相结合,是“多模态原生”交互的一次有意义探索,并首次发布了双语语音-文档RAG基准数据集。
短板:端到端框架严重依赖现有的强多模态模型(ColQwen-Omni, Qwen2.5-Omni),核心的“无文本”生成质量在部分数据集(如DUDE、CDR)上仍明显低于使用文本的SOTA模型,延迟优势相对SOTA(ViDoRAG)的差距也未充分证明。
📌 核心摘要
- 问题:现有基于视觉文档的知识问答(RAG)系统通常需要将语音查询通过ASR转换为文本,并将文档内容通过OCR提取文本,这增加了延迟和潜在的错误传播,且无法直接处理图表等非文本视觉元素。
- 方法核心:提出TextlessRAG,一个端到端的语音驱动视觉文档RAG框架。它直接使用语音编码器(ColQwen-Omni)对语音查询和文档图像页面进行统一编码并检索,然后通过布局感知重排序选择最相关的图像块,最后由多模态大模型(Qwen2.5-Omni)直接基于检索到的图像块生成语音答案,整个过程无需ASR、OCR或TTS。
- 新意:这是首个完全摒弃ASR、OCR、TTS的语音文档RAG管线,实现了从语音输入到语音输出的全模态流程。同时,构建了首个双语(英/中)语音-文档RAG基准数据集SV-DOC。
- 主要实验结果:
- 检索(表2):在7个子数据集上,TextlessRAG的检索性能(nDCG@5)全面优于纯文本检索基线(BM25、E5、NV-Embed-v2),并与最强的图文检索基线ViDoRAG竞争。例如,在ChartQA上达到99.3(ViDoRAG为100),在Vidoseek上达到95.4(ViDoRAG为94.3)。
- 问答(表3):端到端QA性能(GPT-4o评判)在多个数据集上优于纯文本RAG,并在ChartQA(87.3)和Vidoseek(87.2/88.8)上达到最佳。与SOTA的ViDoRAG相比,在部分数据集(如DUDE:78.5 vs 86.7)仍有差距。
- 延迟与准确性(图4):TextlessRAG在响应延迟(约35-45单位)上显著低于ViDoRAG(约115-120单位),同时保持了具有竞争力的准确率(约80%),在效率和效果之间取得了良好平衡。
- 实际意义:为多模态大模型提供了更自然、无文本依赖的交互范式,扩展了应用场景(如视障辅助、移动办公)。发布的数据集推动了该方向的研究。
- 主要局限性:生成端的最终答案质量高度依赖于基座多模态模型(Qwen2.5-Omni)的能力;在部分需要复杂文本推理的数据集上,性能仍不及基于文本的SOTA方法;端到端延迟优势相较于优化后的文本管线可能有限。
🏗️ 模型架构
本文的核心架构如图2所示,是一个分为检索和生成两侧的端到端管线。
检索侧:
- 编码器 (Enc):使用预训练的ColQwen-Omni视觉语言模型。它作为一个统一的编码器,分别将用户输入的语音查询
q和知识库中的文档图像页面集合I={P1, P2...Pn}编码为向量表示eq和E={e1, e2...en}。 - 相似度计算与初检索:计算查询向量
eq与每个文档页面向量ei之间的MaxSim分数(类似ColBERT),据此对文档页面进行排序,得到Top-k候选页面Tk。 - 布局感知重排序:
- 布局分割:使用DocLayout-YOLO模型对每个Top-k页面
Pt进行细粒度内容块分割,识别出图表(chart)、表格(table)、文本(text)和自然图像(image)等不同区域。 - 块级筛选与重排:计算每个内容块与查询的MaxSim分数
sb,使用阈值θ过滤低相关性块。然后根据剩余内容块的相关性分数对原始图像页面Pt进行重新排序,得到精炼后的页面列表T'_k,确保送入生成器的内容与查询最相关。 生成侧:
- 布局分割:使用DocLayout-YOLO模型对每个Top-k页面
- 生成器 (Gen):使用Qwen2.5-Omni多模态大模型。它直接接收两个输入:1) 原始语音查询
q;2) 经过重排序的文档图像页面列表T'_k。 - 答案生成:生成器基于提供的图像页面和语音查询,直接生成最终的语音答案
Ans,无需任何文本中间表示。 设计选择动机:整个架构的关键设计是“去文本化”。使用ColQwen-Omni和Qwen2.5-Omni这类原生支持多模态输入的模型,避免了ASR和OCR引入的额外延迟和潜在错误。布局感知重排序则弥补了整页检索可能带来的噪声,通过细粒度匹配提升了检索和生成的相关性。
💡 核心创新点
- 首个无文本依赖的端到端语音文档RAG框架:完全摒弃了传统流水线中的ASR(语音转文本)、OCR(图像转文本)和TTS(文本转语音)模块。这避免了级联系统的错误传播和计算开销,实现了更高效、更鲁棒的交互。
- 布局感知的检索重排序机制:在初步检索后,引入DocLayout-YOLO对文档页面进行内容块分割,并基于块与查询的相关性对页面进行重新排序。这增强了系统对图表、表格等结构化信息的细粒度理解能力,提升了检索结果的质量。
- 首个双语语音-文档RAG基准数据集(SV-DOC):构建了一个包含中英文语音查询和多模态文档内容的综合评测集。特别是手动标注的中文文档RAG数据集(CDR),填补了该领域中文评测资源的空白,为后续研究提供了重要基础。
🔬 细节详述
- 训练数据:
- 检索与生成:论文未详细说明其检索编码器(ColQwen-Omni)和生成器(Qwen2.5-Omni)的具体训练数据,它们均为预先训练好的公开模型。
- 评测数据集(SV-DOC):由现有英文视觉文档QA数据集(ChartQA, InfoVQA, SlideVQA, DUDE, MMLong, Vidoseek)进行语音增强(通过TTS添加语音查询),以及全新构建的中文数据集(CDR)组成。CDR的构建流程包括:多领域文档收集、DocLayout-YOLO版面分割、商业VLM生成候选QA、人工精炼、TTS转换语音。数据集规模见表1,总计5947个QA对和42564张检索池图片。
- 损失函数:未说明。论文未涉及对检索编码器或生成器的微调过程,主要使用现有模型进行端到端推理。
- 训练策略:未说明。本文重点在于提出框架和评测,未报告模型训练细节。
- 关键超参数:
- 检索Top-k:未在论文正文中明确指定k值,但表格结果标注了使用Top-5和Gold(黄金标准页)两种设置。
- 布局重排序阈值
θ:未说明具体取值及其选择方法。
- 训练硬件:论文在评估延迟时使用单张80GB A100 GPU,但未说明模型是否进行了针对性训练以及训练硬件。
- 推理细节:论文未指定生成器(Qwen2.5-Omni)的解码策略(如束搜索大小、温度等)。延迟测量包含端到端时间。
- 正则化或稳定训练技巧:未说明。
📊 实验结果
论文在三个维度进行了实验评估:检索、问答生成和延迟分析。
- 检索结果 (表2) 核心结论:TextlessRAG在语音查询条件下,检索性能大幅超越文本检索基线,并与最强的图文检索基线ViDoRAG具有竞争力。
| 模型 | 编码器 | 查询模态 | 文档模态 | ChartQA | DUDE | Infovqa | SlideVQA | MMLong | Vidoseek | CDR |
|---|---|---|---|---|---|---|---|---|---|---|
| BM25 | - | T | T | 54.8 | 57.2 | 50.2 | 40.7 | 18.5 | 84.5 | 54.9 |
| E5 | BERT | T | T | 74.9 | 40.6 | 42.5 | 50.8 | 23.4 | 63.5 | 62.6 |
| NV-Embed-v2 | Mistral | T | T | 75.3 | 43.0 | 56.5 | 61.7 | 38.7 | 90.3 | 69.3 |
| CLIP | Scratch | T | I | 54.6 | 23.2 | 29.7 | 38.6 | 17.3 | 35.8 | 32.5 |
| DSE | Phi3V | T | I | 72.7 | 55.5 | 67.4 | 73.0 | 43.6 | 89.4 | 77.1 |
| VisRAG-Ret | MiniCPM-V | T | I | 87.2 | 56.4 | 71.9 | 74.3 | 53.1 | 91.2 | 80.9 |
| VDocRAG | Phi3V | T | I | 86.0 | 57.7 | 72.9 | 77.3 | 49.2 | 92.8 | 82.4 |
| ViDoRAG | Colqwen2 | T | I | 100 | 96.5 | 97.8 | 96.9 | 67.0 | 94.3 | 87.7 |
| TextLessRAG | Colqwen-Omni | A | I | 99.3 | 91.5 | 91.6 | 94.2 | 66.5 | 95.4 | 87.4 |
注:T=文本,I=图像,A=音频。粗体为最优。
- 问答生成结果 (表3) 核心结论:TextlessRAG端到端QA性能显著优于纯文本RAG,在部分数据集上达到最佳。布局重排序(*标记)能稳定提升Top-5检索输入下的性能。
| 模型 | 生成器 | ChartQA | DUDE | InfoVQA | SlideVQA | MMLong | Vidoseek | CDR |
|---|---|---|---|---|---|---|---|---|
| TextRAG | Phi3 | 28.0 | 40.1 | 40.5 | 28.6 | 6.9 | 29.8 | 10.5 |
| TextRAG† | Phi3 | 36.6 | 55.9 | 45.6 | 27.8 | 13.1 | 31.7 | 18.7 |
| VDocRAG | Phi3V | 52.0 | 48.5 | 56.2 | 48.0 | 14.5 | 52.1 | 22.3 |
| VDocRAG† | Phi3V | 74.0 | 66.4 | 64.6 | 56.4 | 21.7 | 63.8 | 34.6 |
| ViDoRAG | Qwen2.5-VL7B | 84.6 | 86.7 | 79.1 | 82.5 | 37.9 | 85.7 | 50.0 |
| ViDoRAG† | Qwen2.5-VL7B | 84.6 | 87.4 | 82.6 | 84.2 | 47.3 | 86.4 | 70.1 |
| TextLessRAG | Qwen-Omni | 87.3 | 78.5 | 74.5 | 79.7 | 33.4 | 87.2 | 43.5 |
| TextLessRAG* | Qwen-Omni | 87.3 | 81.3 | 79.4 | 82.6 | 36.7 | 88.8 | 47.2 |
| TextLessRAG† | Qwen-Omni | 87.3 | 84.0 | 80.6 | 81.8 | 43.2 | 88.6 | 61.3 |
注:“†”表示使用Gold(黄金标准页)输入;“”表示使用Top-5检索结果并经过布局重排序。黄色高亮为Gold输入最佳,绿色高亮为Top-5输入最佳。*
- 延迟与准确性分析 (图4)
图4左图显示了端到端准确率与延迟的散点图。TextLessRAG在延迟(约35-45单位)上显著低于ViDoRAG(约115-120单位),同时准确率接近。图4右图分解了各组件延迟,突出了ASR、TTS、OCR是传统管线的主要延迟来源,而TextlessRAG的去文本化设计消除了这些开销。
⚖️ 评分理由
- 学术质量:6.0/7:创新性明确,提出了一个新颖且合理的端到端语音文档RAG框架。技术实现基于成熟模型,工程设计合理。实验在构建的丰富基准上进行了充分对比。但创新更多体现在系统设计和整合上,而非底层模型的突破;生成质量在部分数据集上未达最优。
- 选题价值:1.8/2:选题非常前沿,解决了实际交互痛点,具有广泛的应用前景,与语音领域高度契合,价值很高。
- 开源与复现加成:0.5/1:承诺开源代码和首个双语数据集,具有重要贡献。但当前链接未生效,且训练细节缺失,复现门槛较高。
🔗 开源详情
- 代码:论文提供GitHub链接 (https://github.com/xiepeijinhit-hue/textlessrag),承诺发布pipeline代码。
- 模型权重:未提及自行训练的模型权重。框架依赖的ColQwen-Omni和Qwen2.5-Omni是现有开源模型。
- 数据集:承诺发布论文中构建的SV-DOC数据集,包含增强的英文数据集和全新的中文CDR数据集。
- Demo:论文中未提及在线演示。
- 复现材料:论文中未提供详细的训练超参数、配置文件、检查点或更深入的附录说明。
- 引用的开源项目:ColQwen-Omni (Hugging Face), ColBERT (GitHub), DocLayout-YOLO (GitHub), Qwen2.5-Omni (Hugging Face), Doubao TTS API, Tesseract OCR。