📄 TextlessRAG: End-to-End Visual Document RAG by Speech without Text

#语音问答 #端到端 #基准测试 #跨模态 #工业应用

🔥 8.5/10 | 前25% | #语音问答 | #端到端 | #基准测试 #跨模态

学术质量 6.0/7 | 选题价值 1.8/2 | 复现加成 0.5 | 置信度 中

👥 作者与机构

  • 第一作者:Peijin Xie (哈尔滨工业大学 ITNLP实验室)
  • 通讯作者:Bingquan Liu (哈尔滨工业大学 ITNLP实验室)
  • 作者列表:Peijin Xie (哈尔滨工业大学 ITNLP实验室)、Shun Qian (哈尔滨工业大学 ITNLP实验室)、Bingquan Liu (哈尔滨工业大学 ITNLP实验室)、Dexin Wang (奇虎360科技 智脑AI实验室)、Lin Sun (奇虎360科技 智脑AI实验室)、Xiangzheng Zhang (奇虎360科技 智脑AI实验室)

💡 毒舌点评

亮点:创新性地提出了完全“去文本化”的语音文档RAG框架,将语音交互的便捷性与视觉文档理解相结合,是“多模态原生”交互的一次有意义探索,并首次发布了双语语音-文档RAG基准数据集。
短板:端到端框架严重依赖现有的强多模态模型(ColQwen-Omni, Qwen2.5-Omni),核心的“无文本”生成质量在部分数据集(如DUDE、CDR)上仍明显低于使用文本的SOTA模型,延迟优势相对SOTA(ViDoRAG)的差距也未充分证明。

📌 核心摘要

  1. 问题:现有基于视觉文档的知识问答(RAG)系统通常需要将语音查询通过ASR转换为文本,并将文档内容通过OCR提取文本,这增加了延迟和潜在的错误传播,且无法直接处理图表等非文本视觉元素。
  2. 方法核心:提出TextlessRAG,一个端到端的语音驱动视觉文档RAG框架。它直接使用语音编码器(ColQwen-Omni)对语音查询和文档图像页面进行统一编码并检索,然后通过布局感知重排序选择最相关的图像块,最后由多模态大模型(Qwen2.5-Omni)直接基于检索到的图像块生成语音答案,整个过程无需ASR、OCR或TTS。
  3. 新意:这是首个完全摒弃ASR、OCR、TTS的语音文档RAG管线,实现了从语音输入到语音输出的全模态流程。同时,构建了首个双语(英/中)语音-文档RAG基准数据集SV-DOC。
  4. 主要实验结果:
    • 检索(表2):在7个子数据集上,TextlessRAG的检索性能(nDCG@5)全面优于纯文本检索基线(BM25、E5、NV-Embed-v2),并与最强的图文检索基线ViDoRAG竞争。例如,在ChartQA上达到99.3(ViDoRAG为100),在Vidoseek上达到95.4(ViDoRAG为94.3)。
    • 问答(表3):端到端QA性能(GPT-4o评判)在多个数据集上优于纯文本RAG,并在ChartQA(87.3)和Vidoseek(87.2/88.8)上达到最佳。与SOTA的ViDoRAG相比,在部分数据集(如DUDE:78.5 vs 86.7)仍有差距。
    • 延迟与准确性(图4):TextlessRAG在响应延迟(约35-45单位)上显著低于ViDoRAG(约115-120单位),同时保持了具有竞争力的准确率(约80%),在效率和效果之间取得了良好平衡。
  5. 实际意义:为多模态大模型提供了更自然、无文本依赖的交互范式,扩展了应用场景(如视障辅助、移动办公)。发布的数据集推动了该方向的研究。
  6. 主要局限性:生成端的最终答案质量高度依赖于基座多模态模型(Qwen2.5-Omni)的能力;在部分需要复杂文本推理的数据集上,性能仍不及基于文本的SOTA方法;端到端延迟优势相较于优化后的文本管线可能有限。

🏗️ 模型架构

本文的核心架构如图2所示,是一个分为检索和生成两侧的端到端管线。 描述 检索侧:

  1. 编码器 (Enc):使用预训练的ColQwen-Omni视觉语言模型。它作为一个统一的编码器,分别将用户输入的语音查询q和知识库中的文档图像页面集合I={P1, P2...Pn}编码为向量表示eqE={e1, e2...en}
  2. 相似度计算与初检索:计算查询向量eq与每个文档页面向量ei之间的MaxSim分数(类似ColBERT),据此对文档页面进行排序,得到Top-k候选页面Tk
  3. 布局感知重排序:
    • 布局分割:使用DocLayout-YOLO模型对每个Top-k页面Pt进行细粒度内容块分割,识别出图表(chart)、表格(table)、文本(text)和自然图像(image)等不同区域。
    • 块级筛选与重排:计算每个内容块与查询的MaxSim分数sb,使用阈值θ过滤低相关性块。然后根据剩余内容块的相关性分数对原始图像页面Pt进行重新排序,得到精炼后的页面列表T'_k,确保送入生成器的内容与查询最相关。 生成侧:
  4. 生成器 (Gen):使用Qwen2.5-Omni多模态大模型。它直接接收两个输入:1) 原始语音查询q;2) 经过重排序的文档图像页面列表T'_k
  5. 答案生成:生成器基于提供的图像页面和语音查询,直接生成最终的语音答案Ans,无需任何文本中间表示。 设计选择动机:整个架构的关键设计是“去文本化”。使用ColQwen-Omni和Qwen2.5-Omni这类原生支持多模态输入的模型,避免了ASR和OCR引入的额外延迟和潜在错误。布局感知重排序则弥补了整页检索可能带来的噪声,通过细粒度匹配提升了检索和生成的相关性。

💡 核心创新点

  1. 首个无文本依赖的端到端语音文档RAG框架:完全摒弃了传统流水线中的ASR(语音转文本)、OCR(图像转文本)和TTS(文本转语音)模块。这避免了级联系统的错误传播和计算开销,实现了更高效、更鲁棒的交互。
  2. 布局感知的检索重排序机制:在初步检索后,引入DocLayout-YOLO对文档页面进行内容块分割,并基于块与查询的相关性对页面进行重新排序。这增强了系统对图表、表格等结构化信息的细粒度理解能力,提升了检索结果的质量。
  3. 首个双语语音-文档RAG基准数据集(SV-DOC):构建了一个包含中英文语音查询和多模态文档内容的综合评测集。特别是手动标注的中文文档RAG数据集(CDR),填补了该领域中文评测资源的空白,为后续研究提供了重要基础。

🔬 细节详述

  • 训练数据:
    • 检索与生成:论文未详细说明其检索编码器(ColQwen-Omni)和生成器(Qwen2.5-Omni)的具体训练数据,它们均为预先训练好的公开模型。
    • 评测数据集(SV-DOC):由现有英文视觉文档QA数据集(ChartQA, InfoVQA, SlideVQA, DUDE, MMLong, Vidoseek)进行语音增强(通过TTS添加语音查询),以及全新构建的中文数据集(CDR)组成。CDR的构建流程包括:多领域文档收集、DocLayout-YOLO版面分割、商业VLM生成候选QA、人工精炼、TTS转换语音。数据集规模见表1,总计5947个QA对和42564张检索池图片。
  • 损失函数:未说明。论文未涉及对检索编码器或生成器的微调过程,主要使用现有模型进行端到端推理。
  • 训练策略:未说明。本文重点在于提出框架和评测,未报告模型训练细节。
  • 关键超参数:
    • 检索Top-k:未在论文正文中明确指定k值,但表格结果标注了使用Top-5和Gold(黄金标准页)两种设置。
    • 布局重排序阈值θ:未说明具体取值及其选择方法。
  • 训练硬件:论文在评估延迟时使用单张80GB A100 GPU,但未说明模型是否进行了针对性训练以及训练硬件。
  • 推理细节:论文未指定生成器(Qwen2.5-Omni)的解码策略(如束搜索大小、温度等)。延迟测量包含端到端时间。
  • 正则化或稳定训练技巧:未说明。

📊 实验结果

论文在三个维度进行了实验评估:检索、问答生成和延迟分析。

  1. 检索结果 (表2) 核心结论:TextlessRAG在语音查询条件下,检索性能大幅超越文本检索基线,并与最强的图文检索基线ViDoRAG具有竞争力。
模型编码器查询模态文档模态ChartQADUDEInfovqaSlideVQAMMLongVidoseekCDR
BM25-TT54.857.250.240.718.584.554.9
E5BERTTT74.940.642.550.823.463.562.6
NV-Embed-v2MistralTT75.343.056.561.738.790.369.3
CLIPScratchTI54.623.229.738.617.335.832.5
DSEPhi3VTI72.755.567.473.043.689.477.1
VisRAG-RetMiniCPM-VTI87.256.471.974.353.191.280.9
VDocRAGPhi3VTI86.057.772.977.349.292.882.4
ViDoRAGColqwen2TI10096.597.896.967.094.387.7
TextLessRAGColqwen-OmniAI99.391.591.694.266.595.487.4

注:T=文本,I=图像,A=音频。粗体为最优。

  1. 问答生成结果 (表3) 核心结论:TextlessRAG端到端QA性能显著优于纯文本RAG,在部分数据集上达到最佳。布局重排序(*标记)能稳定提升Top-5检索输入下的性能。
模型生成器ChartQADUDEInfoVQASlideVQAMMLongVidoseekCDR
TextRAGPhi328.040.140.528.66.929.810.5
TextRAG†Phi336.655.945.627.813.131.718.7
VDocRAGPhi3V52.048.556.248.014.552.122.3
VDocRAG†Phi3V74.066.464.656.421.763.834.6
ViDoRAGQwen2.5-VL7B84.686.779.182.537.985.750.0
ViDoRAG†Qwen2.5-VL7B84.687.482.684.247.386.470.1
TextLessRAGQwen-Omni87.378.574.579.733.487.243.5
TextLessRAG*Qwen-Omni87.381.379.482.636.788.847.2
TextLessRAG†Qwen-Omni87.384.080.681.843.288.661.3

注:“†”表示使用Gold(黄金标准页)输入;“”表示使用Top-5检索结果并经过布局重排序。黄色高亮为Gold输入最佳,绿色高亮为Top-5输入最佳。*

  1. 延迟与准确性分析 (图4) 描述 图4左图显示了端到端准确率与延迟的散点图。TextLessRAG在延迟(约35-45单位)上显著低于ViDoRAG(约115-120单位),同时准确率接近。图4右图分解了各组件延迟,突出了ASR、TTS、OCR是传统管线的主要延迟来源,而TextlessRAG的去文本化设计消除了这些开销。

⚖️ 评分理由

  • 学术质量:6.0/7:创新性明确,提出了一个新颖且合理的端到端语音文档RAG框架。技术实现基于成熟模型,工程设计合理。实验在构建的丰富基准上进行了充分对比。但创新更多体现在系统设计和整合上,而非底层模型的突破;生成质量在部分数据集上未达最优。
  • 选题价值:1.8/2:选题非常前沿,解决了实际交互痛点,具有广泛的应用前景,与语音领域高度契合,价值很高。
  • 开源与复现加成:0.5/1:承诺开源代码和首个双语数据集,具有重要贡献。但当前链接未生效,且训练细节缺失,复现门槛较高。

🔗 开源详情

  • 代码:论文提供GitHub链接 (https://github.com/xiepeijinhit-hue/textlessrag),承诺发布pipeline代码。
  • 模型权重:未提及自行训练的模型权重。框架依赖的ColQwen-Omni和Qwen2.5-Omni是现有开源模型。
  • 数据集:承诺发布论文中构建的SV-DOC数据集,包含增强的英文数据集和全新的中文CDR数据集。
  • Demo:论文中未提及在线演示。
  • 复现材料:论文中未提供详细的训练超参数、配置文件、检查点或更深入的附录说明。
  • 引用的开源项目:ColQwen-Omni (Hugging Face), ColBERT (GitHub), DocLayout-YOLO (GitHub), Qwen2.5-Omni (Hugging Face), Doubao TTS API, Tesseract OCR。

← 返回 ICASSP 2026 论文分析