📄 TextlessRAG: End-to-End Visual Document RAG by Speech without Text

#语音问答 #端到端 #基准测试 #跨模态 #工业应用

🔥 8.5/10 | 前25% | #语音问答 | #端到端 | #基准测试 #跨模态

学术质量 6.0/7 | 选题价值 1.8/2 | 复现加成 0.5 | 置信度中

👥 作者与机构

第一作者：Peijin Xie (哈尔滨工业大学 ITNLP实验室)
通讯作者：Bingquan Liu (哈尔滨工业大学 ITNLP实验室)
作者列表：Peijin Xie (哈尔滨工业大学 ITNLP实验室)、Shun Qian (哈尔滨工业大学 ITNLP实验室)、Bingquan Liu (哈尔滨工业大学 ITNLP实验室)、Dexin Wang (奇虎360科技智脑AI实验室)、Lin Sun (奇虎360科技智脑AI实验室)、Xiangzheng Zhang (奇虎360科技智脑AI实验室)

💡 毒舌点评

亮点：创新性地提出了完全“去文本化”的语音文档RAG框架，将语音交互的便捷性与视觉文档理解相结合，是“多模态原生”交互的一次有意义探索，并首次发布了双语语音-文档RAG基准数据集。
短板：端到端框架严重依赖现有的强多模态模型（ColQwen-Omni， Qwen2.5-Omni），核心的“无文本”生成质量在部分数据集（如DUDE、CDR）上仍明显低于使用文本的SOTA模型，延迟优势相对SOTA（ViDoRAG）的差距也未充分证明。

🔗 开源详情

代码：论文提供GitHub链接 (https://github.com/xiepeijinhit-hue/textlessrag)，承诺发布pipeline代码。
模型权重：未提及自行训练的模型权重。框架依赖的ColQwen-Omni和Qwen2.5-Omni是现有开源模型。
数据集：承诺发布论文中构建的SV-DOC数据集，包含增强的英文数据集和全新的中文CDR数据集。
Demo：论文中未提及在线演示。
复现材料：论文中未提供详细的训练超参数、配置文件、检查点或更深入的附录说明。
引用的开源项目：ColQwen-Omni (Hugging Face), ColBERT (GitHub), DocLayout-YOLO (GitHub), Qwen2.5-Omni (Hugging Face), Doubao TTS API, Tesseract OCR。

📌 核心摘要

问题：现有基于视觉文档的知识问答（RAG）系统通常需要将语音查询通过ASR转换为文本，并将文档内容通过OCR提取文本，这增加了延迟和潜在的错误传播，且无法直接处理图表等非文本视觉元素。
方法核心：提出TextlessRAG，一个端到端的语音驱动视觉文档RAG框架。它直接使用语音编码器（ColQwen-Omni）对语音查询和文档图像页面进行统一编码并检索，然后通过布局感知重排序选择最相关的图像块，最后由多模态大模型（Qwen2.5-Omni）直接基于检索到的图像块生成语音答案，整个过程无需ASR、OCR或TTS。
新意：这是首个完全摒弃ASR、OCR、TTS的语音文档RAG管线，实现了从语音输入到语音输出的全模态流程。同时，构建了首个双语（英/中）语音-文档RAG基准数据集SV-DOC。
主要实验结果：
- 检索（表2）：在7个子数据集上，TextlessRAG的检索性能（nDCG@5）全面优于纯文本检索基线（BM25、E5、NV-Embed-v2），并与最强的图文检索基线ViDoRAG竞争。例如，在ChartQA上达到99.3（ViDoRAG为100），在Vidoseek上达到95.4（ViDoRAG为94.3）。
- 问答（表3）：端到端QA性能（GPT-4o评判）在多个数据集上优于纯文本RAG，并在ChartQA（87.3）和Vidoseek（87.2/88.8）上达到最佳。与SOTA的ViDoRAG相比，在部分数据集（如DUDE：78.5 vs 86.7）仍有差距。
- 延迟与准确性（图4）：TextlessRAG在响应延迟（约35-45单位）上显著低于ViDoRAG（约115-120单位），同时保持了具有竞争力的准确率（约80%），在效率和效果之间取得了良好平衡。
实际意义：为多模态大模型提供了更自然、无文本依赖的交互范式，扩展了应用场景（如视障辅助、移动办公）。发布的数据集推动了该方向的研究。
主要局限性：生成端的最终答案质量高度依赖于基座多模态模型（Qwen2.5-Omni）的能力；在部分需要复杂文本推理的数据集上，性能仍不及基于文本的SOTA方法；端到端延迟优势相较于优化后的文本管线可能有限。

🏗️ 模型架构

本文的核心架构如图2所示，是一个分为检索和生成两侧的端到端管线。检索侧：

编码器 (Enc)：使用预训练的ColQwen-Omni视觉语言模型。它作为一个统一的编码器，分别将用户输入的语音查询q和知识库中的文档图像页面集合I={P1, P2...Pn}编码为向量表示eq和E={e1, e2...en}。
相似度计算与初检索：计算查询向量eq与每个文档页面向量ei之间的MaxSim分数（类似ColBERT），据此对文档页面进行排序，得到Top-k候选页面Tk。
布局感知重排序：
- 布局分割：使用DocLayout-YOLO模型对每个Top-k页面Pt进行细粒度内容块分割，识别出图表(chart)、表格(table)、文本(text)和自然图像(image)等不同区域。
- 块级筛选与重排：计算每个内容块与查询的MaxSim分数sb，使用阈值θ过滤低相关性块。然后根据剩余内容块的相关性分数对原始图像页面Pt进行重新排序，得到精炼后的页面列表T'_k，确保送入生成器的内容与查询最相关。生成侧：
生成器 (Gen)：使用Qwen2.5-Omni多模态大模型。它直接接收两个输入：1) 原始语音查询q；2) 经过重排序的文档图像页面列表T'_k。
答案生成：生成器基于提供的图像页面和语音查询，直接生成最终的语音答案Ans，无需任何文本中间表示。设计选择动机：整个架构的关键设计是“去文本化”。使用ColQwen-Omni和Qwen2.5-Omni这类原生支持多模态输入的模型，避免了ASR和OCR引入的额外延迟和潜在错误。布局感知重排序则弥补了整页检索可能带来的噪声，通过细粒度匹配提升了检索和生成的相关性。

💡 核心创新点

首个无文本依赖的端到端语音文档RAG框架：完全摒弃了传统流水线中的ASR（语音转文本）、OCR（图像转文本）和TTS（文本转语音）模块。这避免了级联系统的错误传播和计算开销，实现了更高效、更鲁棒的交互。
布局感知的检索重排序机制：在初步检索后，引入DocLayout-YOLO对文档页面进行内容块分割，并基于块与查询的相关性对页面进行重新排序。这增强了系统对图表、表格等结构化信息的细粒度理解能力，提升了检索结果的质量。
首个双语语音-文档RAG基准数据集（SV-DOC）：构建了一个包含中英文语音查询和多模态文档内容的综合评测集。特别是手动标注的中文文档RAG数据集（CDR），填补了该领域中文评测资源的空白，为后续研究提供了重要基础。

🔬 细节详述

训练数据：
- 检索与生成：论文未详细说明其检索编码器（ColQwen-Omni）和生成器（Qwen2.5-Omni）的具体训练数据，它们均为预先训练好的公开模型。
- 评测数据集（SV-DOC）：由现有英文视觉文档QA数据集（ChartQA, InfoVQA, SlideVQA, DUDE, MMLong, Vidoseek）进行语音增强（通过TTS添加语音查询），以及全新构建的中文数据集（CDR）组成。CDR的构建流程包括：多领域文档收集、DocLayout-YOLO版面分割、商业VLM生成候选QA、人工精炼、TTS转换语音。数据集规模见表1，总计5947个QA对和42564张检索池图片。
损失函数：未说明。论文未涉及对检索编码器或生成器的微调过程，主要使用现有模型进行端到端推理。
训练策略：未说明。本文重点在于提出框架和评测，未报告模型训练细节。
关键超参数：
- 检索Top-k：未在论文正文中明确指定k值，但表格结果标注了使用Top-5和Gold（黄金标准页）两种设置。
- 布局重排序阈值θ：未说明具体取值及其选择方法。
训练硬件：论文在评估延迟时使用单张80GB A100 GPU，但未说明模型是否进行了针对性训练以及训练硬件。
推理细节：论文未指定生成器（Qwen2.5-Omni）的解码策略（如束搜索大小、温度等）。延迟测量包含端到端时间。
正则化或稳定训练技巧：未说明。

📊 实验结果

论文在三个维度进行了实验评估：检索、问答生成和延迟分析。

检索结果 (表2) 核心结论：TextlessRAG在语音查询条件下，检索性能大幅超越文本检索基线，并与最强的图文检索基线ViDoRAG具有竞争力。

模型	编码器	查询模态	文档模态	ChartQA	DUDE	Infovqa	SlideVQA	MMLong	Vidoseek	CDR
BM25	-	T	T	54.8	57.2	50.2	40.7	18.5	84.5	54.9
E5	BERT	T	T	74.9	40.6	42.5	50.8	23.4	63.5	62.6
NV-Embed-v2	Mistral	T	T	75.3	43.0	56.5	61.7	38.7	90.3	69.3
CLIP	Scratch	T	I	54.6	23.2	29.7	38.6	17.3	35.8	32.5
DSE	Phi3V	T	I	72.7	55.5	67.4	73.0	43.6	89.4	77.1
VisRAG-Ret	MiniCPM-V	T	I	87.2	56.4	71.9	74.3	53.1	91.2	80.9
VDocRAG	Phi3V	T	I	86.0	57.7	72.9	77.3	49.2	92.8	82.4
ViDoRAG	Colqwen2	T	I	100	96.5	97.8	96.9	67.0	94.3	87.7
TextLessRAG	Colqwen-Omni	A	I	99.3	91.5	91.6	94.2	66.5	95.4	87.4

注：T=文本，I=图像，A=音频。粗体为最优。

问答生成结果 (表3) 核心结论：TextlessRAG端到端QA性能显著优于纯文本RAG，在部分数据集上达到最佳。布局重排序（*标记）能稳定提升Top-5检索输入下的性能。

模型	生成器	ChartQA	DUDE	InfoVQA	SlideVQA	MMLong	Vidoseek	CDR
TextRAG	Phi3	28.0	40.1	40.5	28.6	6.9	29.8	10.5
TextRAG†	Phi3	36.6	55.9	45.6	27.8	13.1	31.7	18.7
VDocRAG	Phi3V	52.0	48.5	56.2	48.0	14.5	52.1	22.3
VDocRAG†	Phi3V	74.0	66.4	64.6	56.4	21.7	63.8	34.6
ViDoRAG	Qwen2.5-VL7B	84.6	86.7	79.1	82.5	37.9	85.7	50.0
ViDoRAG†	Qwen2.5-VL7B	84.6	87.4	82.6	84.2	47.3	86.4	70.1
TextLessRAG	Qwen-Omni	87.3	78.5	74.5	79.7	33.4	87.2	43.5
TextLessRAG*	Qwen-Omni	87.3	81.3	79.4	82.6	36.7	88.8	47.2
TextLessRAG†	Qwen-Omni	87.3	84.0	80.6	81.8	43.2	88.6	61.3

注：“†”表示使用Gold（黄金标准页）输入；“”表示使用Top-5检索结果并经过布局重排序。黄色高亮为Gold输入最佳，绿色高亮为Top-5输入最佳。*

延迟与准确性分析 (图4) 图4左图显示了端到端准确率与延迟的散点图。TextLessRAG在延迟（约35-45单位）上显著低于ViDoRAG（约115-120单位），同时准确率接近。图4右图分解了各组件延迟，突出了ASR、TTS、OCR是传统管线的主要延迟来源，而TextlessRAG的去文本化设计消除了这些开销。

⚖️ 评分理由

学术质量：6.0/7：创新性明确，提出了一个新颖且合理的端到端语音文档RAG框架。技术实现基于成熟模型，工程设计合理。实验在构建的丰富基准上进行了充分对比。但创新更多体现在系统设计和整合上，而非底层模型的突破；生成质量在部分数据集上未达最优。
选题价值：1.8/2：选题非常前沿，解决了实际交互痛点，具有广泛的应用前景，与语音领域高度契合，价值很高。
开源与复现加成：0.5/1：承诺开源代码和首个双语数据集，具有重要贡献。但当前链接未生效，且训练细节缺失，复现门槛较高。

← 返回 ICASSP 2026 论文分析

📄 TextlessRAG: End-to-End Visual Document RAG by Speech without Text#

👥 作者与机构#

💡 毒舌点评#

🔗 开源详情#

📌 核心摘要#

🏗️ 模型架构#

💡 核心创新点#

🔬 细节详述#

📊 实验结果#

⚖️ 评分理由#

📎 相关论文