论文:Revolutionizing Retrieval-Augmented Generation with Enhanced PDF Structure Recognition
本文探讨了基于检索增强生成(RAG)的专业知识问答系统是否已经接近完美,并发现当前主要方法依赖于高质量文本语料库的前提条件。然而,由于专业文档主要以PDF格式存储,低准确率的PDF解析显著影响专业知识问答的有效性。作者进行了实证RAG实验,使用了一个具有全景和精准PDF解析器的ChatDOC系统,在数百个来自相应真实世界专业文档的问题中检索出更准确、完整的段落,从而更好地回答问题。实验结果表明,ChatDOC在近47%的问题上优于基线,有38%的情况与基线打平,只有15%的情况下表现不如基线。这表明我们可以通过增强PDF结构识别来革命化RAG。
论文方法
方法描述
该论文介绍了两种PDF解析方法:基于规则的方法(PyPDF)和基于深度学习的方法(ChatDOC PDF Parser)。其中,PyPDF是一种广泛使用的基于规则的解析器,而ChatDOC PDF Parser则采用了深度学习模型来处理未标记文档。
方法改进
与PyPDF相比,ChatDOC PDF Parser具有以下优势:
能够正确识别段落和表格之间的边界。
能够正确识别表格内部结构,并使用Markdown格式保留表格的内部结构。
能够正确识别文本的阅读顺序,避免因复杂布局而导致的结果混乱。
解决的问题
由于计算机只能理解二进制代码,无法感知信息的结构,因此需要将散乱的字符组织成有意义的文本块,并确定其结构。为此,需要一种能够有效地管理未标记文档的解析器。ChatDOC PDF Parser通过一系列复杂的步骤,包括OCR、物理对象检测、跨列和跨页修剪、阅读顺序确定、表格结构识别和文档逻辑结构识别等,能够准确地解析PDF文件并将其转换为JSON或HTML格式的内容块。这种方法能够更好地处理复杂布局和合并单元格等问题,从而提高了PDF解析的准确性。
论文实验
本文主要介绍了针对RAG系统中文档解析和分块对答案质量的影响所做的实验,并通过一系列的对比实验来验证ChatDOC系统的优越性。
在实验中,作者比较了两个RAG系统,分别是使用ChatDOC PDF Parser进行文档解析并利用结构信息进行分块的ChatDOC系统,以及使用PyPDF进行文档解析并使用RecursiveCharacterTextSplitter函数进行分块的Baseline系统。其他组件如嵌入、检索和QA部分则保持一致。
实验分为两部分:
对于提取式问题(extractive questions),作者手动收集了800个问题并通过众包筛选出302个高质量的问题用于评估。这些问题被分成两类:一类是直接从文档中提取答案的提取式问题,另一类需要综合多个来源和方面信息做出总结的分析式问题。对于提取式问题,作者使用人类评分来评估答案的质量,使用0-10分制进行打分。而对于分析式问题,则使用GPT-4来评估答案的质量,得分为1-10分。最终结果表明,ChatDOC系统在大多数情况下表现优于Baseline系统。
对于案例研究(case studies),作者展示了几个具体例子以展示ChatDOC系统的优越性。这些例子包括:在一个关于特斯拉用户手册查询的例子中,ChatDOC系统能够更好地识别表格结构并提供更准确的答案;在一个关于论文的研究问题中,ChatDOC系统能够全面地检索到整个表格并准确回答问题。
综上所述,本文通过对不同类型的实验进行了详细的对比分析,证明了ChatDOC系统相对于Baseline系统具有更好的性能和优势。
论文总结
文章优点
论文提出了一种基于大型语言模型(LLM)和增强型PDF结构识别框架的文本检索系统ChatDOC。
ChatDOC能够有效地处理表格,并且在多个文件中进行多轮对话,支持多种文件类型。
论文通过实验证明了ChatDOC相对于其他PDF解析器具有更高的可靠性和准确性。
方法创新点
提出了一种基于深度学习的PDF解析方法,可以有效地提取和整合文档中的结构化信息。
使用嵌入模型将文本块转换为实值向量,并将其存储在数据库中,以提高系统的效率和准确性。
在ChatDOC中应用了该PDF解析框架,使其成为一款高效的AI文件阅读助手。
未来展望
将会比较更多基于深度学习的文档解析方法,以更全面地了解RAG质量与文档解析质量之间的关系。
进一步优化PDF解析框架,提高其准确性和可靠性,以进一步提升ChatDOC的表现。