Hi

点击上方蓝字关注我们

多模态文档处理

企业中有很多的知识并不总是简单的文字形态，很多是以半结构化与非结构化文档的形式存在，最常见的就是图、文、表混排的PDF文档。针对复杂PDF文档的解析、分割与向量化是常见的一种复杂知识处理需求，且在实际应用中达到的效果往往不尽如人意（有少量原因是一些文档自身排版与格式的过度随意与不规范）。

处理复杂多模态文档一般需要借助到第三方的PDF解析工具、多模态大模型、关联检索等技术。整体上的思路如下：

以最常见的复杂PDF处理为例：

1. 借助解析工具从PDF中分类提取Text、Table、Image不同形态内容；提取的Table内容一般用Markdown文本等表示，Image则提取成本地或网络文件。

2. 对不同形态的提取内容采用不同的索引与检索方法处理：

【文本】：按照普通文本知识相同的方法做向量嵌入与检索。
【表格】：直接对Table的文本内容做嵌入通常检索效果欠佳，可以借助大模型（LLM）生成表格内容描述与摘要用于嵌入与检索（比如下图）。这有利于提高检索精准度及LLM对表格内容的理解。在检索阶段，需要关联检索出原始的Table内容用于后续生成。

* 将纯文字信息图片利用OCR识别转化成文本信息。在识别成纯文本后，按照普通的文字信息作嵌入与检索即可。

* 理解并生成图片的摘要与总结信息用于嵌入与检索。但是在检索后需要关联检索出原始图片用于后续生成

3. 在查询阶段，将上述检索出来的关联知识输入大模型进行生成，注意如果需要输入原始图片，则需要借助多模态模型进行响应生成。

上述流程中主要涉及到三种关键技术：

文档解析

主要针对半结构化/结构化的PDF文档解析与提取，考虑的工具为：

Unstructured：强大的非结构化数据处理平台与工具，提供商业在线API服务与开源SDK两种使用方式。支持复杂文档如PDF/PPT/DOC等的高效解析与处理，包括清理、语义分割、提取实体等。缺点是较为复杂，类似的还有OmniParse开源平台。

LlamaParse：这是著名的LLM开发框架LlamaIndex提供的在线文档解析服务，主要提供复杂PDF文档的在线解析与提取，其最大优势是与LlamaIndex有极好的集成，比如可以借助模型在提取时自动生成表格的摘要信息。缺点是必须在线使用。
Open-Parse：一个相对轻量级的复杂文档分块与提取的开源库。支持语义分块与OCR，简单易用，且支持与LlamaIndex框架的集成，比如将提取的文档直接转化为LlamaIndex中的Node。
此外，国内开源的RAG引擎平台RAGFlow内置了很强的深度文档理解能力，(但未开放文档解析的独立API)，如果你需要构建基于深度文档解析的在线RAG引擎，可以考虑尝试。

多模态模型 & OCR

多模态视觉模型可以借助在线的智谱GLM-4v,阿里qwen-vl,Openai的GPT-4o，或部署开源的Llava模型等。如果希望提取图像中的文本信息（如文字扫描图像），则需要结合OCR技术：

关联检索

在将多模态内容输入给LLM生成时，往往需要借助关联检索从向量检索出来的Chunk关联到原始的表格内容或者图片，这种关联检索在常见的两种框架中都有支持：

LangChain：可借助多向量存储与检索（MultiVectorRetriever）来实现，将存储向量的VectorStore与图片存储做关键存储与检索
LlamaIndex：可借助构建递归检索器（RecursiveRetriever）来实现，将存储文本向量的Node指向存储原始表格内容或图片的Node