在人工智能技术加速渗透各领域的当下，自然语言处理（Natural Language Processing ，NLP ）作为实现人机交互的关键技术，正经历着从基础语言理解向复杂知识处理的范式转变。检索增强生成技术的兴起，被视为解决传统语言模型知识瓶颈的重要突破 ^[1] 。这项融合信息检索与文本生成的创新方法，通过构建动态知识调用机制，在一定程度上弥补了模型参数内隐知识的局限性，为构建更具实用性的智能应用开辟了新路径。

6.1.1 RAG 定义

RAG 技术的核心要义在于将信息检索领域强大的动态知识获取能力，与自然语言生成领域出色的文本创作能力进行有机且深度的耦合。与传统预训练语言模型单纯依赖参数记忆知识的模式截然不同，RAG 系统在运行过程中采用显式知识检索策略。具体而言，当系统接收到用户输入的查询语句后，会即刻依据语句内容，从外部庞大的知识库中精准提取相关信息片段，并将这些片段深度整合到后续的生成过程之中 ^[2] 。这种独具特色的双阶段处理架构，赋予了模型在面对各类知识密集型任务时突破预训练数据时间边界的能力，从而能够实时调用最新、最准确的事实性知识。

从技术发展演进的角度来看，RAG 可以被视作知识注入范式的一次重要革新。传统的生成模型往往通过在大规模语料上进行训练，进而形成自身的知识体系。然而，这种知识体系在应对现实世界中快速更新迭代的知识时，常常表现出明显的滞后性。与之形成鲜明对比的是，RAG 通过引入外部知识库，能够将结构化的数据库表、知识图谱，以及非结构化的学术论文、新闻报道等文本数据，转化为一个个可被快速检索的知识单元。在推理阶段，系统可以根据实际需求灵活调用这些知识单元，这一特性使得模型输出的时效性与准确性得到了显著提升 ^[3] 。

以生物医药领域为例，当用户向系统咨询某种新型靶向药物的临床疗效时，基于RAG 的问答系统能够迅速且实时地检索PubMed 等权威数据库中最新发布的研究成果。随后，系统结合自身模型强大的语言组织能力，将检索到的专业研究数据进行整理和转化，最终为用户提供一份包含最新实验数据与专业分析的详细解答 ^[4] 。这种知识获取与应用的方式，使得RAG 在处理专业领域知识时展现出强大的优势。

6.1.2 关键组件与工作原理

RAG 系统的高效运作依赖于检索器（Retriever ）、生成器（Generator ）和知识库（Knowledge Source ）三大核心模块的协同配合。这些组件既具备独立的技术特性，又通过标准化接口实现信息交互，共同构成完整的技术生态。

1. 检索器：动态知识的精准获取

检索器作为RAG 系统的前置处理核心单元，肩负着从海量知识库中快速、精准定位相关信息的重要使命。当前，主流的检索技术主要可分为稀疏检索（Sparse Retrieval ）与密集检索（Dense Retrieval ）两大范式，这两种技术在算法设计理念、技术实现方式以及实际应用场景上均存在着显著差异。

稀疏检索以传统信息检索理论为基石，其核心是通过构建倒排索引来实现关键词的匹配。在众多稀疏检索算法中，BM25 （Best Matching 25 ）算法凭借其良好的可解释性与高效的计算性能，成为了该领域的代表性方法 ^[5] 。该算法通过综合考量词频、逆文档频率以及文档长度等多个关键因素，对查询与文档之间的相关性进行量化打分。这种机制使得BM25 算法在处理包含明确术语的查询请求时，能够快速且准确地返回相关结果，具有较高的检索效率。然而，由于其检索过程高度依赖字面匹配，当面对语义模糊的词汇或多义词时，该算法可能会出现检索结果不完整、漏检重要信息等问题。

随着深度学习技术在自然语言处理领域的不断突破，密集检索技术逐渐崭露头角并成为主流趋势。其核心思想是借助预训练语言模型（如BERT ），将文本转化为高维向量表示，然后通过计算向量空间中的余弦相似度等度量方式，来精准度量文本之间的语义相关性 ^[6] 。相较于稀疏检索，密集检索在处理开放域问答（Open-Domain Question Answering ，ODQA ）、跨语言检索等复杂场景时，展现出了更强的泛化能力和语义理解能力。但与此同时，密集检索也面临着一些技术挑战，例如向量索引的存储占用空间较大，以及在大规模数据检索时如何保证高效性等问题。

为了充分发挥稀疏检索与密集检索各自的优势，混合检索（Hybrid Retrieval ）策略应运而生。该策略通常采用“粗筛- 精排”的两阶段架构：在第一阶段，利用稀疏检索的高效性快速过滤掉大量无关文档，大幅缩小候选文档范围；在第二阶段，通过密集检索对候选集中的文档进行精细化排序，从而进一步提高检索结果的准确性和相关性 ^[7] 。

此外，针对复杂知识推理任务，多跳检索（Multi-hop Retrieval ）技术近年来受到了学术界和工业界的广泛关注。以处理“阿尔茨海默病新型治疗方案的研发进展”这类复合查询为例，多跳检索技术会先检索与疾病机制相关的文献，初步获取背景知识；然后基于第一轮检索结果，进一步查找药物研发相关的数据；经过多轮检索后，最终整合所有相关信息，为生成器提供全面且完整的知识输入 ^[8] 。

2. 生成器：知识整合与文本创作

生成器作为RAG 系统的核心执行单元，通常基于Transformer 架构的预训练语言模型构建，例如广为人知的GPT 系列、LLaMA 等。其核心功能在于将检索模块输出的知识片段与用户原始查询进行深度融合，进而生成符合人类语言表达习惯和逻辑的回答。然而，在实际应用过程中，生成器面临着两大关键技术挑战：其一，如何确保检索到的信息能够被有效利用，从而精准指导文本生成过程；其二，如何避免生成与事实不符的内容，即困扰自然语言处理领域已久的“幻觉”问题。

为有效解决上述问题，研究者们提出了多种优化策略。约束生成技术通过在模型训练过程中引入知识标签，强制模型在生成文本时必须引用检索到的内容，以此来保证生成内容与事实的一致性。置信度过滤机制则通过对生成答案与检索内容的语义一致性进行评估，对于那些可信度较低的结果，系统会触发二次检索或对答案进行修正 ^[9] 。

值得一提的是，近年来兴起的检索- 生成联合训练方法，通过构建端到端（End-to-End ）的优化目标函数，使得检索器和生成器能够在交互过程中实现协同进化。这种方法打破了传统检索与生成模块相对独立的工作模式，进一步提升了RAG 系统的整体性能 ^[10] 。

3. 知识库：结构化与非结构化数据的融合

知识库作为RAG 系统的知识源泉，其构建质量的高低直接决定了系统最终的应用效果。现代知识库通常包含结构化与非结构化两类数据：结构化数据，如关系型数据库中的表格数据、知识图谱中的节点与边信息，具有清晰的语义结构和数据模式，适合进行快速精确的检索操作；非结构化数据，如学术论文、新闻报道、企业技术文档等，虽然蕴含着丰富的知识，但由于缺乏统一的结构，需要经过一系列预处理操作才能被系统有效利用。

在知识库构建过程中，数据预处理是至关重要的环节。对于非结构化文档，通常会采用分块（chunking ）技术，将长文本分割为固定长度的片段，以此降低检索单元的粒度，提高检索效率。同时，为了进一步提升检索的准确性和灵活性，会为每个文本块添加元数据（metadata ），如文档来源、创建时间、主题标签、关键词等。以金融领域为例，当为新闻文档添加“行业分类”“事件类型”“影响板块”等标签后，系统在处理“新能源板块政策变动影响”这类查询时，响应速度能够提升约40% ^[11] 。

此外，随着知识的不断更新和积累，知识库还需要具备动态更新和维护的能力。这不仅包括对新数据的及时添加，还涉及对过时或错误数据的清理和修正，以确保系统始终能够获取到准确、最新的知识。

6.1.3 与传统生成模型的区别与优势

相较于基于参数记忆的传统生成模型，RAG 在知识获取机制、事实准确性保障以及领域适应性等方面展现出了显著的优势，这些独特的特性使得RAG 在构建实用化智能应用的过程中更具竞争力。

1. 动态知识更新机制

传统预训练模型的知识主要存储于模型参数之中，一旦模型训练完成，其知识体系便处于相对静态的状态。这种机制导致传统模型在面对知识快速更新的场景时，往往显得力不从心。例如，当处理2023 年之后出现的新型技术概念、热点事件等相关问题时，在2022 年之前完成训练的模型很可能无法提供有效的解答。

而RAG 通过引入外部知识库，实现了知识的实时更新。以金融领域为例，某头部券商基于RAG 技术构建的智能投研系统，通过与彭博终端、行业研报库等数据源建立实时连接，能够实时获取全球金融市场的动态信息，包括股票价格波动、宏观经济数据变化、企业财报发布等。当客户咨询某只股票的最新走势及投资建议时，该系统能够迅速整合最新数据，经过分析处理后为客户提供包含最新市场动态和专业分析的投资建议 ^[12] 。

2. 事实性保障能力

“幻觉”问题一直是传统生成模型在处理知识密集型任务时难以克服的主要缺陷。由于传统模型在训练过程中学习的是语言的概率分布，而非确切的事实，因此在处理专业问题时，模型容易生成一些看似合理，但实际上与事实不符的内容。

RAG 通过检索外部权威知识源，为生成过程提供了可靠的事实依据。在法律问答场景中，基于RAG 的系统可以直接引用法律法规原文、司法解释、典型案例等权威资料，确保回答内容的权威性和准确性。例如，当用户咨询关于合同纠纷的法律问题时，系统能够检索到相关的法律条文和司法实践案例，并结合用户问题生成专业、准确的解答 ^[13] 。

3. 领域适应与定制能力

通用预训练模型在处理特定领域任务时，通常需要大量的领域数据进行微调，而且其最终效果往往还会受到训练数据覆盖范围的限制。如果训练数据不足或不够全面，模型在实际应用中的表现可能会大打折扣。

RAG 通过构建领域专属知识库，能够快速适应不同的应用场景。在制造业中，企业可以将设备手册、工艺标准、故障诊断案例等资料整合为知识库，结合RAG 技术构建智能运维系统。该系统无需进行复杂的模型调整，就能够快速理解一线工程师提出的技术问题，并从知识库中检索相关解决方案，有效提高企业的生产运维效率 ^[14] 。

6.1.4 应用领域与实际案例

RAG 技术凭借其高度的灵活性和强大的知识处理能力，在多个领域都取得了显著的应用成果，以下通过几个典型案例详细展示其实际应用价值。

在客户服务领域，某全球知名电商平台为了提升用户服务体验，降低人工客服压力，部署了基于RAG 的智能客服系统。该系统将平台上的商品详情、售后政策、物流信息等海量文档构建成一个庞大的知识库。系统上线后，智能客服对复杂问题的解决率提升了32% ，人工客服转接率降低了40% 。例如，当用户咨询某款商品的材质是否环保、是否支持七天无理由退换货以及如何查询物流进度等复杂组合问题时，该系统能够迅速从知识库中检索相关信息，并生成清晰、准确的回答，极大地提升了用户的购物体验 ^[15] 。

在医疗健康领域，某跨国药企为了提高研发人员的工作效率，利用RAG 技术开发了医学问答系统。该系统整合了PubMed 医学文献库、临床指南、企业内部的药物研发数据等多源信息。在实际应用中，研发人员在进行新药研发、临床试验设计等工作时，经常需要查询大量的文献资料和数据。通过该系统，他们能够快速获取到所需的信息，文献检索效率提升了50% 以上。例如，当研发人员研究某种疾病的新型治疗靶点时，系统可以快速检索到相关的基础研究文献、临床试验进展以及已有的药物研发成果，为研发工作提供了强有力的支持。

在教育领域，RAG 技术也展现出了巨大的应用潜力。某在线教育平台构建了智能学习辅助系统，该系统将各学科的教材、习题解析、学术论文等资料整合为知识库。当学生在学习过程中遇到疑难问题，如数学难题的多种解法、历史事件的深层背景分析等，系统能够根据问题从知识库中检索相关知识，并结合生成模型为学生提供详细的解答和拓展学习建议，有效帮助学生提升学习效果。

=========================================

本文节选自《大模型应用开发》，获得出版社和作者授权发布。

RAG概念、关键组件、工作原理及应用场景