大家好啊,我是雨飞,见字如面。
01
前情提要
在上周的时候,我们提到了要做一次关于最近微软大火的 GraphRAG 的分享。
最近GraphRAG很火,计划搞个分享,制作了20页+的PPT。
终于,在昨天晚上完成了这次在腾讯会议的分享,总共近 30 位朋友参与了会议,感谢各位聆听分享的朋友。
很多人在听完后多觉得收益良多,今天我就把分享的精华内容同步给大家。如果有希望看回放或者 PPT 的朋友,二维码在文末,可以扫码加我好友,邀你进群。
02
知识图谱概述
首先,我们给大家分享的是关于知识图谱的基础知识,知识图谱英文名称 Knowledge Graph,简称 KG,并不是一个很新的内容,早在1998 年 Tim Berners-Lee 就提出了语义网的概念,可以说是知识图谱的雏形。
随后,各种类型的图谱都逐渐建立起来,比如我们熟知的 WordNet、知网、维基百科等等。
只不过,之前大家只是构建知识图谱,但并没有过多的去关注知识图谱的应用,只到 2012 年,谷歌发布了利用知识图谱的新一代智能搜索功能。具体来说,用户在使用互联网搜索的时候,不仅能搜索到相关的网页,并且可以展示当前搜索词所相关的基础信息。
如下图所示,在搜索北京大学的时候,不仅展示北京大学相关的网站,还可以展示北京大学的校徽、地址、电话等信息。
更具体来说,知识图谱是一个包含顶点和边的有向图。其中,顶点表示一个实体,或者概念。如果是具体的人、物体则被称为实体,如果是类似电影、电视剧、国家等这种抽象的信息,则被称为概念。
不同顶点之间通过边进行链接,在图谱中,这些边被称为关系或者属性。表示了两个顶点之间的关系。以下图为例,比尔盖茨的国籍是美国,则我们可以用一个三元组的数据去表示这条知识。(比尔盖茨,国籍,美国),其中「比尔盖茨」和「美国」都是实体,「国籍」表示关系。
03
RAG 基本原理
检索增强生成技术(Retrieval-Augmented Generation),也被称为 RAG,其核心的目的就是为了减少大模型在回答用户问题时存在的幻觉问题,以及数据和知识更新不及时等问题。
从下图的示意图中可以看出,整个 RAG 的流程主要分为三个部分。
一、建立索引,通过对自有知识库的数据进行切分、向量化等操作,将数据转化为固定维度的向量并进行存储。
二、向量检索,将用户的问题向量化以后,和向量数据库中的向量计算相似度,去获取和用户问题最相关的 Top K 个知识片段。
三、回答,将用户的问题,以及获取到的 K 个知识片段按照编写好的提示词模板进行封装,输入给大模型,让大模型根据已知的知识回答问题,输出最后的结果。
04
GraphRAG
从上面RAG 的基本流程中,我们了解到其主要的操作就是对向量进行相似度计算。而这种方法的可控性比较差,一旦向量生成之后,相似度的计算就是一个固定值,你很难简单的只根据阈值去过滤获取到的文档片段。因此,微软提出了结合知识图谱进行 RAG 的新模式,也就是所谓的 GraphRAG。
下图所示,就是简单的一个 GraphRAG 的示意图,它在原来向量检索的基础上,增加了知识图谱召回和多种数据聚合的步骤。
通过知识图谱进行召回数据和生成上下文的步骤,主要如下图所示,有下面三个步骤。首先,通过 LLM 去抽取用户问题中的实体(人名、地名、机构 等等);其次,通过图的检索算法去检索这个实体相关联的数据;最后,将这些相关联的数据, 拼接成上下文数据。
当然,在微软的论文中,真实的流程会比上面的更复杂一些,不仅包含了知识图谱构建,还有社区发现,摘要生成等内容,下次我们会更详细的和大家讲解。
05
未来展望
Neo4j 的 CEO Philip Rathle 在其文章中提到,科技的进步往往类似与 S 曲线一样前行,当一种技术达到顶峰时,另一种技术会刺激进步并超越之前的技术。
RAG 技术本身存在的不足,导致了人们尝试使用知识图谱结合 RAG 技术去提升回答效果,就诞生了 GraphRAG 技术。
而 GraphRAG本身耗费的 token 很多,时间成本很高,在迭代一段时间之后,也会出现更高级的技术去优化。
未来已来,让我们一起加油。如果你对本文分享的 PPT 以及视频回放感兴趣,欢迎扫码加我好友。
欢迎点赞,留下你的名字,祝,万事顺利?。
❤️同频小伙伴欢迎链接
❤️往期经典好文❤️
AI 爱好者必看,AI发展的四个范式究竟指的是什么。弄懂了,就超越 99% 的人。
-----------------------------------------------
----------------------------------------------
----------------------------------------------
AI工具:体验了一下天工AI,我想这才是未来该有的样子。99%的需求都可以一键满足。
----------------------------------------------
❤️AI解决方案咨询案例❤️
现在AI这么火,我有必要搞个副业吗?|咨询师日记 Vol.12
----------------------------------------------
17999的张雪峰咨询费出不起,99的AI志愿填报可行吗?|咨询师日记Vol.11
----------------------------------------------
200元可以定制一个本地RAG问答系统吗?|咨询师日记 Vol.10
----------------------------------------------
让你买一块4090显卡的底层逻辑是什么?|咨询师日记 Vol.9
----------------------------------------------
完全不懂代码,要去往全栈开发深耕吗?|咨询师日记 Vol.8
----------------------------------------------
----------------------------------------------
----------------------------------------------
----------------------------------------------
----------------------------------------------
----------------------------------------------
大四即将毕业,该考研还是工作还是搞搞副业?| 咨询师日记 Vol.2
----------------------------------------------
程序员只想搞技术,怎么选择副业方向?| 咨询师日记 Vol.1
❤️福利❤️
目前我致力于AI工具拆解、AI解决方案的咨询、落地以及AIGC培训,如果有相关问题,可以加我备注「公众号」,进行免费咨询,并领取我整理的AI学习资料和常用AI工具集。
部分资料截图:
「雨飞陪你玩赚AI」,知识星球,欢迎来围观,交个朋友。
你的每一个『点赞』,都是鼓励我进步的勇气,点个『在看』,加油吧,一起成长!
声明:文中含有雨飞的广告