一文读懂数据库、数据仓库、数据平台、数据中台、数据湖

佛系随性笔记,记录最好的自己!
个人水平比较有限,每篇都尽量以白话+图文的方式去说明。


01


什么是数据库?


数据库是用于存储、管理、维护和检索数据的系统。是所有软件应用、网站、企业信息系统和数据驱动决策的基础。简单来说就是:数据库就是一个存储信息(水)的容器。

数据库使用场景-图1

数据库主要分为两种类型:关系型数据库和非关系型(NoSQL)数据库。非关系型又分为四种类型:键值型、列存储型、文件型和图形数据库(这块后面有时间详细说下)。

数据库类型-图2

题外话:某些数据库(如 MongoDB)可以分为多个类别,因为它们支持不同的数据模型。此外,所提供的列表并不详尽,因为每个类别中还有许多其他数据库可用。

数据类型-图3

数据可以是结构化的半结构化的,也可以是非结构化的,并以表格、文档和键值对等各种格式存储。它可以是任何东西,从简单的购物清单到图片库,再到企业网络中的大量信息。
数据库它的重点在"事务处理(可以简单理解为SQL操作)"上,不擅长数据分析


02


什么是数据仓库?


数据仓库是一个集中式存储库,用于存储,来自多个数据源的大量结构化数据。它使组织能够整合数据,进行数据分析、报告等。
举个栗子:数据库是超市的一瓶水或酒,数据仓库就是超市的酒水展览区。

数据仓库使用场景-图4

数据仓库架构示意-图5

据仓库适合处理结构化数据进行分析,但无法处理半结构化、非结构化数据,也无法实时进行数据分析


03



什么是数据平台?



数据平台是一个全面的技术解决方案,对数据生命周期的整个数据处理流程,包括数据的收集、存储、管理、分析和可视化。它不仅包含数据仓库的功能,还扩展了非结构化数据的采集、大数据处理、实时分析、数据科学和机器学习等能力。

举个栗子:数据平台就是超市的管理办公室,管理商品的摆放、下架等等。

数据平台使用场景-图6


数据仓库架构示意-图7

数据平台擅长处理结构化、非结构化数据,并深度、实时分析,生成报告,但相对较为闭塞。



04



什么是数据中台?


数据中台是一种以数据为核心的架构和理念,旨在构建一个集中、可控、高效的数据管理平台。它将企业内外的各类数据整合,通过统一的标准和规范,实现数据的互通和共享
举个栗子:数据中台就是超市的供应链,接收派发来自不同厂家的商品、物资等,进行分类、存储和摆放。

数据中台使用场景-图8

数据中台架构示意-图9


数据中台能提供API或其他共享方式提供数据服务,确保数据快速、灵活地服务于业务,加速决策。但缺少原始的、未加工的形式的数据。






05



什么是数据湖?



数据湖是一个未整合的、非面向主题的数据集合。数据湖可以存放来源不同的任何类型的数据,这些数据可以是结构化的、非结构化的、半结构化的。它是你可以以可伸缩的方式存储和处理所有数据的地方。

举个栗子:数据湖就是N个超市(还是不同类型的),山姆+华润万家+朴朴+摆地摊等等。

数据湖使用场景-图10 

数据湖架构示意-图11

数据湖是一个存储(N多数据)原始数据的地方,适合为数据分析人员和数据科学家提供一个自由探索的环境,他们可以在这里挖掘数据,发现新的见解。就像是一个实验室,里面的化学用品(数据)可以被拿来分析和实验,看看能发现什么新东西。



06



区别



  1. 数据类型

  • 数据库:主要处理结构化数据,有明确的数据结构和模式。
  • 数据仓库:通常处理结构化数据,经过了一定的清洗、转换和整合。
  • 数据平台:能够处理结构化、半结构化和非结构化数据。
  • 数据中台:整合了多种类型的数据,包括结构化、半结构化和非结构化。
  • 数据湖:可以容纳各种类型的数据,包括原始的、未经处理的结构化、半结构化和非结构化数据。
  • 数据用途:

    • 数据库:支持日常的事务处理,如订单录入、客户信息管理等。

    • 数据仓库:用于数据分析和决策支持,例如生成报表、进行数据挖掘。

    • 数据平台:涵盖了数据的全生命周期管理,包括采集、存储、处理、分析和应用。

    • 数据中台:着重于打破数据孤岛,实现数据的共享和复用,以支持快速的业务创新。

    • 数据湖:作为数据的存储池,为后续的分析和处理提供原始数据。

  • 数据模式:

    • 数据库:遵循严格的预定义模式。

    • 数据仓库:通常有较为固定的模式,但相对数据库可能更具灵活性。

    • 数据平台:模式较为灵活,可根据不同的处理需求进行调整。

    • 数据中台:强调统一的数据标准和规范,以确保数据的一致性和可用性。

    • 数据湖:没有预先定义的模式,数据在写入时无需进行模式定义。

  • 数据处理速度:

    • 数据库:注重事务处理的速度和一致性。

    • 数据仓库:处理大规模数据的分析查询,速度相对较慢。

    • 数据平台:性能取决于具体的技术架构和配置。

    • 数据中台:致力于提供快速的数据服务和响应能力。

    • 数据湖:在处理大规模数据时,性能可能会受到存储架构和计算资源的影响。

  • 成本:

    • 数据库:相对较低的建设和维护成本。

    • 数据仓库:建设和维护成本较高。

    • 数据平台:成本因规模和技术选型而异。

    • 数据中台:通常需要较高的投入来构建和运营。

    • 数据湖:存储成本可能较高,但处理成本相对较低。

    区别示意-图12


    总的来说,数据库是数据管理的基础,数据仓库用于分析和决策支持,数据平台提供全面的数据处理能力,数据中台强调数据的整合和共享,数据湖则用于存储大量的原始数据。这些技术在不同的场景中都有各自的价值。

    6. 之间的联系:
      • 它们共同构成了企业的数据管理体系,相互协作以满足不同的业务需求。
      • 数据库为其他组件提供了基础的数据来源。
      • 数据仓库常常从数据库中获取数据,并进行整合和分析。
      • 数据平台可以整合来自数据库、数据仓库、数据湖等的数据,并提供统一的处理和管理环境。
      • 数据中台依赖于数据库、数据仓库和数据平台等提供的数据,实现数据的共享和服务化。
      • 数据湖可以作为数据的原始存储,为数据仓库、数据中台等提供数据支持。



      举个栗子:一家超市企业可能使用数据库来管理订单和用户信息,将这些数据抽取到数据仓库进行销售趋势分析,利用数据平台进行大数据处理和机器学习模型训练,通过数据中台实现数据在不同业务部门的共享和复用,同时将大量的用户行为数据存储在数据湖中以备后续的深入分析。









      深圳        

      注释:如有失误,望批评指正!


      后面会写下Windows和liunx的应急响应技巧、容器、还有一些网络安全、数据安全。


      后台输入“Windows应急响应手册、linux应急响应手册、数据安全政策、数据安全治理、电力、工业、金融”有相关资料可供下载






      请使用浏览器的分享功能分享到微信等