大数据平台架构演变

行业界定

     大数据平台,是企业用户在大数据环境下用于分析与决策的平台。按技术架构划分,主要包含数据收集与存储、数据计算、数据分析与决策三个层级。从服务边界来看,大数据平台概念小于数据中台,强调平台的数据分析与决策能力,弱化了数据本身的规划、治理与服务;在OLAP之上,又融合了深度学习等技术,在提升数据分析深度和广度的同时,也极大增加了数据服务在业务侧的低门槛和友好性。企业通过构建大数据平台,聚拢各业务系统数据,打通全渠道组织各业务维度,用数据分析驱动业务,满足企业级宽表实时分析、实时BI 报表分析、用户行为分析、自助分析、 AI 智能分析等全方位需求。

技术演变

  • 1.0时代典型特征:平台技术架构持续更新迭代,由离线处理向实时分析演进

1.Hadoop 架构

基于 Hadoop 架构的流程原理:

各类结构化数据通过采集管道进入Kafka,Spark 实时消费Kafka 的数据,写入集群内的 HDFS,RDS 数据库中的数据通过Spark 每天一次全量扫表同步至 HDFS。HDFS存储汇总用户数据,对数据库数据定期执行 snapshot。

基于 Hadoop 分析架构的优缺点:

优点:借助 Hadoop 集群的高并发能力,实现百 TB 到 PB级数据的离线计算和处理,同时数据存储在 HDFS 上,存储成本低。

缺点:数据定期入库,数据计算的时效性通常是T+1。

2. 数据库+AP 分析引擎架构

数据库结合 AP 分析引擎架构的流程原理:

将平台架构引入 TP 引擎结合 AP引擎实现实时分析平台,各类结构化数据同步至分析引擎后便可进行交互分析。

数据库结合 AP 分析引擎架构的优缺点:

优点:舍弃了传统离线大数据架构,实现实时批量计算,在GB 到100TB 级别的计算有了很大提升,BI 人员无需等待 T+1的离线计算后得到最终结果,大幅提升数据资产的商业价值。

缺点:在处理百 PB 级以上数据时,ClickHouse架构的扩展能力、复杂场景计算和存储成本相对 Hadoop 方案较弱。

  • 2.0时代:平台技术架构持续更新迭代,产品在云上落地和升级

1.云上数据湖架构

基于云上数据湖架构的流程原理:

可理解为借助云原生存储引擎,基于传统Hadoop方案的云上落地和升级,保留自建 HDFS 集群的分布式存储可靠性和高吞吐能力,借助数据湖降低传统方案的运维和存储成本。

基于云上数据湖的架构的优缺点:

优点:对大数据平台的使用者做了区分和定义,针对不同的使用场景,数据的使用方式,分析复杂度和时效性也会有不同。

缺点:数据湖方案本身并没有解决传统方案的所有痛点。

2.湖仓一体架构

基于云上湖仓一体架构的流程原理:

湖仓一体融合了数仓和数据湖的优势,通过将数仓构建在数据湖上,在用于数据湖的低成本存储上实现与数据仓库中类似的数据结构和数据管理功能。其最重要的一点,是实现湖里和仓里的数据、元数据能够无缝打通,并且自由流动。湖仓一体架构核心定位是基于一套存储、一份数据、一套任务,实现数据集成、处理、治理等任务,面向可扩展的、可插拔的各种计算和应用的一种架构体系。

优点

1)数据处理速度快:湖仓一体架构可以实现实时数据处理和批量数据处理,能够更快地响应用户的需求。

2)数据治理简化:湖仓一体架构可以将数据仓库和数据湖的数据治理流程整合在一起,降低数据治理的复杂度。

3)数据安全性增强:湖仓一体架构可以实现数据访问控制和数据加密,保障数据的安全性。

4)数据分析能力增强:湖仓一体架构可以支持多种数据分析方法,包括批量数据分析、交互式数据分析和流式数据分析,提高数据分析的灵活性和准确性。

5)成本节省:湖仓一体架构可以降低数据存储和分析的成本,提高数据处理的效率和资源利用率。

3. 云原生存算分离架构

基于云原生结构化存储引擎的分析架构的流程原理:

将类似第二阶段和第三阶段的融合,在线库和分析库隔离,不依赖在线库数据;全量数据支持高效批量计算,分析结果集支持即席查询,支持实时写入实时流计算。

基于云原生结构化存储引擎的分析架构的优点:

优点:在具备宽表合并高吞吐低成本存储的同时,可以提供TB级别数据即席查询和分析的能力,无需过度依赖额外的计算引擎,实现高效实时分析能力。

核心应用

1.流批一体:统一开发、统一计算、逻辑一致、降低成本

采用流计算+交互式分析双引擎架构,流计算负责基础数据,交互式分析引擎是中心,流计算引擎对数据进行实时ETL 工作,与离线相比,降低了 ETL 过程的 latency。交互式分析引擎自带存储,通过计算存储的协同化,实现高写入TPS、高查询 QPS 和低查询 latency,从而做到全链路的实时化和 SQL化,实现用批的方式做到实时分析和按需分析,并能快速响应业务变化,两者配合实现1+1>2的效果。流批一体实现了建立一套统一的系统,由同一个开发团队开发,同时支持流式计算和批量计算,提供一致的编程环境,降低开发和运维成本,减少资源浪费,提高数据口径的一致性。

2. 数据孪生与增强分析:释放数据潜力,加强数据价值转化

数据孪生: 利用物理模型、传感器更新、运行历史数据,集成多学科、多物理量的仿真过程,在虚拟空间中完成映射,在信息化平台创建虚拟的“数字孪生体”,融合多源异构数据,打通企业数据孤岛,让数据在业务侧发挥更大价值。
增强分析: 2017年由 Gartner首次提出,并将其定义为下一代数据和分析范式,通过将机器学习和人工智能运用于现有的操作流程中,使数据管理和分析自动化,从而更有效地进行数据分析。增强分析使更多的用户获得更深入的数据洞察,减少了当前依赖IT 处理所带来的效率问题和口径偏差。


3. 商业智能 BI:通过数据整合分析实现商业价值

商业智能(BI,Business Intelligence)是大数据分析最典型应用领域,是由数据库、数据仓库、数据湖、湖仓一体、ETL、OLAP、数据挖掘、机器学习和人工智能等技术组成的一套完整解决方案。随着大数据处理技术的发展,商业智能的洞察和分析能力进一步提升,数据分析和可视化的门槛不断降低,企业实现不同层级的拖拽式自助分析和多种类型的图表展示,并在统一平台进行整合和共享,获得不同层级的数据洞察,最终用于商业决策。机器学习和人工智能在商业智能中扮演越来越重要的角色。




请使用浏览器的分享功能分享到微信等