随着大数据技术的发展,湖仓一体数据平台已经成为主流的技术架构了,但是湖仓一体技术架构到底能给客户或者使用方带来哪些价值了?本文从以下几个方面来探讨:
常规湖上建仓有什么问题?
湖仓一体架构的实际价值
湖仓一体数据平台的市场情况
湖仓一体的主要发展趋势
01
—
湖上建仓有什么问题?
湖上建仓不是真的湖仓一体
湖上建仓将数据湖和数据仓库结合起来,实现了多源异构数据的ETL到数据湖的集成和存储,并进一步ETL到数据仓库,支持数据分析、数据科学、数据挖掘、机器学习以及深度学习等多种计算分析引擎的访问。
然而,湖上建仓并没有完全解决数据一致性和数据冗余等问题,也未实现数据的统一管理。此外,从数据湖到数据仓库的ETL过程也带来了复杂性。湖上建仓架构存在以下不足之处:
1、数据质量不可靠:数据从数据湖ETL到数据仓库时,需要经过多个流式引擎进行处理来保证数据湖和数据仓库之间的数据一致性。相比传统的批处理方式,这增加了操作的复杂性,并且难以保证可靠性,容易产生数据一致性问题。
2、未实现对非结构化数据的ACID事务支持:数据湖中的大部分数据仍然是非结构化的,而数据仓库并不支持对数据湖中数据的治理。因此,数据湖中的数据仍然不支持ACID事务。
3、未消除数据冗余:湖上建仓实际上是将数据湖和数据仓库进行了两层架构的融合,同一份数据仍然以不同的方式存储在数据湖和数据仓库中,因此数据冗余并没有完全消除。
4、数据仓库不支持机器学习和数据挖掘等计算引擎:像TensorFlow和PyTorch这样的机器学习和深度学习框架需要使用非SQL代码来处理大规模数据集,无法直接访问数据仓库内部的数据格式,因此不适用于数据仓库系统。
02
—
湖仓一体的真正价值

湖仓融合才是真的湖仓一体
湖仓融合是将数据湖的低成本存储和数据仓库的高效分析能力相结合,通过事务层实现元数据统一,解决数据孤岛、数据冗余的问题,并提供多种工作负载的实时、准确的数据支持,加速数据共享和价值挖掘。
在数据湖上增加事务层是湖仓融合的关键。事务层提供诸如事务管理、统一元数据、索引、事务版本和状态控制、数据目录以及湖表格式支持等功能。事务层使得用户可以灵活地从多种计算引擎中读取不同类型的数据,如BI、可视化、数据科学和机器学习。同时,事务层还具备ACID事务性,实现了对结构化数据、半结构化数据和非结构化数据的统一管理。目前已经有多个数据湖解决方案,如Delta Lake、Apache Iceberg和Apache Hudi,实现了在数据湖上的事务层功能。
另外,在满足实时分析需求、处理大规模数据以及资源动态扩展等需求的驱动下,存算分离和批流一体成为湖仓融合的必备功能。此外,对于多数据源系统,湖仓融合还可以通过数据虚拟化实现多源系统数据资产的统一管理。湖仓一体提供了一站式数据平台能力,覆盖了数据采集、数据开发、数据治理、数据资产管理、数据建模分析和数据服务等全链路数据能力,更好地满足了企业的需求。
以下展示了湖上建仓和湖仓一体的功能区别:

湖仓一体数据平台的真正价值
1、湖仓一体在数据计算、数据管理和数据应用方面都具有明显优势,能更好地满足企业的数据资产统一管理需求。
在数据计算方面,湖仓融合路线实现了基于一套数据的开发、计算和管理,彻底消除了数据冗余,具备了ACID事务性、存算分离、批流一体和实时分析等方面的明显优势。
在数据管理方面,湖仓融合采用了先进的数据工程和数据管理理念,通过一套数据支持实现数据工程的DataOps和Data Fabric的概念。
在数据应用方面,湖仓融合可以支持BI、可视化、数据科学、机器学习等多种数据应用场景,实现了多场景融合分析。
2、湖仓融合还能降低数据迁移的风险和成本,为大中型企业的数字化转型提供成熟的解决方案。
在数字化转型过程中,大中型企业通常存在数据湖、数据仓库、专用数据库、云存储、大数据平台和流数据处理平台等多种系统共存的复杂架构。而湖仓融合需要企业将已有系统中的数据迁移到新的数据湖,用新的湖仓引擎替代旧有的数仓和数据湖引擎,并在湖仓一体的基础上实现数据的统一存储、开发和管理。这种迁移不仅存在巨大的成本和安全风险,还要求企业放弃原有的数据仓库、数据湖等架构,导致原有架构的效能被浪费。
相比之下,湖仓一体可以通过数据虚拟化的方式以逻辑的方式统一组织、管理和共享数据库、数据仓库、数据湖和云上数据,从而降低数据迁移的风险和成本。
03
—
湖仓一体的主要发展趋势
目前所有湖仓一体的厂家的基本情况如下图所示:

1、云厂家行业布局:依托于云能力面向政府政务和互联网企业提供湖仓解决方案,如华为侧重政府政务,阿里云面向互联网。
2、数据库行业布局:优先在数据库、数据仓库的深入性行业如金融、政府提供服务。
3、数据中台行业布局:优先服务零售消费、先进制造、生物医药等新经济行业的集团型企业以及部分金融企业。
4、大数据行业布局:以独立引擎提供兼容性的湖仓能力,可在金融、政府、能源、零售、汽车等全行业实现落地。
2022 年,在湖仓一体平台软件市场中,科杰科技市场份额占比 11.1%,位居第一。华为云、星环科技市场份额占比分别为 9.5%、7.3%,分别位列第二、第三。
未来湖仓一体的重要发展方向有两个:
1)云原生是一套全新的IT技术体系,包括容器、Kubernetes、微服务、服务网格、DevOps、可观测等关键技术。云原生技术具有松耦合、自动化、弹性调度、计算资源按需分配、高容错性等特点,可以充分发挥湖仓一体平台的价值。具体原因如下:
关键组件采用容器化封装,提升部署交付效率,更灵活满足各类企业的业务需求。
实现存算分离,降低数据存储成本,提升数据计算效率。
自动化编排和调度,降低湖仓一体平台的运维成本。
2)DataOps和Data Fabric是可以增强湖仓一体平台的应用价值,并提升其竞争优势的先进概念。
DataOps是一种先进的数据工程理念,涵盖了数据获取、数据集成、数据准备、数据治理、数据分析与建模等全流程。它提供了数据协作、数据开发、数据部署、编排、测试与监控等功能,可以显著提高数据开发管理效率。
Data Fabric作为一种前沿的数据管理理念,能够实现主动实时的数据治理。不同于传统的被动数据集中管控和集中治理,Data Fabric通过元数据主动发现功能可以自动检测数据源的变化,并通知下游使用数据的算法和模型。此外,它还可以提前判断数据的可预测性错误并发出警告,增强湖仓一体平台中的数据标准、主数据管理、数据质量和数据资产目录等功能。
Data Fabric是一种存储和管理数据的架构,它可以将分布在不同地点、不同环境中的数据整合在一起,并为用户提供统一的访问和管理接口。Data Fabric具有以下特点:
1、分布式存储:Data Fabric可以在多个地点同时存储数据,实现数据的分布式存储和备份,提高数据的可用性和容错性。
2、弹性伸缩:Data Fabric可以根据实际需求灵活调整存储和计算资源,从而实现在不同规模和负载下的弹性伸缩。
3、数据整合:Data Fabric可以将多种数据源的数据整合在一起,包括结构化数据、半结构化数据和非结构化数据,为用户提供统一的访问接口。
4、数据管理:Data Fabric提供了数据管理的功能,包括数据的索引、查询、版本控制和权限管理,便于用户对数据进行有效的管理和控制。
5、数据安全:Data Fabric具有完善的安全机制,可以对数据进行加密、权限控制和数据备份,确保数据的安全性和可靠性。