摘要:在中国,几乎所有的大数据平台,不论是自建还是商用的平台,大部分都基于Hadoop生态系统的组件构建而成。Hadoop可以被视为大数据平台的开山鼻祖,其发展史对于我们了解大数据平台的发展非常重要。
开源的hadoop体系
Hortonworks的HDP
Cloudera的CDP

开源的hadoop体系
Hadoop最早起源于美国雅虎公司的一个研究项目,目的是为了处理超大规模数据集。2006年,Doug Cutting和Mike Cafarella创建了Hadoop项目,将Google的GFS(Google File System)和MapReduce思想作为基础,用Java语言实现了Hadoop分布式文件系统(HDFS)和分布式计算框架(MapReduce)。随着Hadoop的推出,大数据的概念开始引起人们的广泛关注。随后,Hadoop逐渐成为开源社区的热门项目,吸引了众多公司和开发者的参与和贡献。2011年,Apache基金会正式接管了Hadoop,并成立了Apache Hadoop项目,推动了Hadoop的进一步发展。在Hadoop生态系统的迅速发展中,出现了许多其他的组件和工具,用于满足不同的大数据处理需求。例如,Hive是一个数据仓库基础设施,提供类似于SQL的查询语言,使用户能够通过HiveQL语句来查询和分析存储在Hadoop集群上的数据。Spark是一个高性能的通用数据处理框架,通过内存计算提供了比Hadoop更快的处理速度。HBase提供了一个分布式、可伸缩的列存储数据库,用于存储大量结构化数据。随着时间的推移,Hadoop生态系统变得越来越庞大,涵盖了数据存储、数据处理、数据查询和分析等各个方面。在中国,Hadoop生态系统得到了广泛应用,成为许多大数据平台的核心基础,为人们处理和分析海量数据提供了强大的支持。由于Hadoop版本混乱多变,因此,Hadoop的版本选择问题一直令很多初级用户苦恼。于是Hortonworks和Cloudera公司基于当前的开源的版本,形成了各自的版本。

Hortonworks的HDP
Hortonworks是一家专注于企业Hadoop的公司,成立于2011年由雅虎和Benchmark Capital共同投资。当时,Hortonworks吸纳了来自雅虎的近30名高级工程师,其中包括Hadoop开发团队的负责人埃里克·巴尔德施维勒担任CEO。Hortonworks的口号简单明了——"We Do Hadoop",几乎将Hortonworks的未来与Hadoop的未来划上了等号。为了进一步发展,Hortonworks在2014年11月10日提交了IPO招股说明书,并于去年12月12日成功上市,发行了625万股股票,融资约1亿美元。作为少数几家专注于企业Hadoop的公司之一,Hortonworks在行业中占据着重要地位。通过HDP可以简化Hadoop集群的部署和管理。相比于下载各种Hadoop相关组件代码、编译、部署,HDP让大数据集群部署和管理变得很简单。HDP是企业级可用的大数据平台。
1、Hortonworks Data Platform(HDP):主要基于Apache Hadoop、Hive、Spark等。2、Hortonworks DataFlow(HDF):主要基于Apache Nifi、Apache Storm、Apache Kafka。3、Hortonworks DataPlane service:主要基于Apache Atlas、Cloudbreak以及可插拔的架构体系。像IBM这样的合作伙伴可以在其中添加服务。2019年1月,Hortonworks和CDH合并了。然后HDP产品和CDH产品合并成为CDP产品(Cloudera Data Platform)。
Cloudera的CDP
2019年Hortonworks和Cloudera合并,形成了新的产品CDP(Cloudera Data Platform)。这是一个集成了两家公司的技术和解决方案的大数据平台产品。CDP提供了全面的数据管理和分析能力,支持实时数据处理、数据仓库、数据湖、机器学习和人工智能等功能,帮助企业更好地进行数据驱动的决策。CDP采用了开放的架构和云原生技术,可以灵活部署在公有云、私有云或混合云环境中。它还提供了一系列的工具和服务,帮助企业快速构建和管理大数据平台,简化了数据管道的开发和部署过程。通过合并,Hortonworks和Cloudera的产品和技术得到了整合和增强,用户可以从中获益。CDP的目标是成为一个全面、开放和可扩展的大数据平台,帮助企业面对不断增长和多样化的数据挑战,并提供高效的数据管理和分析能力。合并之后主要支持的版本是公有云和私有云两大场景。公有云版本 CDP public cloud,目前三大公有云厂商 aws, gcp, azure都已经提供了支持;
私有云版本CDP private cloud base,其实对应的就是原来场景的 CDH 和 HDP。

CDP 已经没有免费模式,私有云是年度订阅模式,而且费用相对比较贵,因此适用的场景是大型企业。基于当前的情况,大数据平台的构建成本一般都比较贵,自建的大数据集群,使用开源的hadoop集群版本,需要自己进行运维,由于版本比较多,存在各种兼容问题,因此自建的开发成本也比较多,因此目前大数据平台一般采用商用的平台或者使用CDP比较多。CDP私有云基础支持各种混合解决方案,其中计算任务与数据存储分离,并且可以从远程集群访问数据,包括使用 CDP私有云数据服务创建的工作负载。这种混合方法通过管理存储、表架构、身份验证、授权和治理为容器化应用程序提供了基础。CDP Private Cloud Base 由各种组件组成 ,您可以从中选择任意服务组合来创建满足您的业务需求和工作负载的集群。一些预配置的服务包也可用于常见工作负载。最新7.1.9版本包含的组件如下所示:



CDP Private Cloud Base 包括 Cloudera Manager,Cloudera Manager 是一个用于管理、配置和监控 CDP Private Cloud Base 集群和 Cloudera Runtime 服务的应用程序。Cloudera Manager 服务器在 CDP Private Cloud Base 部署中的一台主机上运行,并使用在集群中每台主机上运行的 Cloudera Manager Agent 管理一个或多个集群。以上是hadoop 体系的发展史以及当前最新的情况,希望对您有所帮助。欢迎加入【数据行业交流群】社群,长按以下二维码加入专业微信群,商务合作加微信备注商务合作,AIGC应用开发交流入群备注AIGC应用

往期数据平台历史热门文章:
基于DataOps的数据开发治理:实现数据流程的自动化和规范化
数据平台:湖仓一体、流批一体、存算分离的核心问题及原因解析
数据治理体系该怎么建设?
实时数仓&流批一体技术发展趋势
数据仓库、数据中台、大数据平台的关系?
数字化转型如何促进业务的发展
数据中台中的核心概念解析
数据治理中的数据标准的作用?
全面数字化转型:打造全新营销模式
一图展示数据中台的数据流图
揭秘数据治理系统的数据流程图
往期AIGC历史热门文章:
AIGC系列之一-一文理解什么是Embedding嵌入技术
十大AIGC文生视频产品介绍
九大最热门的开源AI Agent框架
AutoGen零代码构建⾃⼰的智能助理