
01
—
什么是DataOps


通过数据采集、数据清洗、数据加工,服务开发或者数据同步建立 数据管道,这些数据管道是通过代码的方式建立的数据管道,通过后台调度系统定期执行,因此这个流程称为数据管道自动化,即为数据管道是数据从采集到分析的流程。
另外按照研发流程需要支持数据采集可以进行单元测试,数据清洗可以进行单元测试,数据加工可以进行单元测试,服务开发可以进行单元测试,也可以进行从数据采集到服务开发整个数据管道的集成测试,集成测试完成之后,进行一体发布,完成整个数据管道的发布。
1、风险难测的数据变更:数据依赖复杂、数据资产重复、运维成本上升。
2、割裂的数据研发体验:开发工具繁杂、频繁切换平台、使用流程复杂。
3、难以推动的链路协作:跨部门数据变更难协同。持续集成和交付困难。
4、缺乏统一大数据开发代码管理机制。版本协同困难。
基于以上的风险,DataOps数据开发平台通过开发运维一体化的平台支持代码的开发,测试,发布,数据管道中的不同步骤需要在同一个版本下同时开发,同时测试,同时发布后,正规数据管道才是通的,进而支持不同版本的迭代。整体开发测试和版本变更过程都在数据开发平台中进行,数据开发平台自动获取数据变更的血缘,通过数据血缘分析以及影响分析,了解到数据变更的风险,以此降低运维成本和数据变更风险。
整体的开发流程如下图所示:

上图是正常的大数据代码开发的流程,分为正常需求流程和紧急需求迭代流程,数据管道在下图中可以理解为master版本库一直存在于开发环境,测试环境,UAT环境,以及生产环境,需要通过发布的方式进行代码迭代同步,在紧急需求的情况下,能够进行对开发和测试环境克隆,快速克隆出开发环境和测试环境用于紧急需求的开发和测试。一体化的开发工具和简单易用的环境搭建流程和克隆流程,以及发布部署流程,极大缩短了开发部署的时间,让开发人员专注于代码开发,不会为环境部署和发布浪费更多的时间。同时临时使用的环境在使用完后,通过一键销毁,快速销毁环境,将资源得以释放。从而达到一体化的研发体验。
整个流程在不同的版本迭代过程中持续集成和持续交付,数据团队的开发和交付持续迭代,所有开发团队、测试团队、运维团队的交互都通过一键发布解决和线上审批流程解决,大大降低了部门之间协同困难的问题。
数据开发平台支持整体的版本管理,支持历史版本的查看以及复制功能,通过回退功能,可以将生产环境的运行版本回退到历史版本,同时可以支持历史版本的对比功能。
最后需要对数据管道的代码进行运维监控,通过实时监控数据管道的运行状态,收集和分析指标,了解数据管道中的代码运行的情况。
总结一下,DataOps 数据开发平台 通过一体化的开发流程,解决了割裂的大数据开发流程,让整个数据血缘可以追踪,便于降低数据变更的风险,另外显示的自动化的构建数据管道,提高了开发效率,降低沟通成本,提高了版本开发的效率,持续集成和持续交付的流程,减少了部署环境和发布时间,提高效率的同时,降低运维难度。
欢迎加入【数据行业交流群】社群,长按以下二维码加入专业微信群,获取最新的行业信息,商务合作加微信备注商务合作
