1. 数据中台
1.1. 数据中台 简介
作者:傅一平
链接:https://www.jianshu.com/p/f8a7c33709b3
来源:简书
简书著作权归作者所有,任何形式的转载都请联系作者获得授权并注明出处。
阿里提出了“大中台,小前台”,其中台事业部包括搜索事业部、共享业务平台、数据技术及产品部,数据技术及产品部应是数据中台建设的核心部门。
所谓数据中台,即实现数据的分层与水平解耦,沉淀公共的数据能力。可分为三层,数据模型、数据服务与数据开发,通过数据建模实现跨域数据整合和知识沉淀,通过数据服务实现对于数据的封装和开放,快速、灵活满足上层应用的要求,通过数据开发工具满足个性化数据和应用的需要,见下图(以某运营商为例):
1、数据模型
数据模型是分层次的,以前叫作数据仓库模型,笔者这里概括为三层,基础模型一般是关系建模,主要实现数据的标准化,我们叫作“书同文、车同轨”,融合模型一般是维度建模,主要实现跨越数据的整合,整合的形式可以是汇总、关联,也包括解析,挖掘模型其实是偏应用的,但如果用的人多了,你也可以把挖掘模型作为企业的知识沉淀到中台,比如离网挽留的模型具有很大的共性,就应该有人把它规整到中台模型,以便开放给其它人使用,中台的中是相对的,没有绝对的标准。
2、数据服务
将数据模型按照应用要求做了服务封装,就构成了数据服务,这个跟业务中台中的服务概念是完全相同的,只是数据封装比一般的功能封装要难一点,毕竟OLTP功能的变化有限,而数据分析受市场因素的影响很大,变化更快,导致服务封装的难度变大。
随着企业大数据运营的深入,各类大数据应用层出不穷,对于数据服务的需求非常迫切,大数据如果不服务化,就无法规模化,比如浙江移动封装了客户洞察、位置洞察、营销管理、终端洞察、金融征信等各种服务共计几百个,每月调用量超过亿次,灵活的满足了内外大数据服务的要求。
3、数据开发
但有数据模型和数据服务还是远远不够的,因为再好的现成数据和服务也往往无法满足前端个性化的要求,这时候就得授人以鱼不如授人以渔了,数据中台的最后一层就是数据开发,其按照开发难度也分为三个层次,最简单的是提供标签库(DMP),用户可以基于标签的组装快速形成营销客户群,一般面向业务人员,其次是提供数据开发平台,用户可以基于该平台访问到所有的数据并进行可视化开发,一般面向SQL开发人员,最后就是提供应用环境和组件,让技术人员可以自主打造个性化数据产品,以上层层递进,满足不同层次人员的要求。
对于标签库(DMP)到底是属于SaaS还是PaaS是有争议的,但标签库这类平台显然较生意参谋类产品更中台一点,因为其通用性更强,专有业务的特性不是非常明显,笔者还是认为可以归为中台。
应该来讲,数据开发中的组件,比如页面组件、可视化组件什么的,归属到业务中台似乎更合理,但其实也要看企业的实际情况,哪里用的多就可以归属到哪里,没有绝对的标准了。
以上划分方式在逻辑上还是说得通的,但还有很多没有考虑进来,比如算法服务、机器学习引擎、hadoop、MPP等等,笔者觉得算法服务应该属于数据服务的一种类型,但h a d o o p、MPP、机器学习引擎更底层一点,应属于私有云或公有云的范畴了,比如笔者看到阿里云就提供了MaxCompute这类机器学习服务。
1.2. 数据中台和数据创库区别
作者:袋鼠云
链接:https://www.zhihu.com/question/282421879/answer/427034400
来源:知乎
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。
数据中台从某个意义来说属于数仓的一种,都是要把数据抽进来建立一个数据仓库。但是两者的数据来源和建立数仓的目标以及数据应用的方向都存在很大差异。
首先,从数据来源来说,数据中台的数据来源期望是全域数据包括业务数据库,日志数据,埋点数据,爬虫数据,外部数据等。
数据的来源可以是结构化数据或者非结构化的数据。而传统数仓的数据来源主要是业务数据库,数据格式也是以结构化数据为主。
其次,建立数据中台的目标是为了融合整个企业的全部数据,打通数据之间的隔阂,消除数据标准和口径不一致的问题。数据中台通常会对来自多方面的的基础数据进行清洗,按照主题域概念建立多个以事物为主的主题域比如用户主题域,商品主题域,渠道主题域,门店主题域等等。数据中台遵循三个one的概念: One Data, One ID, One Service,就是说数据中台不仅仅是汇聚企业各种数据,而且让这些数据遵循相同的标准和口径,对事物的标识能统一或者相互关联,并且提供统一的数据服务接口。就像做菜一样,按照标准化的菜名,先把所有可能用到的材料都准备好。而传统的数仓主要用来做BI的报表,目的性很单一,只抽取和清洗该相关分析报表用到基础数据,新增一张报表,就要从底层到上层再做一次。
然后,在数据应用方面,建立在数据中台上的数据应用不仅仅只是面向于BI报表,更多面向营销推荐,用户画像,AI决策分析,风险评估等。而且这些应用的特点是比较轻,容易快速开发出来,因为重要的数据分析工作在数据中台已经完成并且沉淀,之前工作成果都能被多个应用共享。
而传统的数据仓库主要是面向报表,数据应用的建设就是传统烟囱式建设,每次都从头再来的开发方式。
最后,数据中台是建立在分布式计算平台和存储平台,理论上可以无限扩充平台的计算和存储能力。而多数的传统数仓工具都是建立的单机的基础上,一旦数据量变大,会受单机容量的限制。
作者:靳勇
链接:https://www.zhihu.com/question/282421879/answer/634787252
来源:知乎
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。
数据中台面向全域数据采集的管理,数据仓库通常采集某个主题域的数据。
1,资产化的角度看,数据中台和数据仓库都能算是数据资产化,区别是数据中台能够进行全域数据的整体规划和数据全生命周期管理,数据仓库就很难实现;
2,从数据能力服务化的角度来看,数据中台通过One Data、One ID、One Service的理念,以及存储治理,计算治理的方式,可以让更多的前台应用共享数据中台提供的数据能力(比如数据API,数据标签,数据监控等等);数据仓库通常是为了分析某些业务指标,或分析某个主题数据而搭建,目标更明确,输出更多的是数据结果,而不是数据能力;
3,从投资回报率来看,数据中台输出的是数据能力,在建设数据中台的时候,是 预估 使用方对数据能力的需求,所以需要考虑ROI;数据仓库通常是有明确需求才会建设,一般不会考虑ROI;