数据治理-初识阶段

佛系随性笔记,记录最好的自己!
个人水平比较有限,每篇都尽量以白话+图文的方式去说明。

文章架构

1、数据治理是咩?

2、数据治理相关术语和名词

3、数据治理治咩?

4、数据治理的现状、问题、挑战、价值

5、数据治理的框架和标准?

6、怎么治

7、案例(没写完--下次)





01

数据治理是咩?


现在,大家越来越重视数据,因为数据不仅能帮助我们回顾过去,还能帮助我们预测未来。企业开始更加关注数据治理,其实质是看重数据背后潜藏的商业价值。这一次,我们会聊聊数据治理是什么,为什么它这么重要,以及企业在进行数据治理时会遇到的价值、问题和挑战。


1.1. 数据治理是什么?

我之前询问过许多企业的不同层级的人员关于数据治理的看法,每个人都有自己的理解,没有一个统一的答案。下面是以不同的角度来看待数据治理的。

简述版

(1)管理层视角:对于管理者(如集团CEO、银行高层等),数据治理是企业战略的一部分,是推动企业数字化变革、转型的基石。像集团要求各分/子公司和业务部门按顶层战略部署开展数据治理相关工作;银行将数据战略纳入董事会议程,由董事会审批重大事项,通过数据治理赋能业务、服务客户、保障数据安全与合规等。

(2)业务人员视角:以企业市场部领导为代表的业务人员,常认为数据治理不是信息部门的事吗?自身只是配合。业务人员想利用数据做客户分析以提升销量,但存在很多问题,如不清楚企业有哪些数据。他们期望数据治理能让数据开放透明(有数据资源目录等)、数据有定义、方便获取且数据质量有保障,这击中了数据定义、数据地图构建和数据质量管理这三个数据治理的要害。

(3)技术人员视角

  • 张大炮(数据仓库领域):认为数据治理包括ETL(确保数据仓库有数据)、数据处理保障准确性可用性、元数据管理保障溯源和影响分析。

  • 梅太监(系统运维部):觉得企业数据治理重点在数据源(业务系统)治理,因为业务系统数据质量高了,数据仓库才能有高质量数据和洞察。

  • 小李子(数据平台部):认为重点在数据湖,因为企业大部分数据已接入数据湖,在数据湖治理数据,满足所有用数需求即可,且相比从源头治理更具优势(操作简单、周期短、成本低)。总之,不同技术方向的技术人员从自身专业出发对数据治理理解不同,在不同场景下数据治理内涵各有侧重。

简单来说,数据治理就是让企业的数据井井有条,发挥最大作用,帮助企业发展。不同的角色,对数据治理有不同的理解和需求。


1.2. 数据治理的定义

数据治理这个概念,不同的组织有不同的解释。国际数据管理协会(DAMA)认为它就像是管理数据资产的“交警”,负责制定规则和监督执行,确保数据有序流动。而国际数据治理研究所(DGI)则认为它是一个复杂的“操作手册”,告诉我们如何在正确的时间、地点,用正确的方法处理信息。

简单来说,就是让数据整齐划一,大家都能找到、用好它,同时保证数据的安全和准确。这是企业转型升级的必备工作,涉及到怎么管数据、谁来管、怎么用等方方面面


02

数据治理相关术语和名词
数据治理相关术语(这里大概看一眼就行,不用了解的太细,下述我只举例部分哈)


2.1. 数据元

数据元可以理解为数据的基本单元,就像单词是句子的基本单元一样。它由对象(比如手机号、性别)、特性(手机号的格式、性别的分类)和表示(手机号的数字、性别的“男”或“女”)三部分组成。数据元的作用就像是把数据标准化成一个个小模块,这样有助于数据的管理和应用。

主要作用:数据元帮助我们把数据标准化,就像是用同一种语言来描述事物,这样所有人都能明白。在企业管理中,数据元让数据变得更加统一和有序,就像是在仓库中把每种零件都分类放好,方便使用。

栗子:数据元在金融和医疗等行业中非常重要,就像是在这些领域的交流中使用了一套共同的“密码”。国家会制定一些标准,比如规定药品信息应该怎么记录和分享,这样所有人都能按照同样的规则来操作,确保信息的准确和一致。

2.2. 元数据

元数据就像是给数据贴上的标签或者说明书,它告诉我们数据是什么,从哪里来,以及如何使用这些数据。想象一下,如果你有一堆书,元数据就是每本书的封面、目录和简介,帮助你快速找到你想读的内容。

主要作用:元数据帮助我们更好地管理和查找数据,就像图书馆的索引卡一样,让数据变得更加有序和可访问。

栗子:元数据就像是数据仓库的地图,它帮助我们在复杂的数据环境中找到方向,确保我们能够高效地使用和管理数据。

2.3. 主数据:

主数据是企业中的“黄金数据”,它是那些在不同部门和系统中都需要共享和使用的关键信息,比如客户信息、产品信息等。

主要作用:主数据是企业的核心数据,它确保不同系统中的信息是一致的,就像是一家公司的“身份证”,保证了业务运作的准确性和效率。

栗子:主数据就像是企业的大脑,它协调不同部门之间的信息,确保每个人都在使用相同的数据,比如无论是销售部门还是客服部门,看到的客户信息都是一样的。

2.4. 业务数据:

业务数据就是企业在日常运营中产生的各种数据,比如销售记录、生产数据等。

主要作用:业务数据是企业活动的直接反映,它为企业的决策提供依据,就像是一天的工作日志,记录了所有发生的活动。

栗子:业务数据就像是企业的血液,它流动在企业各个部门之间,为企业的各项功能提供动力,比如销售数据帮助企业了解市场情况,生产数据帮助企业调整生产计划。

2.5. 主题数据:

主题数据就像是把数据按照特定的主题或者兴趣点整理好的资料夹。它把相关的数据放在一起,这样当人们需要针对某个特定主题进行分析时,就能快速找到所需的信息。主题数据通常是汇总后的信息,不经常更改,主要是用来读取和分析的。

主要作用:主题数据帮助企业和组织更好地进行数据分析和决策支持,就像是为特定的项目准备了专门的资料包,让决策者能够专注于他们最关心的问题。

栗子:不同的行业和企业会根据自己的需求定义不同的主题数据。比如一个制造企业可能会关注生产、销售、库存等不同的主题,每个主题都包含了相关的数据,帮助管理层更好地了解和决策。

2.6. 数据仓库:

数据仓库就像是一个巨大的资料库,它存储了企业所有的历史数据,这些数据被按照一定的主题组织起来,以便于进行分析和决策。

主要作用:数据仓库是企业的数据大本营,它把分散在各个业务系统中的数据集中起来,为决策提供支持。它不仅帮助整合数据,还能让用户从多个角度分析数据,甚至通过数据挖掘来预测未来。

栗子:数据仓库是进行数据分析和可视化的基础平台。它把各种数据汇集起来,分类整理,让用户能够快速找到所需的数据,支持数据分析。为了确保数据仓库中的信息准确可靠,企业会进行数据治理,提高数据质量,以便做出更准确的决策。

2.7. 数据湖:

数据湖就像是一个巨大的水池,可以容纳各种各样的水(数据),不管这些水是来自河流(结构化数据)、小溪(半结构化数据)还是雨水(非结构化数据)。它不需要先把水过滤或者装进瓶子里,而是直接把原始的水存起来,需要的时候再进行处理。

主要作用:数据湖提供了一个灵活、低成本的方式来存储大量不同类型的数据,并且可以在需要的时候方便地进行分析和使用。它与数据仓库的区别在于,数据湖更注重于存储原始数据,而数据仓库则更侧重于已经整理好的数据。

栗子:数据湖不是一个单独的产品,而是一整套解决方案,它包括了数据的收集、存储、处理和分析等多个环节。像亚马逊AWS、阿里云这样的公司提供的 数据湖解决方案,帮助企业更好地管理和利用大量的数据。但是,数据湖的管理也带来了一些挑战,比如如何在这样一个庞大的数据集中进行有效的数据治理,确保数据的质量和安全。




03


数据治理治咩?


3.1. 治咩?
在我们的日常工作和生活中,数据就像空气一样,到处都是。但是,在企业里,有很多数据其实是没用的,就像是垃圾邮件一样,对企业来说没有价值,也不需要特别去整理。我们真正需要关注的是那些对企业来说非常重要的数据,这些数据能够帮助企业赚钱或者省钱的,我们把这些叫做“数据资产”。
北京大学的大牛王汉生教授有句话说得很到位:“数据治理啊,不是随便什么数据都要管,而是要管那些对企业有用的数据资产。这个治理啊,是要把跟数据资产相关的人都协调好,把规矩定清楚。”(不是原话,我白话翻译过来就是这样
我们来掰扯掰扯王教授这话的三层意思:
(1)什么是数据资产?
数据资产就是那些对企业来说很有价值的数字和信息,就像金子一样,能帮助企业增值。
(2)数据资产相关方,涉及到好几个角色(利益相关方):
这些相关方就是那些和数据资产有关系的人,比如数据的提供者使用数据的员工管理数据的IT部门,还有企业领导层等
  • 数据的生产者,就是那些通过做买卖或者其他活动产生数据的人或公司。比如我们上网购物、发微博,我们就是在生产数据。
  • 数据的拥有者或控制者,这些人或公司不一定生产数据,但他们掌握着数据。就像我们上网产生的数据,其实最后都存放在像腾讯、阿里这样的互联网公司手里。
  • 数据价值和经济利益的受益者,就是那些从数据中赚到钱或者获得好处的人或公司。比如通过分析用户数据,公司能推出更受欢迎的产品,从而赚钱。
(3)协调与规矩的对象是什么?
协调和规范的就是这些人怎么使用数据、怎么保护数据、怎么让数据发挥最大价值的一系列行为和规则。简而言之,就是让大家都能在数据这块儿有序地干活,让数据资产发挥出它应有的作用。


04


数据治理的现状、问题、挑战、价值


4.1. 现状

数据治理的现状,可以概括为以下三点:

总的来说,不同企业的情况不一样,有的已经跑得很快了,有的还在慢慢学步。但不管怎样,大家都意识到数据治理是未来发展的关键,都在往这个方向努力。就像跑步一样,有的企业已经跑了好几圈,有的刚起步,但最终大家都会加入到这场数据治理的马拉松中来。

4.2. 问题

企业在使用数据时,经常会遇到以下五种问题:

总之,这些问题说明了为什么企业需要好好管理数据,只有解决了这些问题,数据才能真正成为帮助企业发展的资产。

4.3. 挑战

企业在进行数据治理时,通常会面临以下六个挑战:

总的来说,数据治理面临的挑战在于如何让所有人都认识到它的价值,如何从战略层面进行规划,如何获得高层的支持,以及如何统一数据标准、调动业务人员的积极性,并且建立起专业的团队来实施。

4.4. 价值

数据治理就像是给企业的数据来个大扫除,让数据从一堆乱糟糟的东西变成能帮企业赚钱的宝贝。这么做有六个好处



05

数据治理的框架和标准?


数据治理框架和标准就像是建房子的蓝图和规则,帮助企业把数据管理得井井有条。国际上有几个主流的数据治理框架和标准,比如ISO的数据治理标准、GDI数据治理框架和DAMA数据管理框架、GB/T 34960、数据管理能力成熟度评估模型。这里我们重点说说国内外的数据治理标准。


5.1. ISO数据治理标准

ISO的数据治理标准提供了一套完整的方法论,主要包括以下几个方面:

ISO 38505-1 EDM模型-此图截图于擎标

(1)目标就是让企业能够高效、合理地使用自己的数据资源;

(2)基本原则:有六个,分别是职责、策略、采购、绩效、符合和人员行为。这些原则告诉企业应该怎么做决策,但具体怎么实施,由谁来做,什么时候做,则需要企业根据自己的情况来决定;

(3)数据治理模型:提出了“评估(E)-指导(D)-监督(M)”的方法论。简单来说,就是先了解现状和未来数据的使用情况,然后制定和执行数据战略和政策,确保数据的使用能帮助实现业务目标,同时监督数据治理的实施情况;

(4)内部需求:企业要根据自身的战略目标来塑造一种数据文化,确保数据治理策略能够达到企业的总体目标;

(5)外部压力:企业可能需要调整数据治理战略和政策,以适应外部市场的变化,比如客户对数据的期望、竞争对手的数据使用、数据保留和处置的法律要求等;

(6)评估:企业需要考虑内部需求和外部压力,审查和判断目前和未来数据的管理和使用情况;

(7)指导:制定和执行数据战略和政策,目的是最大化数据的价值,管理数据风险,确保数据管理水平;

(8)监督:通过适当的系统测量,监测数据的使用情况,确保数据的使用和管理符合内部和外部的要求,保证数据的安全和隐私,避免偏见或歧视。

总的来说,ISO的数据治理标准就是帮助企业建立一套规则,让数据能够被合理地收集、使用和管理,从而支持企业的业务发展和遵守相关法规。


5.2. DGI数据治理框架

DGI数据治理框架就像是企业建数据大厦的蓝图,它帮助企业在使用数据做决策时有一个清晰的指导。这个框架主要分为三个层次:人员与治理组织、规则、流程,一共包括10个组件


(1)为什么要做数据治理:这是数据治理的初衷和方向,包括了数据治理的愿景和目标。愿景是最高指引,目标则是具体可实现的结果,比如提高利润、控制风险等;

(2)数据治理治什么:这涉及到数据治理的具体内容,包括制定数据规则、明确数据的决策权、职责和控制措施,确保数据的质量和安全;

(3)谁参与数据治理:这指的是数据治理中的角色,包括数据利益关系人、数据治理办公室和数据管理员。他们各自有不同的职责,共同推动数据治理的实施;

(4)怎么开展数据治理:这是数据治理的具体步骤,包括从价值声明到策略实施再到监控评估的七个阶段,就像建房子从设计到施工再到验收的过程;

(5)什么时候开始做数据治理:这指的是数据治理的时机和优先级,什么时候开始做,先做哪些部分;

(6)数据治理位于何处:这强调的是企业当前数据治理的成熟度,以及与行业先进水平的差距,帮助确定数据治理的目标和策略。

DGI框架是一个全面的、持续的数据治理模型,它适用于各种规模的企业,可以根据企业的需求和复杂性灵活调整和扩展。简而言之,它就是一个帮助企业更好地管理和使用数据的工具。


5.3. DAMA数据管理框架

DAMA的数据管理框架就像是一个指南针,帮助企业在数据的海洋中找到方向。它把数据管理分成了11个知识领域,每个领域都像是企业数据管理的不同部分,共同构成了一个完整的数据管理“车轮”。


    • 数据治理:这是车轮的中心,就像是企业的数据大脑,负责制定数据管理的规则和策略,确保其他部分有序运行;

    • 数据架构:就像是企业的数据蓝图,规划数据的布局和结构,确保数据能够支持企业的业务战略;

    • 数据建模和设计:这就像是设计数据的样子,包括如何组织数据,使之更容易理解和使用;

    • 数据存储和操作:这涉及到数据的存放和日常维护,确保数据安全、可靠,并且随时可用;

    • 元数据管理:元数据是关于数据的数据,管理好它就像是给数据加上标签,方便我们知道数据是什么,在哪里;

    • 数据质量管理:这像是确保数据的健康,只有数据质量好,我们才能信赖它,用它来做决策;

    • 主数据和参考数据管理:这是对企业最关键的数据进行管理,确保这些数据在整个企业中是一致的和准确的;

    • 数据安全管理:这就像是保护数据的保险柜,确保数据不被坏人拿走或破坏;

    • 数据集成和互操作:这涉及到如何把不同来源的数据拼接在一起,让它们能够协同工作;

    • 文件和内容管理:这像是管理企业的文件柜,包括所有非结构化的数据,如文档、图片和视频;

    • 数据仓库和商业智能:这就像是企业的智慧中心,把数据转换成有用的信息,帮助企业和做出更好的决策。

    总的来说,DAMA的数据管理框架就是帮助企业把数据管好、用好,让数据成为企业发展的助力。


    5.4. GB/T 34960数据治理规范

    国内的数据治理框架,就像是给企业制定了一套管理数据的规则和指南。其中,GB/T 34960标准就像是企业数据治理的“说明书”,它分为五个部分,帮助我们更好地理解和实施数据治理。

    这个标准告诉我们,数据治理主要包括四个方面:

    (1)顶层设计:这是数据治理的基础,就像建房子要先设计蓝图一样。它包括数据战略规划、组织构建和架构设计,确保数据治理的方向和目标与企业业务和信息技术规划一致;

    (2)数据治理环境:这是数据治理的保障,就像建房时的环境和条件一样重要。它包括内外部环境分析和促成因素,确保数据治理能够适应变化,得到支持,并且符合法律法规;

    (3)数据治理域:这是数据治理的对象,就像是房子里的各个房间。它包括数据管理体系和数据价值体系,涉及到数据标准、质量、安全、元数据管理以及数据生命周期管理等方面;

    (4)数据治理过程:这是数据治理的方法,就像建房子的施工流程。它包括统筹和规划、构建和运行、监控和评价以及改进和优化,确保数据治理能够有序进行,并且持续改进;

    总的来说,GB/T 34960标准就是帮助企业建立起一套科学的数据治理体系,让企业的数据能够被有效地管理起来,发挥出最大的价值。


    5.5.数据管理能力成熟度评估模型

    DCMM(数据管理能力成熟度评估模型)就像是给企业数据管理能力打分的标准。它把数据管理分成了八个方面,每个方面又包括几个具体的内容,总共28项。这些方面就像是数据管理的八个房间,每个房间都要打扫干净,才能让整个家的数据管理得井井有条。

    这八个方面包括:

    • 数据战略:规划、实施和评估数据怎么用;

    • 数据治理:建立团队、制度和沟通机制来管理数据;

    • 数据架构:设计数据的结构和布局;

    • 数据应用:用数据来进行分析、共享和服务;

    • 数据安全:制定策略和管理措施来保护数据;

    • 数据质量:确保数据准确、完整和可靠;

    • 数据标准:统一数据的名称和格式;

    • 数据生命周期:从数据的创建到退役的整个过程。

    DCMM还把企业的数据管理能力分成了五个等级,从最初级的“刚起步”到最高级的“优化级”,帮助企业了解自己的数据管理处在哪个水平,然后逐步提升,最终让数据发挥出最大的价值,帮助企业更好地发展。




    06


    怎么治


    企业想要做好数据治理,就像是要建一座大楼,需要以下九个关键要素

    (1)数据战略:就像大楼的设计图,要明确数据治理的目标和怎么去实现;

    (2)组织机制:像是大楼的架构,需要每个部门都参与进来,明确各自的角色和责任;

    (3)数据文化:这是大楼的基石,要求每个人都能认识到数据的重要性,用数据来指导工作和创新;

    (4)管理流程:就像大楼的管道和电路,确保数据能够顺畅地在各个部门间流动,为业务服务;

    (5)管理制度:这是大楼的规则,确保数据治理有章可循,不会出现混乱;

    (6)数据:数据就是大楼的材料,需要统一标准和质量,才能确保大楼的稳固;

    (7)人才:人才是建造大楼的工程师和工人,没有他们,数据治理就无法实施;

    (8)技术:技术就像是建楼的各种工具和设备,没有先进的技术,就无法高效地完成数据治理;

    (9)工具:这些就像是建楼的各类专业工具,选择合适的工具能让数据治理工作更加高效。

    总之,企业要做好数据治理,就需要把这些要素整合起来,确保每一步都扎实,才能建起一座稳固的“数据大楼”。




    企业数据治理可以想象成打造一部机器,这个机器有四个关键部分

    所以,企业数据治理就像是按照蓝图来设计操作系统,然后用具体的技巧和工具来建造一部能够高效运转的机器。




    企业数据治理的“战略层面”就像是打造一个健康的数据生态系统,需要三个关键机制来支撑:

    总的来说,企业数据治理的“战略层面”就是要有明确的数据战略指引,建立灵活的组织机制,以及培养一种深入人心的数据文化,这样才能让企业在数据的海洋中航行得既稳又快。




    企业数据治理的“管理层面”就是一套行动计划,包含了八个步骤,帮助公司把数据治理落到实处:

    总的来说,这八个步骤就是帮助企业把数据治理这件事做得又好又稳,让数据真正成为公司发展的助力。




    企业数据治理的“执行层面”就是具体的操作技巧,包括了七种关键能力,帮助公司把数据治理落到实处:

    (1)数据梳理与建模:就像整理家里的物品,先搞清楚家里有什么,放在哪里,然后画出家里的布局图。数据梳理就是搞清楚公司有哪些数据,数据模型就是那张布局图;

    (2)元数据管理:就像是图书馆里的目录,帮助我们知道每本书的位置和信息。元数据管理就是确保我们有这样的目录,能够快速找到和理解数据;

    (3)数据标准管理:就像制定家里的规则,比如碗要放在哪里,衣服怎么叠。数据标准管理就是制定一套规则,让数据保持一致和规范;

    (4)主数据管理:主数据就像是家里的贵重物品,需要特别保护和打理。主数据管理就是确保这些核心数据准确、完整、可靠;

    (5)数据质量管理:就像保持家里的清洁和有序,数据质量管理就是确保数据是干净的、准确的,能够放心使用;

    (6)数据安全治理:就像是家里的安全系统,保护家里的贵重物品不被偷。数据安全治理就是保护数据不被非法访问或泄露;

    (7)数据集成与共享:就像家里的各种电器和工具,如果能够互相配合使用,就能发挥最大的效用。数据集成与共享就是让不同的数据和应用能够协同工作,提高效率。

    总的来说,这七种能力就是企业数据治理的具体操作技巧,帮助企业把数据管理得井井有条,让数据发挥最大的价值。




    企业数据治理的“工具层面”就是一套强大的工具,就像是武侠中的七把利剑,帮助企业更好地管理数据。这些工具分别是:

    (1)数据模型管理工具:就像是地图,帮助企业了解数据的结构和关系,是数据治理的核心工具;

    (2)元数据管理工具:就像是图书馆的目录,帮助企业和员工快速找到和理解他们需要的数据;

    (3)数据标准管理工具:就像是家规,确保所有数据都按照统一的规则来处理和存储;

    (4)主数据管理工具:就像是保险箱,专门用来保护和管理工作中最重要、最核心的数据;

    (5)数据质量管理工具:就像是清洁剂,用来检查和提升数据的质量,确保数据是准确和可靠的;

    (6)数据安全治理工具:就像是安全系统,保护数据不被非法访问或泄露,确保数据的安全;

    (7)数据集成与共享工具:就像是桥梁,连接不同的数据源,让数据能够在不同的系统和应用之间顺畅流动。

    总的来说,这些工具就是帮助企业把数据治理工作做得更高效、更安全,让数据真正成为企业发展的助力。




    本来写了案例,但是发现不好剔除部分内容,下次再写吧


    深圳        

    注释:如有失误,望批评指正!


    后面会写下Windows和liunx的应急响应技巧、容器、还有一些网络安全、数据安全。


    后台输入“Windows应急响应手册、linux应急响应手册、数据安全政策、数据安全治理、电力、工业、金融、0731、0830、0911”有相关资料可供下载





    请使用浏览器的分享功能分享到微信等