大数据团队面临的危机与未来

在过去的几年里,数据一直处于高速增长的模式,数据即新时代的“石油”的口号也一直被传颂。互联网“病毒式”的快速普及,使得这种“石油”越来越多。

为了满足数据的指数级增加速度,也迫使数据架构发生了快速的变化,我们也一直在努力构建现代化的数据架构堆栈,使得数据“石油”的存储更加稳定与高效。

但这也使得数据团队的成本陡然的上升,甚至很多时候我们并不知道这些工具是否真正为业务带来了价值。

我认可现代数据架构的发展,湖仓一体化,模块化,基于云和元数据驱动的统一SQL化的数据治理模式。

但是现在数据正在进入一个不同的世界,目前经济和互联网时代已经发展到平滑期,快速增加的模式已经远去。

当我们停下来回头看看这几年的数据的发展,发现大量的数据“石油”并没有被完全利用,很多数据被埋藏在数据平台的最底下,被灰尘覆盖。

数据团队将面临从增长模式转向效率模式,我们必须要认清这一点。

危机

随着经济发展的低速化,使得企业的预算大幅的降低。这就好像一个拮据的人,在消费时会审视每一笔账一样。

之前数据团队的快速发展,使得数据团队成为了成本消耗的大项。另外,为快速的满足全企业的数据需求,使得数据团队比较独立,处于整个数据服务的中心,离具体的业务很远,那么这个时候机遇也许就会变成危机。

为什么核心数据团队普遍离业务很远?

这个原因是,在互联网早期产生了大量的数据,随着这些数据的分析带来了初期效果是惊人的,有句话叫“大数据比你还懂你”。这使得很多企业都诞生了“以数据驱动”的目标,通过数据可以帮助优化成本、提高财务绩效、指导产品路线图、提供令人惊叹的客户洞察并获得竞争优势。

但成为“数据驱动”是一个不透明的目标,可以说指标模糊,没有明确的投资回报率。

成为数据驱动,使得企业这趟列车在“不惜一切代价增长”的时代全速前进。高管和决策者认为投资数据发展似乎是理所当然的事情,这也进一步使得数据团队的飞速发展,远远把业务团队给“落”在了后面。

在这个阶段,数据团队仅仅拥有数据就足以推动高速增长,当然这些天量的数据中,有些有用,有些数据没用。

这些年数据团队,以数据为驱动,解决了更快的读取与写入,更智能的监控。然而这些能力与数据量和成本是挂钩的,这意味着数据量的增加,数据的成本也在上升。

巨量的数据存储,也带来了巨量的成本,数据团队已然是成本消耗巨大的部门。在当前这个经济发展进入存量的时代,这是一颗难以下咽的药丸。

仅仅拥有数据是不够的

为了证明我们的工作的合理性与带来的价值,仅仅提供数据是不够的,它还需要可靠且专门构建支持。

换句话说,数据团队需要更加贴近业务

那么如何贴近业务呢?数据团队希望做正确的事,就需要为业务带来价值,最好的办法就是需要深入和业务方交谈。

虽然说数据架构,数据能力一直在飞速发展,但是企业中很多核心的带来价值的业务方,并没有深入的参与到数据架构的飞速发展中。很多还停留在原始阶段,他们重心停留在营收数据方面,对整体业务的效能,稳定性并不擅长。

所以,在推动价值方面,数据Leader应该做的第一件事是与业务利益相关方交谈。

通过每周或定期的与业务团队会面,以更好地了解他们的用例以及数据的SLA,同时也可以通使用者进行集体调查,通过解决更明确的企业内部通用痛点来提升价值。

与集团核心业务绑定,创建异步反馈循环

不得不说,在过去企业产生了大量数据,而这些数据中很多都是“暗数据”,并没有被利用起来,“石油”只是被存储,而没有被开采。

集团中大量的数据孤岛,使得存储的成本高于其带来的价值,那么“石油”的价值的,也就自然的开始被我们质疑。

数据团队要完全嵌入业务方团队,与核心业务方深入接触共存。有的业务方要求更快的引擎,有的则需要更完善的监控与反馈机制。通过弥合数据工程师和数据分析挖掘师之间的差距,更深入地了解业务如何运作以及哪些数据将真正发挥作用。

通过吸收业务方的建议,完整和完善整个数据分析和挖掘链路,充分发挥所有数据的价值,同时提升核心产品的可靠性 SLA。

建立了一条对数据产品的信任之路——使得我们的核心业务方不害怕数据工程,而数据从业者不害怕业务——提升整个的数据利用价值。

提升数据的可见性与透明度

现在数据架构的飞速发展,并没有让数据团队更了解其数据,也没有提高数据团队和业务方之间的透明度。

现代的数据平台提供了更多的访问权限,保障了数据的安全,但也使得数据的清晰度和上下文更加模糊,从而使这种本已脆弱的关系变得复杂。

我们需要多种方法来在上游表和下游资产之间建立联系,以整合整个数据环境(而不仅仅是仓库、数据湖或转换层)。我们需要一种真正端到端的方法,一直到业务方的消费层。

数据资产的可见性和透明度将帮助我们确定优先顺序、更快的分析数据链路上的性能损失点,更快的推动核心业务的效能发展。

更加关注局部的成功

在当前的背景下,要将大部分资源集中在企业核心用例和数据资产的优化和构建上。

缩小你的关注范围意味着你并不会让每个人都满意,但只有你真正的落地和构建实用的范例,才能更好的体现数据的价值。

对数据进行降本增效非常重要

存储一直是数据团队最大的成本之一。

暗数据,或从未实际使用过的数据,对于数据团队来说是一个严重的问题。有统计分析,约有68%的数据未被使用,但依然在花费着存储成本。

要整体分析企业中所有数据的重要性,在这里,统一的元数据就非常重要。

通过元数据平台,数据团队可以使用数据更新指标和数据链路来查找未使用的数据资产,并通过使用冗余功能来删除重复数据等等,构建自动化的数据处理或清除陈旧的数据资产。

构建数据投资回报率指标系统

在过去的几年里,企业非常相信数据的力量和价值,以至于数据团队并不总是需要证明这种价值。相反,他们一路前行,平衡日常数据工作与前瞻性技术、流程和实验,以及构建超酷的技术堆栈。

随着预算收紧,数据团队将受到更多关注和审查。它们的成本是多少?它们提供了多少价值?数据团队需要关注性能和效率。公司也将更加认真地衡量数据投资回报率,数据团队指标也将开始成为主流。

衡量像数据这样基础的功能的投资回报率并不容易,但数据团队弄清楚它比以往任何时候都更重要。

数据团队将需要开发指标来衡量其价值,可能包括数据使用量(例如 DAU、WAU、MAU 和 QUA)、页面浏览量或在数据资产上花费的时间以及数据产品采用等使用指标,满意度指标,数据任务的SLA和数据质量评分。

未来

随着近期经济下滑,未来的新的重点放在效率和削减成本上。这将导致数据团队的运作方式相关的新趋势。

统一元数据平台将取代数据目录的管理方式

“数据目录”只是元数据的一个用例,它可以帮助用户了解和管理他们的数据资产。

而元数据平台,是许多用例的关键,例如可观察性、成本管理、补救、质量、安全性、程序化治理、优化管道等等——所有这些都已经在数据产品中引起了积极的争论。

数据治理将更加靠近数据的生成者

数据经常过时、不完整或不正确,这已不是什么秘密——我们经常需要花费更多的资源和成本去修复这些数据。

完善数据协议(合约)的建立,将数据治理将“左移”,更靠近数据生成的地方,数据标准将成为编排工具中的一等公民。

过去数据治理一直是数据生产后的想法,它通常由数据管理员而不是数据生产者处理。

我们最近看到了数据治理向“左”移动,或者更靠近数据生产者的转变。这意味着创建数据的人(通常是开发人员或工程师)必须创建文档并根据预定义的标准检查数据,然后才能上线,避免事后数据处理的成本产生。

Data Mesh将走进现实

数据网格对话已经从“它是什么?” 转变到“我们如何实施它?” 。

“数据即产品”概念将成为焦点,他将包括可以集成到开发人员工作流程中的元数据平台,数据质量和测试,类似 Git 的多版本数据管理,元数据管理,整合测试,全部围绕相同的中央数据仓库/lakehouse 层构建。

数据可观测性、数据质量和可靠性

数据可观测性将与数据质量和可靠性等邻近理念一起继续发展。现在有很多数据开源的数据质量工具。例如Datafold推出了开源数据 diff 工具,Acceldata开源了其数据平台和数据可观测性库,Soda 推出了开源Soda Core数据质量平台。

数据可观测性和质量将集中在一个更大的“数据可靠性”类别中,以确保高质量数据为中心。

总结

过去几年,对数据的炒作催生了出色的工具,但我们最终不止一次地问自己是否回归了价值,还是只是由风险投资资金推动的炒作?

让我们明确一点——数据平台的目标最终是帮助公司利用数据。数据工具对此很重要,但它们最终只是推动者,而不是目标。

我们正处于数据团队不再努力建立正确的基础设施的阶段。借助现代数据堆栈,建立数据生态系统比以往更快、更容易。

现在数据比以往任何时候都更加重要,数据团队处于提供真正业务价值的独特地位。但要实现这一目标,数据团队需要最终弄清楚这个“价值”问题。

随着这种炒作开始消退,我们有机会利用我们所取得的工具进步并将其转化为真正的业务价值。



如果觉得这篇文章对你有所帮助,
请点一下或者,是对我的肯定和支持~


请使用浏览器的分享功能分享到微信等