2024年数据能力构建升级方向


摘要:数据已成为企业最宝贵的资产,而数据能力则是企业核心竞争力的关键。随着政策的推动和技术的发展,企业在数据能力构建上迎来了新的机遇和挑战。本文将探讨2024年数据能力构建的三大升级方向:以数据消费为核心的企业数据能力建设、湖仓一体的数据平台构建、以及对话式数据分析的兴起。


  • 企业数据能力的建设以数据消费为核心,以业务价值为牵引
  • 构建湖仓一体的数据平台,以满足未来的应用趋势
  • 对话式数据分析将替代固定报表和自助分析BI



01

企业数据能力的建设以业务价值为牵引

在数字化转型的长期征途中,众多企业已经奠定了数据基础设施的基石,包括构建了旨在集中数据资源的大数据平台或数据中台,以及为了经营分析而设计的管理驾驶舱和业务看板。同时,为了数据开发和管理,企业还搭建了能够处理离线、实时或批流一体的计算链路。然而,在实际应用数据的过程中,企业仍然面临着诸多难题,例如数据质量不佳、指标体系不统一、业务需求响应缓慢等,这些都阻碍了企业实现真正的数据驱动决策。以数据治理为例,尽管自2004年以来许多大型企业已经开始着手数据治理工作,但数据质量问题依然是一个突出的问题。尽管数据中台被寄予厚望,实现了跨领域的数据集成,但由于缺少业务部门的积极参与,数据整合和共享服务在实际应用中难以满足业务需求,导致业务部门在获取和使用数据时面临重重困难。


数据能力建设要求企业必须全面打通数据的整个生命周期。从数据采集到数据消费的全流程中,企业已经建立了基础设施,但在数据消费环节的应用建设不足,这正是导致管理层和业务团队难以有效使用数据的原因。近两年来,企业在数据能力建设上越来越注重数据消费,开始重视经营分析、指标平台、数据运营/数据消费、增强分析(对话式分析)、增长营销平台(CDP)、运营分析(A/B 测试、增长分析)和可观测运维等一系列数据应用的建设。只有将数据有效运用,才能彰显其价值;让数据真正与业务场景相链接,助力企业在用户营销、私域运营等场景充分发挥数据价值。而数据价值的实现,又将进一步推动数据能力的构建和完善。下图是数字化能力构建的全景图:




02

构建湖仓一体的数据平台


随着企业数据量的爆炸性增长,特别是非结构化数据如文本、图像和语音数据的激增,企业正面临数据平台架构的严峻挑战。为了应对这一挑战,企业采取了多种策略来改造其数据平台架构,包括扩展数据仓库容量、构建数据湖以存储多样化的数据源,以及采用多种非结构化数据库解决方案。然而,随着业务对数据分析和人工智能(AI)应用的需求日益增长,现有的数据平台架构在性能、运维和存储等方面显现出了局限性。


具体来说,开发和运维的工作量正在迅速增加。历史上,企业构建的数据平台往往包含并存的数据仓库和数据湖架构,数据仓库用于生成标准报告和支持敏捷的商业智能(BI)分析,而数据湖则用于支持探索性和预测性AI应用。这两种不同的数据资产管理系统以及它们之间的数据交换和存储,使得开发和运维的工作变得更加复杂和繁重。此外,企业在数据计算方面常常需要维护“批处理”和“实时处理”两种不同的数据处理流程,这两种流程之间的数据存储、清洗和转换工作使得数据处理链路变得异常复杂,进而增加了性能优化和故障排除等运维工作的难度。


企业还面临着支持更多业务场景实时计算需求的挑战。除了交易、广告和游戏等传统需要实时处理的业务外,金融、零售、快递等行业的经营分析、用户分析和风险管理等业务场景,也对计算时效性提出了更高的要求,希望从传统的T+1(次日处理)模式转变为准实时或实时处理模式。以快递公司为例,由于业务的时效性要求极高,不仅需要实时更新物流订单状态和同步交易处理数据库,还需要将日常运营数据分析的时效性从天级别提升到分钟级别,以便能够实时调整运输路线和车辆调度,实现成本降低和效率提升。这些运营数据分析往往涉及对海量数据进行多表关联、预测和分类等复杂操作,在传统的数据仓库或数据湖架构下很难实现。


此外,存储和计算成本的降低也是一个难题。非结构化数据的急剧增长给数据平台架构带来了低成本存储的挑战,同时数据平台也面临着水平扩展和垂直扩展的瓶颈。在计算方面,由于业务模式的快速变化导致业务流量波动,依靠传统的服务器扩展方式可能会导致计算资源的大量浪费。


湖仓一体架构的优势主要体现在以下几个方面:


1. 统一的异构数据管理:湖仓一体架构通过采用标准文件格式,能够对来自不同来源、不同结构的数据进行统一存储。这种方式简化了数据的存储和管理,使得企业能够更有效地处理和分析大规模的多元异构数据。


2. 元数据层的建立:在湖仓一体架构中,元数据层的引入实现了对数据的高级管理功能,如ACID事务处理和版本控制。这些功能为数据的完整性和一致性提供了保障,同时也支持了复杂的数据操作和分析任务。


3. 简化的数据ETL过程:由于湖仓一体架构支持多种数据应用场景,它能够减少数据的抽取、转换和加载(ETL)过程。这意味着数据可以更快地被处理和分析,提高了数据处理的效率。


4. 支持多样化的数据应用:湖仓一体架构能够支持从固定报表、商业智能(BI)、数据挖掘到机器学习等广泛的数据应用场景。这种广泛的适用性使得企业可以根据不同的业务需求灵活地选择和应用数据分析工具。


5. 适应多技术融合的AI应用场景:湖仓一体架构特别适用于结合规则引擎、机器学习和大型语言模型(LLM)等技术的融合应用场景。这种融合为企业提供了一个强大的平台,以支持复杂的AI应用,如预测分析、模式识别和自然语言处理等。


6. 提升数据共享和协作:统一的数据管理使得不同部门和团队能够更容易地访问和共享数据,从而促进了跨部门的协作和数据驱动的决策。


7. 优化资源利用和成本效益:通过减少数据复制和冗余存储,湖仓一体架构有助于优化存储资源的使用,降低企业的存储成本。


8. 存算分离架构:湖仓一体支持存储与计算资源的分离,这种设计提供了极大的灵活性和扩展性。通过分离存储和计算,企业可以根据实际需求独立扩展或缩减资源,优化成本效益。


9. 弹性资源管理:架构允许对计算资源和存储资源进行分别的弹性扩展或缩减。这意味着在数据量或计算需求增加时,可以快速扩展资源以应对需求;在需求减少时,可以相应减少资源,从而降低成本。


10. 高性价比存储:湖仓一体架构支持海量数据的存储,同时保持高性价比。它通常利用分布式存储技术,能够以较低的成本存储和管理大规模数据集。


11. 灵活应对业务流量波动:由于资源的弹性管理,湖仓一体架构能够灵活应对业务流量的波动。在流量高峰期间,可以快速扩展计算和存储资源以处理增加的负载;在流量低谷时,可以缩减资源,避免资源浪费。


12. 按需扩展:企业可以根据实际业务需求和预期的数据增长进行按需扩展。这种按需扩展策略使得企业能够更加精准地规划资源使用,避免过度投资。


13. 优化的系统性能:存算分离还有助于优化系统性能。计算资源可以更接近存储资源部署,减少数据传输延迟,提高数据处理速度。


14. 简化的运维管理:湖仓一体架构简化了运维管理,因为资源的扩展和缩减可以自动化进行,减少了手动干预的需求。


15. 支持多云和混合云部署:湖仓一体架构通常支持多云和混合云环境,允许企业根据业务需求和合规要求在不同的云平台或本地环境中部署资源。



湖仓一体架构通过这些优势,为企业提供了一个强大、灵活且成本效益高的数据处理和分析平台,支持企业在快速变化的市场环境中保持竞争力。通过这些优势,湖仓一体架构为企业提供了一个强大、灵活且高效的数据管理平台,支持企业在数据驱动的决策和数字化转型中取得成功。




03

对话式数据分析


数据分析在企业中发挥着至关重要的作用,它不仅能够挖掘数据的潜在价值,还是支撑数据驱动决策的核心。尽管企业在数据基础设施方面投入巨大,配备了充足的数据资源和分析工具,但在数据转化为业务价值的过程中,仍面临着一系列挑战:


首先,企业在数据分析的实际应用中遭遇了效率瓶颈。现有的数据分析方法,如传统的固定报表和自助式商业智能(BI)工具,未能跟上企业快速增长的分析需求。业务人员在探寻数据变化的根本原因时,常因缺乏自主分析能力而受限,必须依赖IT部门的支持。这一过程中,业务与IT之间的沟通成本高昂,需求响应周期漫长,且往往需要多次迭代才能满足实际需求,这大大延缓了深度结论的产出。


其次,数据分析的供需之间存在显著的不平衡。数据分析的需求正从高层经营者扩展至业务人员,需求量迅速增加,需求内容也变得更加个性化和多样化。面对这种爆发性增长的分析任务,企业有限的IT资源显得捉襟见肘,难以及时响应,导致大量需求被迫搁置。


以一家数字营销的部门为例,内容上线后迅速增长,带来了频繁且紧急的探索性数据分析需求。然而,数据团队每周仅能处理有限的任务,这导致了供需之间的严重失衡。此外,不同部门间对数据指标定义的差异,也增加了跨部门沟通的难度,造成了决策过程中的混乱。


最后,自助式BI工具的使用门槛较高,这限制了它们的广泛应用。这些工具通常功能复杂,要求业务人员投入大量时间进行培训学习,才能掌握如何利用它们进行数据分析。这不仅对业务人员提出了较高的技能要求,也使得他们在工具学习上耗费了大量时间,影响了对数据洞察和行动的关注度。


综上所述,尽管数据分析对企业至关重要,但在将数据转化为业务价值的过程中,企业仍需克服沟通效率、供需平衡和工具易用性等多方面的挑战。



面对传统数据分析工具的局限性,融合大型语言模型(LLM)的对话式分析工具提供了一种新的解决方案,它通过自然语言处理技术使得数据分析更加高效、灵活,并降低了使用门槛。以下是对LLM+指标平台路径的对话式分析在实现路径、成本和准确率方面的分析:


 实现路径分析

1. LLM+宽表:
    
    实现路径:通过将数据存储在宽表中,利用LLM的能力来理解和查询数据,这种方式可以快速响应用户的查询需求。
    成本考量:需要对数据进行标准化和清洗,以适应宽表模型,可能会涉及数据迁移和转换的成本。
    
2. LLM+指标平台:
    
    实现路径:构建一个指标平台,将业务指标预先定义和计算,然后通过LLM来接受用户的自然语言查询。
    成本考量:需要开发和维护指标平台,包括指标的定义、更新和管理,但可以提高查询的准确性和可控性。
    
3. LLM+图模型:
    
   实现路径:使用图数据库存储数据,并利用LLM来执行复杂的图查询,这种方式适合处理高度关联的数据。
  成本考量:可能需要专业的图数据库和图查询知识,以及对LLM进行特定的训练,以理解和执行图查询。


通常这三种模式可以搭配起来使用可以提高对话式分析的准确性,LLM+宽表是最基础的实现方式,而加上指标平台,可以更加准确的定义指标,满足复杂的指标分析,提升分析的准确率,而图数据中存在表与表的之间的关系,例如,公司与部门以及个人之间的关系,可以更加准确的提升关系查询的准确率,另外对于例如说某某公司的月度经营分析报告这种需要准确找到个人和实体之间关系的时候需要图数据库存储关系。



实现成本分析

1. 技术投资:可能需要投资于新的硬件资源或云服务来支持LLM和数据、指标平台、图数据库的运行。

2. 软件开发:开发指标平台和用户界面的成本,包括前端和后端的软件开发。

3. 数据准备:数据清洗、标准化和指标定义可能需要数据工程师和分析师的投入。

4. 模型训练与集成:LLM的训练和、指标平台、图数据库的集成可能涉及较多的技术成本。

准确率分析

1. 数据质量:准确率在很大程度上取决于数据的质量和指标的定义。高质量的数据和明确定义的指标可以提高分析的准确性。

2. 模型训练:LLM的训练质量直接影响到对话式分析的准确率。需要确保模型充分训练,以理解复杂的业务查询。

3. 上下文理解:LLM需要能够理解用户查询的上下文,这可能需要额外的微调和优化。

4. 错误处理:系统应具备错误处理机制,以识别和纠正不准确的查询结果。

5. 用户反馈:通过收集用户反馈,可以持续提高对话式分析的准确率。

总结

LLM+宽表+指标平台+图数据库路径的对话式分析在实现上需要综合考虑技术投资、软件开发、数据准备、模型训练与集成等多方面的成本。准确率方面,高质量的数据、充分的模型训练、上下文理解能力以及有效的错误处理机制是关键因素。企业在考虑采用对话式分析时,应根据自身的业务需求、技术基础和预算进行综合评估,以确保选择最合适的实现路径。



欢迎加入【数据行业交流群】社群,长按以下二维码加入专业微信群,商务合作加微信备注商务合作,AIGC应用开发交流入群备注AIGC应用




往期数据平台历史热门文章:

基于DataOps的数据开发治理:实现数据流程的自动化和规范化

数据平台:湖仓一体、流批一体、存算分离的核心问题及原因解析

数据治理体系该怎么建设?

实时数仓&流批一体技术发展趋势

数据仓库、数据中台、大数据平台的关系?

数字化转型如何促进业务的发展

数据中台中的核心概念解析

数据治理中的数据标准的作用?

全面数字化转型:打造全新营销模式

一图展示数据中台的数据流图

揭秘数据治理系统的数据流程图

往期AIGC历史热门文章:

AIGC系列之一-一文理解什么是Embedding嵌入技术

十大AIGC文生视频产品介绍

九大最热门的开源AI Agent框架

AutoGen零代码构建⾃⼰的智能助理


请使用浏览器的分享功能分享到微信等