数据中台:从数据整合到数智跃迁

银行业作为数据密集型行业,正经历从数据整合到数智跃迁的深刻变革。河北银行积极响应这一变革,通过多年探索形成“135N”中台体系,加速实现数据的全面整合与价值释放。以湖仓一体为中心,依托系统、组织、流程三大架构支撑数据采集、整合、服务、管理和研发五大中台能力建设,构建全域分层资产体系,同时,推进实时决策与AI技术在智能风控、数字营销等场景的深度应用。

河北银行转型之路的选择

银行业数据体系建设始终围绕业务需求与技术能力螺旋式升级,从2000年左右开始,历经数据集中化、数据仓库、大数据平台、数据中台的四代演进。

河北银行自2010年开始,几乎经历了数据中台演进的所有阶段,虽短期内满足差异化需求,却也暴露出存储冗余、治理分散、运维成本高等深层矛盾,随着AI技术及金融应用的突破,河北银行同样面临AI数智融合的机遇和挑战。

2023年河北银行启动“135N”数据中台建设,至今取得一定成果。一是建成“湖仓一体”数据基础底座,破除因存储和算力瓶颈造成的数据中台能力建设阻碍;二是制定并扎实推进“禹治工程”,提升数据质量,健全数据治理体系;三是合理规划营销、风险、经营和监管四个“领域集市”,数据和业务主动融合,不断深化数据赋能;四是积极探索AI、知识图谱等技术及应用创新,提高数字化转型发展的“加速度”。

河北银行数据中台建设实践

1.整体设计

数据中台整体设计以数据能力建设为抓手,构建“135N”数据中台蓝图框架。基于统一的数字底座,通过系统、组织、流程三大架构承载,架设数据中台五大数据能力建设的可持续发展快车道,赋能数字化转型。

1个数字底座:支撑中台建设的新基建,包括大数据、云计算、人工智能、技术框架等核心技术体系。构建全行“湖仓一体”技术底座,支持平台资源弹性扩展,实现大规模、多类型数据快速接入、存储和高性能计算、分析能力。

3大承载架构:数据中台能力的建设需要围绕系统、组织、流程来打造,指导数据中台能力建设的持续落地,以提高能力的协同性和有效性,真正做到劲往一处使,力往一处用。

5大中台能力:将数据中台的核心能力进行概括和提炼,包括围绕数据价值链提炼的数据采集、整合、服务能力;同时,规划和定义数据管理能力和数据研发能力为其他能力建设保驾护航。

N种应用场景:数据中台最终目的是要通过场景实现价值赋能,围绕数据中台持续建设将不断丰富和支撑数据应用,包括面向各业务中台的资源集中支撑,面向“决策分析”的各类数据产品,面向业务流程自动化的数据服务以及面向全行的各类差异化需求,真正做到数据驱动,释放数据价值。

2.数据中台目标

为确保数据能力组件高效协同,制订数据中台“1+3”评价指标:“1”是要加快构建完备的数据资产,“3”指“三个1”的数据服务目标,起点是需求方提出数据需求,终点是需求方拿到数据并可立即进行消费。具体衡量标准如下:

1分钟发现数据:用户从发起搜索到定位所需数据资产≤60秒。

1天准备数据:已结构化但未进入数据底座场景,从需求提出、数据采集、汇聚入湖等,在1天内完成。

1周消费数据:已进入数据底座但无数据服务场景,从需求提出、数据服务设计落地到消费方通过服务获取数据,在1周内完成。

3.建设实践:破局、重构、智驱

(1)“破局”数据治理与基建

数字基础设施是数字经济发展和数字化转型的重要基石。数字基础设施是以信息网络为基础,以数据要素为核心,提供采集、存储、计算、治理等综合数字能力的基础设施。

“湖仓一体”基础平台。数据中台采用“湖仓一体+实时处理”融合架构,依托数据湖的基础存储能力与数据平台的高性能分析引擎,形成逻辑统一、物理分离的协同模式,通过优化资源分配机制,显著降低存储冗余,提升计算资源动态调度效率,为实时数据分析、历史数据回溯等场景提供弹性支撑,目前支撑PB级的数据存储和高效计算,可以满足40多个数据应用的加工和查询服务需求。

强化数据治理。搭建涵盖元数据、数据标准、数据质量、数据资产等模块的数据资产管理平台。一是统一接入全行各信息系统的元数据信息,构建数据平台血缘图谱,当前接入业务系统合计约76万条元数据,为数据资源盘点和有效利用打好基础;二是配置自动化数据质量检核规则近千条,通过规则自动化校验,实现数据管控从人工干预向“规则驱动”;三是数据资产管理,对数据产品等成果进行审核,实现数据资产登记、发布、评价,实现自动化资产盘点与动态目录管理,完成零售客户领域2100张数据资源表盘点和近1000个标签的标注,为数据资产化奠定基础。

(2)“重构”关键数据资产

整合数据基础平台等“数据孤岛”。过去数据基础平台的建设模式虽短期内满足了差异化需求,但仍存在“数据孤岛”问题,河北银行按照“控新增,合存量”原则,有序推进基础平台迁移整合。

第一阶段完成“湖仓一体”数据平台整体规划和模型重构,分级分层制定不同的迁移策略。如数据贴源层迁移入湖,应用集市层及服务层采用原样迁移,主题层重新设计,共性加工层优化改造,确保存量数据服务及应用的平滑过渡,支持新建和试点应用的顺利投产,并轨运行,逐步完成旧平台下线。

第二阶段迁移大数据平台应用、互联网数仓及应用。首先梳理和识别关键应用如支行行长工作台、营销平台、对公CISM(客户综合管理平台)、网贷集市等,重点迁移或整合,形成“速赢”效果;其次迁移整合实时报表、指标到实时数据平台,实时数据服务实现由分钟级到秒级的时效跃升;最后迁移并优化各中心报表,按业务中心分批推进,迁移过程中完成“报表指标化”,提升处理效率和数据统计质量。

沉淀公共数据资产。根据“分层分域”模式构建,实现数据资产化沉淀及共享复用。数据建模方面,摒弃传统范式建模,以维度建模为主,设计方法上更贴近业务和数据分析人员的理解,建模效率更高。数据中台的模型建设,聚焦高价值模型的萃取和建设,包括标签体系、指标体系等。

应接尽接,丰富数据湖。完善数据入湖流程机制,明确入湖原则、角色、流程和要求等,借助资产平台盘点全行数据资源,存量系统根据业务价值分阶段入湖,新增系统从需求层面落实数据常态化入湖机制,确保数据资源“颗粒归仓”。以数据湖为例,目前已接入130个业务系统,系统覆盖率提升至73%,计划将继续扩大成果,开展“全量数据入湖”工作。

提炼公共复用数据资产。通过构建跨业务领域的标准化模型和企业级公共数据资产池,形成初具规模的数据加工整合体系。一是紧紧围绕“客户、产品、员工”丰富数据资产,打通关联内外部数据,形成全行统一整合的公共数据模型,满足对下游应用的数据共享需求;二是嵌入全链路质量管控机制,强化数据加工过程的完整性校验与逻辑一致性约束,筑牢数据服务可信基础。截至目前已沉淀共享模型110个,模型热度超1000个,为包括智能贷后、征信报送等在内的共30个应用提供了1300个数据服务接口,实现了数据的高效流通与共享。

重构扩展四大领域数据集市。构建营销、风险、监管、经营四大领域数据集市,支撑全行主要领域数据需求。

重构客户营销集市,将客户营销集市迁移并扩展至“湖仓一体”平台,整合内外部数据构建统一主题模型,包括客户、机构、员工、行为等。规范分层架构与标签标准,实现客户OneID全打通,消除冗余加工,提升数据一致性,支撑CRM、标签画像等十余个系统精准营销。当前已梳理营销领域的数据,完成约50个模型、近300个客户标签构建,为客户营销、客户信用评分、客户数字化运营等提供数据服务,显著提高营销活动响应速度与数据质量。

丰富风险数据集市,基于RWA(风险资本计量)扩展丰富风险数据集市,整合行内外客户、交易对手、关联人等多维度数据,构建零售、对公的数据服务。一方面支撑一道防线场景(如企业级决策引擎),实现风险指标快速调用与业务风控应用落地;另一方面完善二道防线能力,为RWA计算、市场风险计量、资本计量提供精细化数据支持。持续完善风险评估、风险量化等核心指标与应用逻辑,实现风险数据集中化管理与高效应用。

统一监管集市,构建全行统一的监管报送数据中心。整合全行监管报送系统,建立标准化数据指标库,覆盖十大系统(如一表通、EAST等),统一数据定义、加工规则及报文,构建全口径监管数据资产池,当前已建成145个模型、2700余个监管指标,支撑统一报送平台高效运转,推动监管能力从被动响应转向主动管控。

整合经营集市,经营集市为全行统一经营数据中心,规划并建成按交易、账户、客户等11大主题构建“200+”数据模型,整合零售、对公、金融市场等多业务条线数据,覆盖协议、考核利润、渠道分析等关键领域。为指标平台、绩效系统提供高质量数据,提升业务决策精准度,驱动精细化管理。

(3)“智驱”丰富数据服务

构建AI数据集,数据中台为AI数据集提供基础支撑,如客户交易流水、行为日志等,经清洗、关联后输出高质量数据湖,减少AI数据准备的提取、转换、加载成本。其共性特征、指标、客户标签等,可以作为AI数据集的数据源直接调用,避免重复开发,同时,数据中台的统一数据标准与资产目录,为AI大模型训练和智能分析提供高质量的数据和精准的数据血缘。当前围绕经营、营销、风控等领域已建成“2000+”数据指标,用于AI自助问题分析。

实时数据分析成为银行数据中台建设的必然,特别是互联网金融倒逼传统银行提升服务时效性,如实时营销触达、流计算、内存数据库等技术成熟。河北银行选择自主研发的技术路线,构建实时数据平台体系,包括实时采集、实时计算、实时平台和实时调度四个维度能力建设。已应用20余个业务系统实时采集数据,为信贷审批、事件营销、实时数字战情室、自助实时分析等70个业务场景提供高时效鲜活数据,助推全行数字化转型。

4.机制保障

一是统一规划,立足全行数字化转型战略,建立自上而下的顶层框架。制定统一的技术标准、数据规范与协作机制,打破壁垒。统筹规划分阶段建设,平衡短期需求与长期目标,避免重复投入,实现资源集约化持续演进。二是资产盘点,系统梳理存量数据资源、模型服务与工具,识别高价值资产与低效冗余任务,确保数据资产可查、可用、可运营,为业务创新提供精准弹药。三是组织构建,建立“决策-管理-执行”三级组织架构,由数据治理委员会统筹战略方向,数据管理部牵头跨部门协作,业务人员与科技团队协同落地,明确各级权责边界,建立需求对接、问题反馈、效果评估的闭环流程。

未来创新与展望

1.AI赋能构筑知识中台

在金融行业智能化转型浪潮中,知识中台正成为驱动业务创新的核心引擎。目前接入知识中台的数据以数据中台或大数据平台的结构类数据、文档类数据为主。未来知识中台技术重点之一是提升包括图片、音频、视频在内的多模态数据能力,借助OCR(图片文字识别提取)、ASR(自动信息识别)等实现知识智能采集;扩展NLP、知识图谱能力完成语义理解与知识抽取,实现知识深加工;LLM(大语言模型)、RAG(检索增强生成)能力与业务系统和场景深度集成形成知识产品,服务智能客服、辅助信贷等智能问答和决策辅助领域。

2.数据治理实现资产价值化

未来通过资产化实践,逐步形成“数据-资本-业务”循环。借助数据资产体系,以业务场景为牵引盘活全域数据资产,通过元数据管理与血缘追溯,厘清数据权属关系与生命周期状态,识别高价值资产,基于成本法、收益法等模型,数据资产价值评估实现落地应用。

3.技术创新不断降本增效

围绕效率提升和成本控制,数据中台的未来将集中进行技术创新和架构优化,借助如Hudi、Iceberg数据湖技术,实现数据湖和数据仓库的物理统一,结合数据组织架构、精细化资源调度、数据生命周期管理等切实有效的策略,实现降本增效。(课题组成员:朱中南、盛普、王恒磐、柴磊、路顺强、史立校、吴津津、耿雨明、胡卓峰、李佳星,本文由路顺强执笔)

请使用浏览器的分享功能分享到微信等