近年来,国际形势急剧变化,我国金融业关键技术基础设施面临的外部风险不断加大,迫切需要加强技术建设,切实强化自主可控能力,不断增强抵抗外部风险能力,保障我国金融业持续、稳定、健康发展。随着数据技术和数字经济飞速发展,业内普遍认识到数据基础平台是实现数据价值的基础保障,能有效汇聚数据资产,提升数据供给效能。各机构纷纷加大投入,加速自身数字化转型升级。申万宏源证券在全行业推进IT基础设施建设的浪潮下,不断加强金融科技创新能力建设,打造新一代数据仓库平台,持续优化平台架构、强化运行效率、夯实数据基础。
技术路线
数据仓库作为金融机构的数据基础设施,对于技术的高要求表现在两个方面:一方面需要集群具备较高的运行效率,良好的可扩展性、稳定性和系统兼容性;另一方面,经过多年发展,大型传统金融机构的数据仓库所对接的上下游系统既多又广,关联关系复杂,往往涉及公司内各个部门,以及一些对客系统,其升级替换期间的业务连续性必须得到保证。要实现数据仓库平台的替换和业务平滑切换,必须对候选产品的特性、生态、实施服务、运维服务和自主可控等方面进行全面评估,对候选厂商的产品设计开发能力、项目管理能力和持续服务能力提出更高要求。
面对市场上多种商业数据仓库产品,申万宏源证券组织了产品评测,主要考察产品部署、产品功能、运维管理、模型迁移、场景性能、集群扩展及高可用、工具生态、行业经验等内容,基本覆盖了数据仓库的日常使用场景。申万宏源证券的新一代数据仓库平台选型采用云原生分布式数据仓库AnalyticDB搭建,所采用的关键技术及创新点表现在以下几个方面。
第一,采用了云原生架构实现算力动态调节。平台基于K8S和容器的云原生架构,实现了资源统一管理,存算分离,易于支持容灾和通用硬件。作业高峰时,扩充算力,加速执行,获得速度优势;低谷时,释放算力,降低系统功耗,释放能耗优势;故障时,动态漂移节点,快速实现容灾。从而获得良好的性能、功耗和容灾效果,以及成本优势。
第二,采用了多种新技术提升性能。采用支持PB级数据量的实时增删改存储引擎,默认创建全列索引,索引构建开销达到千亿级数据秒级响应;采用向量计算和智能索引技术,使产品性能提升数倍以上;内置了基于代价估算的查询计划优化器,充分利用全列索引,实现复杂SQL自动优化,减少计算和数据传输的开销;采用了DAG作业运算的小批次流水线执行框架,以及数据库内核与操作系统协同的查询公平调度算法,实现了高吞吐和低延迟查询的混合执行;支持单系统内通过单条SQL对结构化和非结构化数据进行融合分析;可对接Flink、Kafka等,实现实时数仓,提供实时账户分析能力。在国际知名的TPC组织公布的数据库领域分析性能测试中,AnalyticDB在整体性能上获得第二名。
第三,提供数据质量优先策略以获得精准数据治理能力。平台支持数据入库质量优先策略,不但数据精度更高,而且对入库的乱码数据进行精准标记,有助于发现和梳理数据质量问题,精准治理,以提高数据质量。
第四,采用了数据联邦分析技术加快查询速度和数据开发效率。通过支持数据跨实例共享,可实现数据的跨平台联邦分析,再结合冷热数据分层存储机制,加速数据查询比对,提升了开发过程中数据比对验证的效率。
整体架构上,平台包括主备双中心。主中心用于数据存储、加工和分析,备中心用于容灾和备份。主备中心采用“统一采集、双加载”模式实现数据同步,所有作业均通过ETL工具统一调度。
作为数据中台的计算和存储层之一,平台通过各类数据交换组件对接上游源系统,获取并存储各类数据,按照数据模型组织数据,最后通过数据交换/共享层向下游提供数据服务。
项目特色
平台基于云原生架构和多种技术手段,在性能、功能、功耗、数据质量、自主可控等方面均显著优化,总体技术水平处于国内领先。与众多数据仓库类项目相比,本项目还有如下特点。
1.采用了新的技术路线实现平台自主可控。本项目采用了行业内尚未在生产环境验证过的信创实现方案,即基于海光芯片的服务器,搭载麒麟操作系统,其上部署云原生数据库软件AnalyticDB,在数据仓库信创化改造方面探索了不同路径,实现了平台自主可控的目标。
2.形成了数据仓库迁移和信创改造最佳实践,助力行业推广。通过本项目建设,形成了数据仓库升级与信创改造方法论——五阶十步法(如图所示);沉淀了数据仓库迁移最佳实践,包括SDOM数据模型迁移、跨平台数据迁移、大规模业务应用平滑切换最佳实践;丰富了数据仓库迁移效率工具箱,如脚本转换工具,数据联邦查询核验工具,元数据变化感知工具等,有助于加速行业推广落地。
图 数据仓库迁移实施:五阶十步法
应用价值
新数据仓库平台作为申万宏源证券金融科技“2349”战略蓝图的重要基础设施,满足未来5~10年技术发展和演进方向,可保证公司在数据中台技术上的领先优势,同时符合行业自主可控和安全性的要求,被专家评审认定为处于国内领先水平。平台自推广使用以来,取得了较为显著的经济效益和社会效益。
经济效益主要表现在以下几方面。第一,作为企业级数据聚合与共享平台,新数据仓库平台相比原数据仓库,业务承载规模提升了60%,更好地满足了业务快速增长的数据需求。第二,作为企业金融科技的关键基础设施,新数据仓库相比原数据仓库,大规模计算速度提升30%,显著提高了下游用数时效,改善了用户体验。第三,作为数据治理落地的重要平台,新数据仓库在数据准确性和完整性方面更胜一筹,有助降低公司在数据治理领域面临的监管风险。第四,截至2022年底,申万宏源证券完成了全部历史数据和业务平稳迁移,实现了新旧平台整体切换。先后对接130多个数据源系统,迁移了18个数据集市、约2万个跑批任务、近2000个数据接口、约110个数据应用,已在财富管理、资产管理、FICC、金融创新、风险控制、法律合规、财务管理等多个业务条线和中后台条线发挥着重要的数据支撑作用,应用效果广受好评。
社会效益主要表现在以下几方面。第一,新数据仓库平台从底层硬件、操作系统到数据库软件,全部采用信创技术方案,真正实现了数据仓库基础设施自主可控和安全可信,切实增强了金融机构抵御外部风险能力。第二,长期以来,我国金融业广泛采用国外数据仓库产品,应用场景较多,树大根深,替代工作非朝夕可成。基于云原生架构的新一代数据仓库平台的建成投产,为推进行业数据基础设施自主可控提供了新的技术路线和实践案例,已被业内其他金融机构成功复制并落地,未来将继续在行业基础设施信创化改造过程中发挥良好的示范作用。第三,行业内数据仓库的信创改造不仅多了一种新的技术案例,还锻炼了具备较高技术水平和良好实施经验的团队,为全行业推进信创工作积累了技术、储备了人才,有助于行业加快基础设施信创步伐。第四,本项目另辟蹊径,大胆探索新的信创技术路线,在业内树立了标杆,有力支持了国内软硬件产品生态建设与发展壮大。
本项目荣获金融科技发展奖,充分说明申万宏源证券在金融科技创新领域取得的显著成绩获得了业内认可,对公司探索运用金融科技践行金融报国和服务高质量发展具有重要意义。