【多图】2024 TDBC 精彩内容一览

作为年度数据库领域重要的一次会议,2024 TDBC 于7月中旬在北京召开。比较遗憾的是,本人申请现场票未获成功,没能到现场参会。近日会议材料放出,算是对今年的会议有个了解。本文就是针对会议放出材料的个人一定观感,仅供参考。


1. 会议观察:技术应用篇

1).多模,渐成新趋势

随着大数据、人工智能、云计算、物联网的迅速发展,业务数据呈现出多样性,应用对于多模型数据处理能力提出了新的要求,数据库面临处理和分析多样化数据类型的挑战,包括结构化、半结构化和非结构化数据。此次大会这一趋势表现明显。从主办方发布的新增标准中,就可以看到包括多模、图、时空等细分场景的评测标准纷纷出台。

以多模数据库为例,其背景就是解决多样化数据应用需求在同一平台来解决,进而降低运行维护成本、提高开发效率。在参会企业中,就有多家多模数据库厂商带来各自产品。

除此之外,主办方还发布了多款细分场景数据库的专项评测标准。例如,时空数据库的性能测试标准。时空数据库是指面向时空数据具备模型表达、存储、查询和分析计算能力的数据库管理系统。其广泛应用在导航定位、自然资源管理、航空航天以及城市规划等领域,为海量时空数据管理与分析提供了重要支撑。

图数据库的性能测试标准。图数据库是一种基于图结构进行语义操作的数据库。图结构的基本要素是节点和边,能表示和处理对象之间复杂的关系,它主要适用的是数据量大、对象之间关联关系复杂、变化迅速、需要频繁对象和其关系进行查询的业务场景,在知识图谱、金融、社交网络分析等领域具有传统的关系型数据库难以比拟的效率优势。

2).RAG,向量应用新方向

作为向量数据库应用方向之一,RAG 正受到更多关注。下文描述了RAG在企业内应用的困境及厂商如何通过向量数据库加以解决,并总结了向量数据库对应具备的能力。

3).搜索,不一样的数据库
之前对搜索数据库了解甚少,只是用过一段时间ES。针对搜索型数据库,此次带来较为全面的分析。

4).云原生,升级换代中
云与云原生数据库无疑是数据库领域的新生力量,但已经表现出强大的活力,甚至可以说是在加速数据库产业革新。无论是从国外 AWS 将老牌数据库厂商按到地上摩擦,还是 Gartner 将之前的数据库魔力象限,干脆改为 Cloud Database xxx,无疑都代表着云计算对数据库的影响之大。为了充分享受云计算的价值,解决数据库性能和成本问题,数据库架构不断与云架构融合。随着“云原生”理念的逐步普及,云原生数据库成为云厂商和各类数据库厂商的重要赛道。在本次会议上,移动云也带来了他们对云原生数据库的理解。其将云原生数据库定位了四个层级,分别对应容器化、存算分离、Serverless和算力网络。

针对四个层级,其实也代表着云原生数据库的架构演进阶段,对应解决不同的问题。

比较有意思的是,对应 L4 级的算力网络,移动也将其定义为云原生数据库的新方向。个人看来,就是将已有云原生数据库与大规模计算网络结合,达到对数据计算资源供给的新定义。

目前大多数云厂商正在完成从L1、L2向L3、L4的发展阶段。

5).湖仓一体,库湖仓的轮回
分析型数据库的发展,走过了几个阶段,从早期单机数据库、到MPP数据库、再到数据湖以及现在大家共识的湖仓一体。

特别是数据仓库与云原生的结合,解决之前困扰MPP数据库的诸多难点。回顾下传统MPP数据库所面临的问题

通过存算分离的弹性解决,客服了传统数仓的局限性。

通过与云的结合,其带来的云原生结构可以更好地解决上述问题的同时,还带来成本、易用性等方面的改善。

6).兼容性,关注量化衡量

兼容性,可以说是老生常谈的问题了,国内各数据库厂商都在兼容性上面做了不少工作,这也是产品是否能快速落地的要素之一。通过近几年的场景实践,各厂商都在不断磨合增强这方面能力。比较有意思的是来自腾讯云-TDSQL,针对 Oracle、SQL Server 提供了可量化的兼容比例,这里对兼容评测集还是挺好奇的。因为目前业内还没有较权威的兼容性评测标准,客户在评估上还是更多依靠自己测试或来自厂商的兼容报告

7).AI,让开发运维更高效
这里谈到的是AI4DB,随着AI大模型技术不断发展和应用,其在赋能数据库开发管理方面提供了丰富的可能性。为了提升数据库开发管理效率,降低运维成本,AI可以发挥很大作用。如下是针对开发、运维方面,AI可能的应用方向。

各厂商通过不断积累,已经开始在产品侧落地 AI 能力。

8).安全,端到端才是真安全
作为数据的主要载体,数据安全是非常重要的,这也是国产数据库非常有优势的地方。笔者目前也是在一家做数据安全解决方案的公司,深知数据安全的重要性。要想做到数据安全,如何实现全流程、端到端尤为中卫,这包括数据的传输、存储、计算等多方面。下图就是厂商的安全能力实践。

9).集成,实时、管理是难点

如何实现企业内数据高效流转,是很多企业不得不面对的问题。数据集成,可在一定程度上解决这一问题。下文对比常见的实时数据集成方案,突出各方案的优缺点;并引出自有方案(带有中央化存储的实时中台架构)。

10).切换,应用数据解耦是关键
针对当前大量国产化改造的诉求,如何降低切换风险,做到平滑迁移受到大家关注。下文描述在国产化改造流程中的多个步骤,其中的上线切换部分是这部分阐述重点。

在上线切换中,有两种思路解决这一问题,一是数据库中间件方案,一是应用双写方案。两种方案各有优缺点。

为了减少对应用的影响,复用已有成果,推荐可采用数据库中间件的方案,通过将应用与数据的分离,将数据访问依托于中台来实现。

下图则描述了针对中间层双写的方案的一个典型切换过程,通过停老写、启双写、数据对齐、下老写等步骤完成切换过程。切换后实现新老平台同步双写,随时保持可回切的能力。

针对平滑迁移,人大金仓则提出了“三低一平”的解决方案,分别面向研发侧(兼容能力,低难度)、管理侧(工具平台,低成本)、运维侧(双轨并行,低风险)及柔性迁移来解决。


2. 会议观察:行业产品篇

1).行业属性,深化后的必然结果

随着国产数据库进入深水区,大量应用实践也逐步沉淀并反哺到产品中。下文是腾讯云-TDSQL的一个总结,将在各个行业实践中得来的成果加以展示。个人非常赞同这样的做法,对于用户而言来自一线需求反馈沉淀的功能往往有很大的实践意义,也代表着厂商在这方面的积累。

2).云产品布局,自研+托管+合作

数据库厂商可大致分为两类,独立与云厂商。针对后者,往往有着自己的云产品布局。以数据库为例,通常是通过自研、托管、合作的方式构建产品矩阵。下文以AWS为例进行了说明,这些对用户选择云产品也有着一定指导意义。

3).产品规划,开源敏态与企业稳态

当前有很多厂商都有着自己的开源策略,开源是可以在一定程度上帮助且有构建自有生态,但同时开源也会对产品发展造成一定影响。如何平衡开源与商业开发?如何解决开源的频繁迭代与商业稳定的矛盾?下文给出了TiDB在这方面的思考,其通过开源版本与企业长期服务版本(LTS)的划分,一方面来满足对敏态需求的快速支持,一方面来应对稳定运行的核心需求。

同时针对不同需求,也推出了同一内核不同形态的产品(稳态、敏态、超敏态),覆盖不同用户的需求。

4).产品定位,One Size Fits a Bunch

One size fits all,是人们最早对数据库的期许,希望通过单一数据库能解决所有问题。但经过残酷现实的考验后,发现 “一统天下”的关系数据库解决不了任何问题,最终应该是 One size a bunch,即一类数据库不是只解决某一个专用的场景,也不是解决所有的场景,而是解决一批的场景。

下图是以 TiDB 为例,看看一款产品的定位及对应的场景。

去年周傲英教授的一次分享中,又进一步延伸了这一观点,并引用阳振坤所提出“One Suite fits all”概念。即不是通过 One Size 而是 One Suite,通过一个核心多个形态(形成套件)来满足企业不同场景诉求。
5).行业实践,转型中金融业

金融行业正在发生自上而下的转型,下图总结了多个角度的变化。

上述变化也导致对底层数据库提出了新的要求。特别是从传统集中式数据库到分布式数据库的转变,对后者提出了在可靠性、透明性等方面的更高要求。

针对核心系统来说,也走过了从集中式到分布式的转变;但对于不同体量的银行,在核心采用微服务或单元化的改造,对数据库也提出了不同的要求。

对比集中式,分布式会天然带来一定的复杂度,因此需要在规划设计之初就充分考虑分布式的特殊性。此外,针对中小规模等绝大部分场景,集中式仍然是一种有效之道,不要为了上分布式而上分布式。

6).行业实践,重要复杂电信业

电信行业,在数据库国产化改造中同样面临多种困难,主要体现在规模大、系统复杂、重要级别高等,这些都会国产数据库提出了更高的要求。






请使用浏览器的分享功能分享到微信等