
作为年度数据库领域重要的一次会议,2024 TDBC 于7月中旬在北京召开。比较遗憾的是,本人申请现场票未获成功,没能到现场参会。近日会议材料放出,算是对今年的会议有个了解。本文就是针对会议放出材料的个人一定观感,仅供参考。
1).多模,渐成新趋势
随着大数据、人工智能、云计算、物联网的迅速发展,业务数据呈现出多样性,应用对于多模型数据处理能力提出了新的要求,数据库面临处理和分析多样化数据类型的挑战,包括结构化、半结构化和非结构化数据。此次大会这一趋势表现明显。从主办方发布的新增标准中,就可以看到包括多模、图、时空等细分场景的评测标准纷纷出台。
以多模数据库为例,其背景就是解决多样化数据应用需求在同一平台来解决,进而降低运行维护成本、提高开发效率。在参会企业中,就有多家多模数据库厂商带来各自产品。

除此之外,主办方还发布了多款细分场景数据库的专项评测标准。例如,时空数据库的性能测试标准。时空数据库是指面向时空数据具备模型表达、存储、查询和分析计算能力的数据库管理系统。其广泛应用在导航定位、自然资源管理、航空航天以及城市规划等领域,为海量时空数据管理与分析提供了重要支撑。

图数据库的性能测试标准。图数据库是一种基于图结构进行语义操作的数据库。图结构的基本要素是节点和边,能表示和处理对象之间复杂的关系,它主要适用的是数据量大、对象之间关联关系复杂、变化迅速、需要频繁对象和其关系进行查询的业务场景,在知识图谱、金融、社交网络分析等领域具有传统的关系型数据库难以比拟的效率优势。

2).RAG,向量应用新方向



3).搜索,不一样的数据库




4).云原生,升级换代中








5).湖仓一体,库湖仓的轮回



通过与云的结合,其带来的云原生结构可以更好地解决上述问题的同时,还带来成本、易用性等方面的改善。

6).兼容性,关注量化衡量

7).AI,让开发运维更高效


8).安全,端到端才是真安全

9).集成,实时、管理是难点
如何实现企业内数据高效流转,是很多企业不得不面对的问题。数据集成,可在一定程度上解决这一问题。下文对比常见的实时数据集成方案,突出各方案的优缺点;并引出自有方案(带有中央化存储的实时中台架构)。


10).切换,应用数据解耦是关键

在上线切换中,有两种思路解决这一问题,一是数据库中间件方案,一是应用双写方案。两种方案各有优缺点。

为了减少对应用的影响,复用已有成果,推荐可采用数据库中间件的方案,通过将应用与数据的分离,将数据访问依托于中台来实现。

下图则描述了针对中间层双写的方案的一个典型切换过程,通过停老写、启双写、数据对齐、下老写等步骤完成切换过程。切换后实现新老平台同步双写,随时保持可回切的能力。


1).行业属性,深化后的必然结果

2).云产品布局,自研+托管+合作
数据库厂商可大致分为两类,独立与云厂商。针对后者,往往有着自己的云产品布局。以数据库为例,通常是通过自研、托管、合作的方式构建产品矩阵。下文以AWS为例进行了说明,这些对用户选择云产品也有着一定指导意义。

3).产品规划,开源敏态与企业稳态
当前有很多厂商都有着自己的开源策略,开源是可以在一定程度上帮助且有构建自有生态,但同时开源也会对产品发展造成一定影响。如何平衡开源与商业开发?如何解决开源的频繁迭代与商业稳定的矛盾?下文给出了TiDB在这方面的思考,其通过开源版本与企业长期服务版本(LTS)的划分,一方面来满足对敏态需求的快速支持,一方面来应对稳定运行的核心需求。

同时针对不同需求,也推出了同一内核不同形态的产品(稳态、敏态、超敏态),覆盖不同用户的需求。
4).产品定位,One Size Fits a Bunch
One size fits all,是人们最早对数据库的期许,希望通过单一数据库能解决所有问题。但经过残酷现实的考验后,发现 “一统天下”的关系数据库解决不了任何问题,最终应该是 One size a bunch,即一类数据库不是只解决某一个专用的场景,也不是解决所有的场景,而是解决一批的场景。

下图是以 TiDB 为例,看看一款产品的定位及对应的场景。

5).行业实践,转型中金融业
金融行业正在发生自上而下的转型,下图总结了多个角度的变化。

上述变化也导致对底层数据库提出了新的要求。特别是从传统集中式数据库到分布式数据库的转变,对后者提出了在可靠性、透明性等方面的更高要求。

针对核心系统来说,也走过了从集中式到分布式的转变;但对于不同体量的银行,在核心采用微服务或单元化的改造,对数据库也提出了不同的要求。



对比集中式,分布式会天然带来一定的复杂度,因此需要在规划设计之初就充分考虑分布式的特殊性。此外,针对中小规模等绝大部分场景,集中式仍然是一种有效之道,不要为了上分布式而上分布式。

6).行业实践,重要复杂电信业
电信行业,在数据库国产化改造中同样面临多种困难,主要体现在规模大、系统复杂、重要级别高等,这些都会国产数据库提出了更高的要求。


