大数据技术 - StarRocks内部实时更新技术的方案

  • 介绍
    StarRocks是一种新一代的极速全场景MPP数据库,它设计和实现了Primary Key模型,让数据可以更好地实时更新,并且具备极速的查询能力。在大规模实时数据进行写入时,查询性能可以做到其他行业领先OLAP数据库的3-5倍。当前StarRocks已经在超过110家大型用户的核心业务场景下进行大规模使用,其中很多用户已成功采用Primary Key模型提升了实时分析能力,如腾讯、Airbnb、顺丰、众安保险等。
    StarRocks的实时更新技术主要采用了Delete-and-Insert模式,并且进行了很多新的设计,以支持在大规模实时数据更新时提供极速的查询性能。当一批更新到来后,通过主键索引,先找到每条记录原来所在的位置,把该条记录标记为删除,然后把最新数据作为新记录写入新文件。读取时,根据删除标记来将旧版本过期数据过滤掉,留下最新更新后的数据。因为无需像Merge-on-Read和Delta Store模式下进行Merge,另外过滤算子可以下推到Scan层直接利用各类索引进行过滤减少扫描开销,所以查询性能的提升空间更大。

  • 文章推荐
    https://mp.weixin.qq.com/s/hID-F6Z8_kQDGd_mOF0xJw

请使用浏览器的分享功能分享到微信等