ClickHouse是开源、高性能的列式OLAP的数据库管理系统(DBMS)。使用SQL进行实时分析。
线性扩展和可靠性保障能够原生支持 shard + replication
ClickHouse没有走hadoop生态,采用 Local attached storage 作为存储
超过了市场上同类的面向列的数据库管理系统,每秒每台服务器每秒处理数数亿至十亿多行和数十千兆字节的数据
1 、对于列的聚合,计数,求和等统计操作原因优于行式存储。
2、 由于某一列的数据类型都是相同的,针对于数据存储更容易进行数据压缩,每一列选择更优的数据压缩算法,大大提高了数据的压缩比重。
3 、由于数据压缩比更好,一方面节省了磁盘空间,另一方面对于cache也有了更大的发挥空间。
clickhouse和mysql类似,把表级的存储引擎插件化,根据表的不同需求可以设定不同的存储引擎。
ClickHouse采用类LSM Tree的结构,数据写入后定期在后台合并。通过类LSM tree的结构,但是没有内存表,没有预写日志,ClickHouse在数据导入时全部是顺序append写入磁盘,在后台周期性合并数据到主数据段。
语句级多线程:在这种设计下,单条Query就能利用整机所有CPU。
在大数据分析领域中,传统的大数据分析需要不同框架和技术组合才能达到最终的效果,在人力成本,技术能力和硬件成本上以及维护成本让大数据分析变得成为昂贵的事情。让很多中小型企业非常苦恼,不得不被迫租赁第三方大型公司的数据分析服务。
ClickHouse开源的出现让许多想做大数据并且想做大数据分析的很多公司和企业耳目一新。ClickHouse 正是以不依赖Hadoop 生态、安装和维护简单、查询速度快、可以支持SQL等特点在大数据分析领域越走越远。