来源：安瑞哥是码农

这两天的主要精力一直在思考，如何把外部的MySQL、SQLServer数据源高效、优雅的导入到Clickhouse(下称CK)中。

要说高效，其实用CK自带的外部表+物化视图的方式一定是最快的、最省事的。

因为之前用过kafka的外部表+物化视图的方式，就可以很方便把外部数据给导入到CK内部，确实很好用，可是这一次，我们把kafka换成MySQL之后，到底还能不能好使呢？

那么这篇文章，咱就来看看，CK支持的mysql外部表，到底能不能行。

0. MySQL外部表种类

针对MySQL的外部表，官方文档说明中至少有3种玩法，前两种是专门针对MySQL的 MySQL 引擎表和 MaterializedMySQL 引擎库，还有第三种，则是基于JDBC的外部引擎表。

那么针对这两种方式的外部表如何玩，这其中到底有没有坑，接下来我们一起来实地考察一番。

1. MySQL引擎表

先来看CK专门针对MySQL数据库而提供的外部表功能，相比后面的JDBC方式，这是一种目前CK提供的，跟MySQL数据库建立关联最简单的方式。

具体玩法，就跟建普通的CK本地表一样，只不过，需要把表的引擎给换成MySQL，比如像这样：

CREATE TABLE mysql_data01
(
    `id` int,
    `name` String
)
ENGINE = MySQL('192.168.211.106', 'test', 'test01', 'xxx', 'xxxxx')

括号里面的参数依次是：MySQL数据库的ip，库名，表名，用户名，密码。

建成之后，此时的CK命令行界面，就好比MySQL的一个客户端，你就可以直接通过这个表名，来查询到MySQL对应的test01这张表的数据了。

但是，你知道，这肯定不是我的目的，因为既然是客户端，那么就说明该表的数据仅仅只是拉到我当前CK实例的内存里，而并没有写入我的CK存储中。

这个时候，我就需要在CK创建一张真实的物理表，然后通过某种方式把这个MySQL的数据给灌到这个真实的物理表中。

那么这个「某种方式」，官方最推荐的做法就是创建一个物化视图，它可以把MySQL表中的数据，根据写入变化(物化视图目前只支持insert)，实时同步到CK的物理表中，类似给它们之间架起了一座数据传输管道。

于是，我就创建了CK本地表：

再又创建MySQL(test01)表跟CK本地表(mysql2ck_local01)之间的物化视图：

按理说，这个时候我只要往MySQL表里写数据，就可以从这张CK的本地表或者物化视图里查到对应的数据。

可遗憾的是，当我往MySQL表写了几条数据之后，并没有得到我期待的结果：

MySQL映射表有数据

物化视图没有数据

本地表亦没有数据

所以我宣布，用MySQL外部表+物化视图的方式来同步MySQL表数据失败。

PS：后面我又尝试用了物化视图的POPULATE方式，虽然可以把mysql的历史数据全部导入到CK本地表，但后续mysql增加的数据，就导入不了了，所以还是不行。

2. MaterializedMySQL引擎库

顺着官方文档往后翻，发现它还提供了一个支持MySQL全库同步的方式，那就是创建一个 MaterializedMySQL 引擎库(注意是库，而非表)，这样就可以把MySQL特定库下的所有表都同步到CK里。

只不过，这是CK推出的一个实验性功能，虽然如此，但我还是决定一试。

大概查了一下原理，这种玩法，其实是利用了MySQL的binlog功能，通过日志变化来同步数据的变化。

所以这种玩法也就意味这需要对原本的MySQL数据库做一些配置的改变(比如需要开启原本默认关闭的binlog功能)。

只是不幸的是，我当前的MySQL为5.5版本(centos7自带的版本)，好像没办法识别官方文档给的那些需要额外添加的MySQL配置。

需要添加的配置

当前mysql无法识别

既然这样，只好作罢，说明这一招并不是在所有的MySQL版本上都奏效，下次我再换个高版本的再试试。

所以，果然是实验性的，不靠谱。

3. JDBC引擎表

通过官方文档，现在貌似只剩最后一招了，那就是试试通过JDBC引擎表+物化视图的方式，看看得不得行。

之所以把这部分放到最后来写，原因在于想要使用JDBC引擎，相比上面的2个引擎操作，要更麻烦一些，它需要额外启动一个JDBC-Bride服务。

运行原理大致是这样的：

官网copy过来的图

也就是如果想要在CK中查询支持JDBC协议的外部表，必须要通过JDBC-Bride这么个中间服务才可以。

具体的部署方式呢，其实有3种(详见: https://github.com/ClickHouse/clickhouse-jdbc-bridge)：

1. docker方式部署;

2. RPM包安装；

3. Java程序包运行。

官方文档用的第3种，而我为了更方便，用的第2种部署方式：

rpm包部署方式

用rpm包部署最大的好处在于，相关的配置文件和目录在部署的时候就已经给你自动生成好了，不需要再额外去创建。

下面这个目录，就是用rpm包部署后自动生成的配置目录：

现在我们最关心的，就是如何来使用这个jdbc-bride。

既然是通过它来连接数据库，那是不是就必须得有对应数据库的配置才行，跟上面直接在建表语句中配置数据源信息不一样的是，这个jdbc-bridge的玩法，需要在专门的配置文件中。

在哪呢？搁着藏着呢(官方文档其实没有说明，被我摸索找到的)：

这个目录下，对应的json文件，就是你目标数据库的配置，比如我的这个数据源就是MySQL(版本为5.5)，对应配置文件为mysql5.5.json(取什么名字不重要，你能区别就行)。

对应配置内容如下：

{
  "mysql5.5": {
  "driverUrls": [
    "https://repo1.maven.org/maven2/mysql/mysql-connector-java/5.1.9/mysql-connector-java-5.1.9.jar"
  ],
  "jdbcUrl": "jdbc:mysql://192.168.211.106:3306",
  "username": "***",
  "password": "***"
  }
}