天翼云代理,天翼云代理商,北京代理商
天翼云2.5折专线:18510009100/18510009200(全国市话)

基于开源应用快速构建HTAP系统(2)

2021-11-19 11:40:35

上述规则的意思是,当SELECT语句中包含 "+CLICKHOUSE" 关键字时,就会自动转发到 ClickHouse 后端去处理,其余的都发送到MySQL后端处理。例如下面这两条SQL就会分别转发到MySQL和ClickHouse后端:



#SQL #1 [root@yejr.run]> SELECT * FROM sbtest1 WHERE id=1;  #SQL #2 [root@yejr.run]> SELECT /*+CLICKHOUSE*/ * FROM sbtest1 WHERE id=1; 



第二条SQL利用MySQL的注释语法巧妙地实现规则HINT。

查询 stats_mysql_query_digest 表的结果予以确认:


roxysql> select hostgroup, schemaname, username, digest, digest_text from stats_mysql_query_digest; +-----------+------------+----------+--------------------+----------------------------------+ | hostgroup | schemaname | username | digest             | digest_text                      | +-----------+------------+----------+--------------------+----------------------------------+ | 0         | sbtest     | app_user | 0x5662D7CF0442E794 | select * from sbtest1 where id=? | | 1         | sbtest     | app_user | 0x5662D7CF0442E794 | select * from sbtest1 where id=? | +-----------+------------+----------+--------------------+----------------------------------+



可以看到,两条SQL看起来一样,但分别转发到不同的hostgroup了。

最后配置ProxySQL的监控服务(可选,非必须):


proxysql> set mysql-monitor_enabled="true"; proxysql> set mysql-monitor_username="monitor"; proxysql> set mysql-monitor_password="monitor";  proxysql> save mysql variables to disk; load mysql variables to runtime;

至此,一个全部基于开源应用的简易HTAP系统就构建好了。

4. 性能对比

在这里,我选用ClickHouse官方提供的benchmark方案:Star Schema Benchmark。

编译完成后先是利用ssb-dbgen生成测试数据(指定参数 -s 50):

./dbgen -s 50 -T c & ./dbgen -s 50 -T l & ./dbgen -s 50 -T p & ./dbgen -s 50 -T s & ./dbgen -s 50 -T d &

再创建几个测试库表,自行修改建表的DDL以适应MySQL语法。而后导入测试数据,最后根据文档并生成 lineorder_flat 表。

[root@yejr.run]> show table status; +----------------+--------+---------+------------+-----------+----------------+--------------+ | Name           | Engine | Version | Row_format | Rows      | Avg_row_length | Data_length  | +----------------+--------+---------+------------+-----------+----------------+--------------+ | customer       | InnoDB |      10 | Dynamic    |   1378209 |            120 |    166363136 | | lineorder      | InnoDB |      10 | Dynamic    | 297927870 |            100 |  29871833088 | | lineorder_flat | InnoDB |      10 | Dynamic    | 292584926 |            430 | 125952851968 | | part           | InnoDB |      10 | Dynamic    |   1192880 |            111 |    132792320 | | supplier       | InnoDB |      10 | Dynamic    |     99730 |            110 |     11026432 | +----------------+--------+---------+------------+-----------+----------------+--------------+

数据全部加载完毕后,再在ClickHouse中创建MaterializeMySQL复制通道:

clickhouse :) CREATE DATABASE ssb ENGINE = MaterializeMySQL('172.24.10.10:3380', 'ssb', 'repl', 'repl');


数据量比较大,耐心静待它复制完成即可。

然后连接 ProxySQL,先简单执行大表count(*),观察耗时的不同:

#直接执行count(*),会转发到后端 MySQL 实例 [root@yejr.run]> select count(*) from lineorder_flat; +-----------+ | count(*)  | +-----------+ | 300005811 | +-----------+ 1 row in set (3 min 2.14 sec)  #加上HINT规则,会转发到后端 ClickHouse 实例 [root@yejr.run]> select /*+CLICKHOUSE*/ count(*) from lineorder_flat; +-----------+ | count(*)  | +-----------+ | 300005811 | +-----------+ 1 row in set (5.67 sec)

光是 count(*) 就差了好多倍。

再选取其中前4个SQL测试,记录的耗时如下:

Query MySQL ClickHouse(从库) ClickHouse(原生)
Q1.1 308.388684 0.149 0.107
Q1.2 320.373203 0.280 0.027
Q1.3 279.673361 0.346 0.030
Q2.1 286.451062 1.246 0.489

很明显,直接在MySQL上查询的效率实在太低了,而作为从库的MaterializeMySQL和ClickHouse原生的MergeTree表虽然也有一定差距,但相差也没那么大了,还算是很快的。

4. 其他说明

  • ClickHouse的MaterializeMySQL中不支持 create like 语法。例如执行 create table db2.a like db1.a,其中db1是要复制到ClickHouse的,而db2是留在MySQL端,即便这样也会导致ClickHouse端复制报错,需要重启才行。
  • ClickHouse的MaterializeMySQL中也不支持函数索引
  • 偶尔发现ProxySQL的监控模块连接到ClickHouse后,会发送 SET wait_timeout=N 命令,会导致ClickHouse报错,但不影响正常使用。重启ProxySQL,或者重启监控开关都可以解决

Enjoy it :)

12年经验 · 提供上云保障

服务热线:132-6161-6125(手机) 400-150-1900(全国市话)

站内导航: 天翼云服务器价格| 天翼云购买流程| 天翼云代理| 北京天翼云代理商| 杭州天翼云代理| 深圳天翼云代理商| 钉钉代理商| 阿里云代理| 公司官网

我公司收款账号| 天翼云备案系统

CopyRight © 2019 天翼云代理商. All Rights Reserved 京ICP备2024071855号-7 管理-北京优胜智连科技有限公司