ckman：非常好用的ClickHouse可视化集群运维工具

本文介绍: 点击主页的，就会进入创建集群的界面：：集群的名字，注意不要和ckman已有的名字重合: 安装包类型，用来区分平台和架构，不需要自己填写，上传安装包后可通过下拉框选择。如果选择的平台和架构不正确，如在arm的机器上部署x86的安装包，则不会成功。ck的版本，不需要自己填写，通过下拉列表选择，下拉列表中会列出ckman服务器中所有的安装包版本。此处版本信息只会列出当前ckman服务下的安装包版本，如果配置了多中心，其他ckman的安装包是无法看见的在部署集群之前，需要先上传安装包。

ckman，全称是ClickHouse Management Console，即ClickHouse管理平台。它是由擎创科技数据库团队主导研发的一款用来管理和监控ClickHouse集群的可视化运维工具。目前该工具已在github上开源，开源地址为：github.com/housepower/ckman。

我们不妨思考一下这样的场景：如果要部署一个ClickHouse集群，需要怎么做？

首先，我们需要在所有ClickHouse节点上安装ClickHouse的rpm包，然后，需要修改配置文件，包括但不限于config.xml、users.xml、metrika.xml。注意，是所有节点上都要修改，修改完成后需要依次启动各个节点。

当集群规模不大，这些操作手动去完成可能不觉得有什么，但是如果集群规模比较大，单个集群的节点达到了上百台甚至上千台，这时候要手工去每台机器上去操作，显然变得不太现实。

如果需要往集群增加一个节点呢？

我们需要在已有的节点上的metrika.xml配置文件中加上该节点，然后在新增节点上安装rpm包，修改metrika.xml，启动ClickHouse服务，最后还要同步其他节点上的schema表结构，至此才能完成。

如果要升级集群呢？我们不仅需要在每个节点上重新安装升级rpm包，还需要考虑一些其他的问题：需不需要停服务？如果升级失败了怎么办？

总之，ClickHouse的集群运维，如果靠人工去做，不仅繁琐，容易出现各种问题，当集群规模变大后，也变得不切实际。

这时候，ckman的出现，就可以完美解决上述的问题。ckman将这些运维操作都集成在管理界面中，用户只需要在web界面上通过简单的信息配置，点击鼠标，就可以完成所有的配置工作，而无需关注其他细节，也减少了出错的可能。

ckman主要的功能是管理和监控ClickHouse集群。因此，它的操作对象只能是ClickHouse集群，而不是单个ClickHouse节点。

由于ckman使用golang实现，因此需要提前安装go(请使用>=1.17版本)；

如果需要编译成rpm包或deb包，需要安装nfpm:

wget -q https://github.com/goreleaser/nfpm/releases/download/v2.15.1/nfpm_2.15.1_Linux_x86_64.tar.gz 
tar -xzvf nfpm_2.15.1_Linux_x86_64.tar.gz 
cp nfpm /usr/local/bin

编译前端需要安装yarn。在CentOS 7上安装yarn: (参考How to Install Yarn on CentOS 7 | Linuxize)

$ curl --silent --location https://dl.yarnpkg.com/rpm/yarn.repo | sudo tee /etc/yum.repos.d/yarn.repo
$ sudo rpm --import https://dl.yarnpkg.com/rpm/pubkey.gpg
$ sudo yum install yarn
$ yarn --version

在其他平台上安装yarn，请参考yarn官方文档。

make package VERSION=x.x.x

以上命令会编译成打包成一个tar.gz安装包，该安装包解压即可用。

VERSION是指定的版本号，如果不指定，则默认取git describe --tags --dirty的结果作为版本号。

make rpm VERSION=x.x.x

鉴于编译环境的诸多依赖，配置起来可能比较麻烦，因此也提供了docker编译的方式，直接运行下面的命令即可：

make docker-build VERSION=x.x.x

如果想利用docker编译rpm版本，可以先进入docker环境，再编译：

make docker-sh
make rpm VERSION=x.x.x

为了减少编译上的麻烦，ckman代码已经将前端代码编译好，做成静态链接放在static/dist目录下，但是仍然将前端代码以submodule的形式嵌入在frontend目录下，如果想要自己编译前端，在提前安装好前端编译依赖后，可以使用如下命令：

cd frontend
yarn
cd ..
make frontend

mysql和postgres配置项基本一致，主要涉及以下配置项：

// ckman config file
// All password can be encrypt by ENC(xxxxxxxxx),
// you can get encrypt password by using: ./ckman --encrypt 123456 to get password like: E310E892E56801CED9ED98AA177F18E6
// If password not including by ENC(), that means it's a plaintext.
// hjson(https://hjson.github.io/)  is easy for humans to read and write.
 
{
  "server":{
    "port": 8808,
    "https": false,
    //certfile:
    //keyfile:
    "pprof": true,
    "session_timeout": 3600,
    //support local, mysql, postgres
    "persistent_policy": "local",
    "task_interval": 5
    //public_key:
  },

  "log":{
    "level": "INFO",
    "max_count": 5,
    // megabyte
    "max_size": 10,
    // day
    "max_age": 10
  },

  // clickhouse connect pool options
  "clickhouse":{
    //sets the maximum number of open connections to the database
    "max_open_conns": 10,
    //sets the maximum number of connections in the idle
    "max_idle_conns": 2,
    //sets the maximum amount of time a connection may be idle.
    "conn_max_idle_time": 10
  },

  // cron job task
  "cron":{
    "sync_logic_schema": "0 * * * * ?",
    "watch_cluster_status": "0 */3 * * * ?",
    "sync_dist_schema": "30 */10 * * * ?"
  },

  //"persistent_config":{ 
  //  // if peristent_policy is mysql, must config this
  //  "mysql":{
  //    "host": "127.0.0.1",
  //    "port": 3306,
  //    "user": "root",
  //    // you can use ./ckman --encrypt 123456 to get password like: E310E892E56801CED9ED98AA177F18E6
  //    "password": "ENC(E310E892E56801CED9ED98AA177F18E6)",
  //    // database must be created before start ckman
  //    "database": "ckman_db"
  //  },
  //  "local":{
  //    "format": "json"
  //    "config_dir": "/etc/ckman/conf"
  //    "config_file": "clusters"
  //  }
  //},

  "nacos":{
    "enabled": false,
    "hosts":[
      "127.0.0.1"
    ],
    "port": 8848,
    "user_name": "nacos",
    // you can use './ckman --encrypt nacos' to get password like: A7561228101CB07938FAFF00C4444546
    "password": "ENC(A7561228101CB07938FAFF00C4444546)"
    //namespace:
  }
}

点击主页的 Create a ClickHouse Cluster，就会进入创建集群的界面：

除此之外，还有一个强制覆盖的选项。如果待部署的主机上已经有clickhouse服务正在运行了（可能是其他的集群的其中一个节点，但不受当前的ckman纳管），正常情况下是不允许部署的。如果勾选了强制覆盖，则会强制销毁该节点上已有的clickhouse服务，重新覆盖部署。

通过此种方式安装部署成功的集群的mode就是deploy，可以对其进行删、改、rebalance、启停、升级以及节点的增删等操作。

点击主页的 Import a ClickHouse Cluster按钮，会进去导入集群界面。

导入的集群的mode为import，这种模式的集群不能进行修改、rebalance、启停、升级以及节点的增删等操作，但是可以删除和查看。

如果上传了新版本的安装包，可以从Upgrade Cluster下拉列表中选择新版本，点击Upgrade即可进行升级。

集群销毁后，该集群在物理上都不存在了。因为销毁集群动作不止会停止掉当前集群，还会将节点上的ClickHouse卸载，相关目录清空，所以该动作应该慎重操作。

点击Manage页面的Add Node按钮以增加节点。

删除节点时需要注意的是：删除节点并不会销毁该节点，只会停止该节点的clickhouse服务，并从clusters.json中删除掉。

删除节点时，如果某个shard有且只有一个节点，那么这个节点一般是不可以被删除的，除非该节点处于shard编号的最大位置。

ckman提供了ClickHouse相关的一些指标监控项。这些监控项依赖于从prometheus中获取数据，因此，需要提前配置好prometheus。相关配置教程见ckman部署文档。

从v2.3.5版本以后，ckman支持http service discovery功能，只需要在promethues中配置好对应的url，即可自动发现需要监控的节点。配置方法如下：

- job_name: "ckman" 
	http_sd_configs: 
		- url: http://192.168.0.1:8808/discovery/node?cluster=abc 
		- url: http://192.168.0.1:8808/discovery/zookeeper?cluster=test2 
		- url: http://192.168.0.1:8808/discovery/clickhouse

如果url不带参数，则默认发现该ckman管理的所有集群，如果通过cluster指定集群名，则只⾃动

指标	说明
`clickhouse.Query`	针对`Clickhouse`集群的分布式表发起的查询，按照发起时刻的分布图

指标	说明
`cpu usage`	`CPU`占用情况
`memory usage`	内存占用情况
`disk usage`	硬盘占用情况
`IOPS`	`IO`指标

指标	说明
`znode_count`	`znode`数
`leader_uptime`	`leader`存活时间
`stale_sessions_expired`	过期的会话
`jvm_gc_collection_seconds_count`	`jvm` `gc`的次数
`jvm_gc_collection_seconds_sum`	`jvm` `gc`花费的时间

统计表的一些指标。除system数据库的表之外，其他数据库的表都会显示在下面。

此处会统计每个shard下每张表的各副本之间的统计量。

理论上每个shard内副本之间各表的统计都应该相等的，如果有不相等，就说明有节点落后了，这时候落后的节点会标黄。如果某个副本上所有的表都落后，说明这个副本可能出问题了。

zookeeper的相关指标查看。zookeeper监控使用的是zookeeper-3.5.0版本新增的特性，通过暴露的8080端口监控mntr指标信息，因此，如果想要看到zookeeper的监控指标，需要保证当前使用的zookeeper版本大于等于3.5.0。

可查看的指标包括：版本，主从状态，平均延迟，近似数据总和大小，znode数等。

显示当前正在进行的会话，如果有正在执行的SQL，可通过界面将其kill掉。

显示7天内最慢的10条SQL语句。

包含SQL的执行时间、SQL耗时、SQL语句、ck用户、query id、查询的IP以及线程号。

ckman还提供了简单的clickhouse查询的页面。通过该页面可以查询集群中的数据。

ckman会根据修改的集群配置的具体内容来决定集群是否需要重启。

ckman登录接口，输入用户名和密码，返回一个token。该token用户http鉴权，当用户对ckman不作任何操作超过1小时(超时时间可通过配置文件配置)，该token会失效，此时访问任何页面都会重新跳转到登录页面。

{
  "password": "63cb91a2ceb9d4f7c8b1ba5e50046f52",
  "username": "ckman"
}

{
    "retCode":"0000",
    "retMsg":"ok",
    "entity":{
        "username":"ckman",
        "token":"eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9"
    }
}

退出ckman登录状态的接口，无需任何参数，无任何返回数据。

调用该接口后，退出登录，跳转回登录状态，同时原来的token失效。

{
	"begin": "2023-01-01",
	"database": "default",
	"end": "2023-01-11",
	"format": "ORC",
	"hdfs": {
		"addr": "sea.hub:8020",
		"dir": "/ckman",
		"user": "hdfs"
	},
	"local": {
		"Path": "/data/backup/"
	},
	"maxfilesize": 1000000000,
	"s3": {
		"AccessKeyID": "KZOqVTra982w51MK",
		"Bucket": "ckman.backup",
		"Compression": "gzip",
		"Endpoint": "http://192.168.0.1:9000",
		"Region": "zh-west-1",
		"SecretAccessKey": "7Zsdaywu7i5C2AyvLkbupSyVlIzP8qJ0"
	},
	"tables": [
		"tb_result_offline"
	],
	"target": "hdfs"
}

该接口可以导入一个已经存在的ClickHouse集群。

{
  "cluster": "test",
  "hosts": [
    "192.168.0.1",
    "192.168.0.2",
     "192.168.0.3",
     "192.168.0.4"
  ],
  "password": "123456",
  "port": 9000,
  "user": "ck",
  "zkNodes": [
    "192.168.0.1",
    "192.168.0.2",
    "192.168.0.3"
  ],
  "zkPort": 2181,
  "zkStatusPort": 8080
}

{
	"retCode": "0000",
	"retMsg": "ok",
	"entity": {
		"mode": "deploy",
		"hosts": ["192.168.0.1", "192.168.0.2"],
		"port": 9000,
		"httpPort": 8123,
		"user": "ck",
		"password": "********",
		"cluster": "test",
		"zkNodes": ["192.168.0.1", "192.168.0.2", "192.168.0.3"],
		"zkPort": 2181,
		"zkStatusPort": 8080,
		"isReplica": false,
		"version": "21.3.9.83",
		"sshUser": "root",
		"sshPassword": "********",
		"sshPasswdFlag": 0,
		"sshPort": 22,
		"shards": [{
			"replicas": [{
				"ip": "192.168.0.1",
				"hostname": "node1"
			}]
		}, {
			"replicas": [{
				"ip": "192.168.0.2",
				"hostname": "node2"
			}]
		}],
		"path": "/data01",
		"zooPath": null,
		"logic_cluster": "logic_eoi"
	}
}

注意：此处的删除集群只是从ckman的纳管列表中将集群移除，该集群物理上仍然存在，并不会实际销毁集群。

该操作只有使用ckman部署的集群才能操作。与删除集群不同，该操作会将集群彻底销毁，卸载掉集群所有节点的rpm或deb包。

{
  "database": "default",
  "table_name": "test_table"
}

{
	"retCode": "0000",
	"retMsg": "ok",
	"entity": {
		"status": "red",
		"version": "20.8.9.6",
		"nodes": [{
			"ip": "192.168.0.1",
			"hostname": "node1",
			"status": "green",
			"shardNumber": 1,
			"replicaNumber": 1,
			"disk": "2.21TB/13.64TB"
		}, {
			"ip": "192.168.0.2",
			"hostname": "node2",
			"status": "green",
			"shardNumber": 1,
			"replicaNumber": 2,
			"disk": "2.06TB/13.64TB"
		}, {
			"ip": "192.168.0.3",
			"hostname": "node3",
			"status": "red",
			"shardNumber": 2,
			"replicaNumber": 1,
			"disk": "NA/NA"
		}, {
			"ip": "192.168.0.4",
			"hostname": "node4",
			"status": "red",
			"shardNumber": 2,
			"replicaNumber": 2,
			"disk": "NA/NA"
		}, {
			"ip": "192.168.0.5",
			"hostname": "node5",
			"status": "green",
			"shardNumber": 3,
			"replicaNumber": 1,
			"disk": "2.87TB/19.02TB"
		}],
		"mode": "deploy",
		"needPassword": false
	}
}

只有当节点状态是red的时候才可以调用。

只有当节点状态是green时才可以调用。

{
    "ips":[
        "192.168.0.5",
        "192.168.0.6"
    ],
    "shard": 3
}

当点击Manage页面节点列表的删除按钮时，该接口会被调用。

获取正在运行的SQL语句。

原则是只要每个shard有一个节点可用，那么该集群就属于可用状态。

{
  "begin": "2021-01-01",
  "database": "default",
  "end": "2021-04-01",
  "tables": [
    "t1",
    "t2",
    "t3"
  ]
}

简单的查询SQL接口。

另外，数据均衡时提供了一个选项，是否清空最后一个shard的数据，如果打开此开关，则会将最后一个分片的所有数据均衡地迁移到剩余的shard种，使最后一个分片处于没有数据的状态，方便无丢失数据地进行缩容。

获取慢SQL查询。

该接口提供了三个参数，分别为start、end、limit。

/api/v1/ck/slow_sessions/abc?limit=10&start=1626665021&end=1627269821

如果集群内的节点本身就是green状态，则该节点不会被启动。如果所有节点都是start状态，则Start Cluster按钮是灰色的，不能点击。

如果集群内的节点本身就是red状态，则该节点不会被启动。如果所有节点都是red状态，则Stop Cluster按钮是灰色的，不能点击。

/api/v1/ck/table/test?tableName=tbtest&database=default

{
    "retCode": "0000",
    "retMsg": "ok",
    "entity": [
        {
            "name": "service",
            "type": "String",
            "defaultType": "",
            "defaultExpression": "",
            "comment": "",
            "codecExpression": "",
            "ttlExpression": ""
        },
        {
            "name": "ip",
            "type": "String",
            "defaultType": "",
            "defaultExpression": "",
            "comment": "",
            "codecExpression": "",
            "ttlExpression": ""
        },
        {
            "name": "metric",
            "type": "String",
            "defaultType": "",
            "defaultExpression": "",
            "comment": "",
            "codecExpression": "",
            "ttlExpression": ""
        },
        {
            "name": "value",
            "type": "Int64",
            "defaultType": "",
            "defaultExpression": "",
            "comment": "",
            "codecExpression": "",
            "ttlExpression": ""
        },
        {
            "name": "timestamp",
            "type": "DateTime",
            "defaultType": "",
            "defaultExpression": "",
            "comment": "",
            "codecExpression": "",
            "ttlExpression": ""
        }
    ]
}

更新表。使用ALTER语句完成分布式表的更新。

{
	"name":"t1",
    "database":"default",    
    "add":[{
    	"name":"fieldNew",	
        "type":"String",
        "after":"field3"
	},
	{
    	"name":"filedLast",	
        "type":"Int32"
	}],
    "modify":[{
        "name":"field6",	
        "type":"DateTime"
    }],
    "drop": ["field8", "field9"]	
}

创建表。默认使用的是MergeTree引擎，如果指定了distinct为false，表示支持去重，使用的引擎为ReplacingMergeTree。

distinct	isReplica	engine
`true`	`true`	`ReplicatedReplacingMergeTree`
`true`	`false`	`ReplacingMergeTree`
`false`	`true`	`ReplicatedMergeTree`
`false`	`false`	`MergeTree`

与此同时，还需要在集群里创建一张dist_开头的分布式表。

{
	"name": "t1",		
    "database": "default",  
    "fields":[{			
        "name":"id",
        "type":"Int32"
    },{
        "name":"birth",
        "type":"Date"
    },{
        "name":"name",
        "type":"String"
    }],
    "order": ["id"],	
    "partition": "partition by的字段",
    "partition":{
        "policy": 0,
        "name": "birth"
    },
    "distinct": true
}

操作和描述表类似，通过tableName指定表名，database指定数据库名。

/api/v1/ck/table/test?tableName=t1&database=default

通过以上操作就能删除掉表t1。删除时先删dist_开头的分布式表，再删表t1。

获取指定表的建表语句。该接口是v2.0.0新增接口。

获取ckman配置。

修改ckman配置。

{
  "clickhouse": {
    "ckTcpPort": 9000,
    "clusterName": "test",
    "isReplica": true,
    "logic_cluster": "logic_test",
    "packageVersion": "20.8.5.45",
    "password": "123456",
    "path": "/data01/",
    "shards": [
      {
        "replicas": [
          {
            "ip": "192.168.0.1"
          },{
             "ip":"192.168.0.2"
          }
        ]
      }, {
         "replicas": [
          {
            "ip": "192.168.0.3"
          },{
             "ip":"192.168.0.4"
          }
        ]  
      }
    ],
    "user": "ck",
    "zkNodes": [
      "192.168.0.1",
      "192.168.0.2",
      "192.168.0.3"
    ],
    "zkPort": 2181,
    "zkStatusPort": 8080
  },
  "hosts": [
    "192.168.0.1",
    "192.168.0.2",
    "192.168.0.3",
    "192.168.0.4"
  ],
  "password": "123456",
  "savePassword": true,
  "sshPort": 22,
  "usePubkey": false,
  "user": "root"
}

从prometheus获取单点指标数据。

从prometheus获取某一个范围的指标数据。

{
  "retCode": "0000",
  "retMsg": "ok",
  "entity": [
    {
      "version": "22.3.3.44",
      "pkgType": "aarch64.rpm",
      "pkgName": "clickhouse-common-static-22.3.3.44-2.aarch64.rpm"
    },
    {
      "version": "22.3.6.5",
      "pkgType": "amd64.tgz",
      "pkgName": "clickhouse-common-static-22.3.6.5-amd64.tgz"
    },
    {
      "version": "22.3.3.44",
      "pkgType": "x86_64.rpm",
      "pkgName": "clickhouse-common-static-22.3.3.44.x86_64.rpm"
    },
    {
      "version": "21.9.5.16",
      "pkgType": "x86_64.rpm",
      "pkgName": "clickhouse-common-static-21.9.5.16-2.x86_64.rpm"
    },
    {
      "version": "21.8.15.7",
      "pkgType": "x86_64.rpm",
      "pkgName": "clickhouse-common-static-21.8.15.7-2.x86_64.rpm"
    },
    {
      "version": "21.8.13.6",
      "pkgType": "x86_64.rpm",
      "pkgName": "clickhouse-common-static-21.8.13.6-2.x86_64.rpm"
    },
    {
      "version": "21.8.9.13",
      "pkgType": "x86_64.rpm",
      "pkgName": "clickhouse-common-static-21.8.9.13-2.x86_64.rpm"
    }
  ]
}

上传ClickHouse的安装包。

注意安装包上传时需要三个安装包都上传（server、client、common）。上传成功后，会显示在安装包列表中。

删除ClickHouse安装包。

获取ckman的版本信息。

zookeeper的相关指标查看。

显示所有内容

声明：本站所有文章，如无特殊说明或标注，均为本站原创发布。任何个人或组织，在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益，可联系我们进行处理。

概述

什么是ckman

为什么要有ckman

ckman能做什么

管理ClickHouse集群

监控ClickHouse集群

如何部署ckman

如何使用源码编译ckman

编译依赖

编译命令

tar.gz包编译

rpm包编译

docker编译

前端单独编译

架构设计

配置文件

server

clickhouse

log

cron

persistent_config

mysql & postgres & dm8

local

nacos

示例如下：

功能介绍

集群管理

部署集群

导入集群

升级集群

销毁集群

增加节点

删除节点

监控管理

ClickHouse Database KPIs

ClickHouse Node KPIs

ZooKeeper KPIs

表&会话管理

Table Metrics

Table Replication Status

Zookeeper Status

Open Sessions

Slow Sessions

Query管理

配置管理

接口规范

[POST]/api/login

[PUT]/api/logout

[POST]/api/v1/ck/archive/{clusterName}

[GET]/api/v1/ck/cluster

[POST] /api/v1/ck/cluster

[GET]/api/v1/ck/cluster/{clusterName}

[DELETE]/api/v1/ck/cluster/{clusterName}

[PUT]/api/v1/ck/destory/{clusterName}

[POST]/api/v1//ck/dist_logic_table/{clusterName}

[DELETE]/api/v1/ck/dist_logic_table/{clusterName}

[GET]/api/v1/ck/get/{clusterName}

[PUT]/api/v1/ck/node/start/{clusterName}

[PUT]/api/v1/ck/node/stop/{clusterName}

[POST]/api/v1/node/{clusterName}

[DELETE]/api/v1/node/{clusterName}

[GET]/api/v1/ck/open_sessions/{clusterName}

[POST]/api/v1/ck/ping/{clusterName}

[POST]/api/v1/ck/purge_tables/{clusterName}

[GET]/api/v1/ck/query/{clusterName}

[PUT]/api/v1/ck/rebalance/{clusterName}

按partition做rebalance

按shardingkey做rebalance

[GET]/api/v1/ck/slow_sessions/{clusterName}

[PUT]/api/v1/ck/start/{clusterName}

[PUT]/api/v1/ck/stop/{clusterName}

[GET]/api/v1/ck/table/{clusterName}

[PUT]/api/v1/ck/table/{clusterName}

[POST]/api/v1/ck/table/{clusterName}

[DELETE]/api/v1/ck/table/{clusterName}

[GET]/api/v1/ck/table_metric/{clusterName}

[GET]/api/v1/ck/table_schema/{clusterName}

[PUT]/api/v1/ck/upgrade/{clusterName}

[GET]/api/v1/config

[PUT]/api/v1/config

发表回复取消回复