腾讯云弹性 MapReduce(EMR)为 ClickHouse 集群提供了完备的监控体系,分为集群概览、服务监控、节点监控三个维度的监控。
集群概览页展示的是 ClickHouse 集群的概览信息,如集群的运行状态、节点数量、Zookeeper 状态等。同时也提供了集群聚合维度的服务指标和节点指标的聚合情况,可以直观地看到集群整体的运行情况。
服务监控的四个聚合指标为:查询数量、活跃数据块的数量、操作队列大小、网络连接数。集群概览页上的聚合图展示的是 ClickHouse 集群所有节点上的对应指标的总和。
节点监控的四个聚合指标为:CPU 使用率、内存使用率、磁盘使用率、网络流量。集群概览页上的聚合图展示的是 ClickHouse 集群整体的节点资源使用情况。
部署状态栏,提供了对集群进程状态的实时监控,若进程出现缺失会及时在监控页展示出来。
节点状态栏,可以查看最近7天内,机器资源使用量最高的10个机器的使用情况,以便用户能及时定位到集群瓶颈是在哪些机器上。
同时,单击节点指标对比,还可以比较若干台节点之间某个时间段对资源的使用情况。
ClickHouse 集群服务监控比较简单,服务只有 ClickHouse 和 Zookeeper(如果是 HA 集群),在服务监控页的角色列表中,可以看到角色的简单情况,Zookeeper 的角色只有一个 Zookeeper,ClickHouse 的角色则只有 ClickHouse-Server。从节点 IP 栏可以进到具体的节点监控中。
在具体的角色中,可以查看到具体的服务监控数据,最多支持30天的历史监控数据查看,时间粒度可以根据需要选择。同时,用户可以自定义想要展示的指标,单击设置指标可以看到该角色所有的监控指标,每个指标支持预览,如果合适可以勾选上默认展示出来,目前最多支持展示12个指标。
其中 ClickHouse 的监控指标分为3组,分别来自 ClickHouse 的三个系统表 metrics、events 和 asynchronous_metrics。
节点监控又分为节点监控概览页和节点监控详情页。
节点监控概览页展示的是集群聚合维度的节点监控指标,目前提供了 CPU、内存、磁盘、网络等四个维度共12个可选的聚合指标,反映的是集群整体的节点资源利用情况。与服务监控类似,用户可以在设置指标定义要展示的聚合指标。
同时,节点监控提供了热力图功能,可以查看针对某个节点指标、在某个时间段内每个机器的负载情况。以内存使用率为例,上面的曲线表示集群聚合维度的内存使用率情况。负载分布中,每个小方格表示一个节点,不同颜色表示该节点的内存使用率处于不同的类别,颜色越深表示内存使用率越高。负载分布默认倒序展示,同时默认展示 Top3 的节点内存使用率情况,方便对比机器之间的差异。
节点监控概览页还有节点列表,是集群所有节点的列表。可以根据节点类型进行筛选,根据 IP 进行搜索,也可以根据 CPU 使用率、内存使用率、磁盘利用率来排序展示。单击具体的节点 IP 可以进入到具体机器的节点监控详情页。
节点监控详情页分为基本配置、部署状态、负载状态、节点监控四个部分。
通过集群概览、服务监控、节点监控三个部分,构建了对 ClickHouse 集群完整的监控体系,对 ClickHOuse 集群的运维有很大的帮助。
本页内容是否解决了您的问题?