tencent cloud

文档反馈

最后更新时间:2021-10-08 15:33:03

    腾讯云弹性 MapReduce(EMR)为 ClickHouse 集群提供了完备的监控体系,分为集群概览服务监控节点监控三个维度的监控。

    集群概览

    集群概览页展示的是 ClickHouse 集群的概览信息,如集群的运行状态、节点数量、Zookeeper 状态等。同时也提供了集群聚合维度的服务指标和节点指标的聚合情况,可以直观地看到集群整体的运行情况。

    • 服务监控的四个聚合指标为:查询数量、活跃数据块的数量、操作队列大小、网络连接数。集群概览页上的聚合图展示的是 ClickHouse 集群所有节点上的对应指标的总和。

    • 节点监控的四个聚合指标为:CPU 使用率、内存使用率、磁盘使用率、网络流量。集群概览页上的聚合图展示的是 ClickHouse 集群整体的节点资源使用情况。

    • 部署状态栏,提供了对集群进程状态的实时监控,若进程出现缺失会及时在监控页展示出来。

    • 节点状态栏,可以查看最近7天内,机器资源使用量最高的10个机器的使用情况,以便用户能及时定位到集群瓶颈是在哪些机器上。

      同时,单击节点指标对比,还可以比较若干台节点之间某个时间段对资源的使用情况。

    服务监控

    ClickHouse 集群服务监控比较简单,服务只有 ClickHouse 和 Zookeeper(如果是 HA 集群),在服务监控页的角色列表中,可以看到角色的简单情况,Zookeeper 的角色只有一个 Zookeeper,ClickHouse 的角色则只有 ClickHouse-Server。从节点 IP 栏可以进到具体的节点监控中。

    在具体的角色中,可以查看到具体的服务监控数据,最多支持30天的历史监控数据查看,时间粒度可以根据需要选择。同时,用户可以自定义想要展示的指标,单击设置指标可以看到该角色所有的监控指标,每个指标支持预览,如果合适可以勾选上默认展示出来,目前最多支持展示12个指标。

    其中 ClickHouse 的监控指标分为3组,分别来自 ClickHouse 的三个系统表 metrics、events 和 asynchronous_metrics。

    节点监控

    节点监控又分为节点监控概览页和节点监控详情页。

    节点监控概览页

    节点监控概览页展示的是集群聚合维度的节点监控指标,目前提供了 CPU、内存、磁盘、网络等四个维度共12个可选的聚合指标,反映的是集群整体的节点资源利用情况。与服务监控类似,用户可以在设置指标定义要展示的聚合指标。

    同时,节点监控提供了热力图功能,可以查看针对某个节点指标、在某个时间段内每个机器的负载情况。以内存使用率为例,上面的曲线表示集群聚合维度的内存使用率情况。负载分布中,每个小方格表示一个节点,不同颜色表示该节点的内存使用率处于不同的类别,颜色越深表示内存使用率越高。负载分布默认倒序展示,同时默认展示 Top3 的节点内存使用率情况,方便对比机器之间的差异。

    节点监控概览页还有节点列表,是集群所有节点的列表。可以根据节点类型进行筛选,根据 IP 进行搜索,也可以根据 CPU 使用率、内存使用率、磁盘利用率来排序展示。单击具体的节点 IP 可以进入到具体机器的节点监控详情页。

    节点监控详情页

    节点监控详情页分为基本配置、部署状态、负载状态、节点监控四个部分。

    • 基本配置展示的是节点的基本硬件信息,同时还有一个磁盘列表,展示了该节点的磁盘信息。如果磁盘名和磁盘挂载点发生改变,将在30分钟内感知到。单击具体的磁盘名可以查看该磁盘的监控指标。
    • 部署状态展示了该节点具体部署服务的进程的实时状态,方便用户监控机器进程的情况。
    • 负载状态是某个时刻机器的快照信息,展示了某个时刻机器上进程占用 CPU、内存、IO、网络的情况,也能看到某个时间的节点的进程列表,方便用户查看每个时刻机器的快照信息。
    • 节点监控展示了节点具体的监控指标的情况,节点的监控指标包含 CPU、内存、文件句柄、磁盘、网络、进程等多个方面,与服务监控相同,用户可以自定义要展示的指标。

    总结

    通过集群概览、服务监控、节点监控三个部分,构建了对 ClickHouse 集群完整的监控体系,对 ClickHOuse 集群的运维有很大的帮助。

    联系我们

    联系我们,为您的业务提供专属服务。

    技术支持

    如果你想寻求进一步的帮助,通过工单与我们进行联络。我们提供7x24的工单服务。

    7x24 电话支持