使用 Prometheus 和 Grafana 监控报警
StarRocks 支持基于 Prometheus 和 Grafana 实现可视化监控。该方式允许您可视化集群的运行情况,便于监控和故障排除。
概述
StarRocks 提供了兼容 Prometheus 的信息采集接口,Prometheus 可以通过连接 BE 和 FE 节点的 HTTP 端口来获取集群监控指标的指标信息,存储在自身的时序数据库中。Grafana 则可以将 Prometheus 作为数据源将指标信息可视化。搭配 StarRocks 提供的 Dashboard 模板,您可以便捷的实现 StarRocks 集群监控指标的统计展示和阈值报警。
具体操作按照以下步骤展开:
- 安装监控组件
- 理解核心监控项
- 配置邮件报警
一、安装监控组件
默认情况下,Prometheus 和 Grafana 的端口不与 StarRocks 的端口冲突,但建议您将生产集群的监控组件单独部署,以此减少服务资源占用冲突,同时规避混合部署导致当前服务器异常宕机而外部无法及时感知的风险。
此外,Prometheus 和 Grafana 是无法监控自身服务的存活状态的,因此生产环境中建议您搭配 Supervisor 设置心跳服务,以下不做展开。
以下教程在监控节点(IP:192.168.110.23)使用操作系统 root 用户部署监控组件,对以下 StarRocks 集群进行监控(StarRocks 集群使用默认端口)。您在参考该指南为自己的集群配置监控时,通常只需替换 IP。
Host | IP | 操作系统用户 | 部署服务 |
---|---|---|---|
node01 | 192.168.110.101 | root | 1 FE + 1 BE |
node02 | 192.168.110.102 | root | 1 FE + 1 BE |
node03 | 192.168.110.103 | root | 1 FE + 1 BE |
说明
Prometheus+Grafana 当前只能监控 StarRocks 的 FE、BE 和 CN 节点,不能监控 Broker 节点。
1.1 部署 Prometheus
1.1.1 下载 Prometheus
StarRocks 的监控报警服务只需要使用 Prometheus 的 Server 安装包。您只需将安装包下载至监控节点。
以 LTS 版本 v2.45.0 为例,直接点击下载。
您也可以运行以下命令通过 wget
下载 Prometheus:
# 此处以 LTS 版本 v2.45.0 为例。您也可以替换命令行中的版本号下载其他版本。
wget https://github.com/prometheus/prometheus/releases/download/v2.45.0/prometheus-2.45.0.linux-amd64.tar.gz
在下载完成后,将安装包上传或拷贝至监控节点的 /opt 路径下。