tunan's blog

前言

最近在做一些业务上的监控，了解到Prometheus的Histogram指标监控，还蛮符合我在业务的监控需求。

之前用Prometheus的Counter和Guage比较多，对于Histogram的使用还是头一遭，在网上也没找到好的中文文档。

于是想着把自己这次使用Prometheus的经历输出成一篇博客文章，一方面记录自己是如何使用的，另一方面希望能对其他人有所帮助。

先简单介绍一下我的需求，了解一下为什么Histogram是我想要的指标类型。

我业务中需要调用一个外部的数据接口，而这个接口是有每秒钟限定调用次数的限制的，当某次调用达到限流限制后，希望能够过一段时间后进行重试，如果再次失败就再延长间隔时间等待重试，最多重试「MaxRetryTime」次。

我需要监控的内容是，记录「达到多少次后才重试成功；失败多少次」。想要达到的效果如下图所示。

这里设置的「MaxRetryTime」= 5。

在本篇文章中我们会用到Grafana的两个面板类型：Bar guage和Heatmap。

Add Histogram in Spring

因为后端服务是基于Java的工程，所以在Spring中来编写Histogram数据的收集代码。

引入依赖

<dependency>
    <groupId>org.springframework.boot</groupId>
    <artifactId>spring-boot-starter-actuator</artifactId>
</dependency>

<dependency>
    <groupId>io.micrometer</groupId>
    <artifactId>micrometer-registry-prometheus</artifactId>
</dependency>

开启配置文件

# 指标监控
management:
  server:
    port: ${server.port}
  endpoint:
    health:
      show-details: always
  endpoints:
    web:
      exposure:
        include: health,info,prometheus,metrics
      # 默认就是 /actuator
      base-path: /actuator
  metrics:
    tags:
      application: ${spring.application.name}
      environment: ${spring.profiles.active}
    # 启用 prometheus 的自动装载
    export:
      prometheus:
        enabled: true

这是一个标准的配置。

收集指标示例

@Service
public class MetricCollectDemo {

    @Resource
    private PrometheusMeterRegistry prometheusMeterRegistry;

    public void retry(int curRetryTime) {
        String retryStatus = "";
        // 查询数据
        try {
            // do rpc call
        } catch (RpcCallLimitException e) {
            retryStatus = "fail";
            // retry ...
            return;
        } finally {
            // 记录这是第几次成功或失败
            DistributionSummary summary = DistributionSummary.builder("my_histogram")
                    .serviceLevelObjectives(1, 2, 3, 4, 5)
                    .tag("status", retryStatus)
                    .register(prometheusMeterRegistry);
            summary.record(curRetryTime);
            }
        }
    }
}

关键的代码就在于声明一个DistributionSummary，配置其serviceLevelObjectives,并注册到prometheusMeterRegistry，然后调用「record」方法记录监测值。

DistributionSummary就是Histogram,而serviceLevelObjectives对应Histogram中的「桶 bucket」概念。

这里声明了5个「桶 bucket」，分别是小于等于1的桶、小于等于2...小于等于5的桶，实际上还会创建有一个小于正无穷+Inf桶。

如果此时summary.record(3)，那么小于等于3的桶的计数就会+1。

这里不用担心会重复「注册」，如果看底层的代码就知道prometheusMeterRegistry是如何避免重复的指标的registry了。

查看指标

通过暴露的http://{host}/actuator/prometheus接口就能看到所有的prometheus指标了，比如：

# TYPE my_histogram histogram
my_histogram_bucket{status="success",le="1.0",} 19.0
my_histogram_bucket{status="success",le="2.0",} 23.0
my_histogram_bucket{status="success",le="3.0",} 24.0
my_histogram_bucket{status="success",le="4.0",} 24.0
my_histogram_bucket{status="success",le="5.0",} 24.0
my_histogram_bucket{status="success",le="+Inf",} 24.0
my_histogram_count{status="success",} 24.0
my_histogram_sum{status="success",} 30.0
my_histogram_bucket{status="fail",le="1.0",} 5.0
my_histogram_bucket{status="fail",le="2.0",} 6.0
my_histogram_bucket{status="fail",le="3.0",} 6.0
my_histogram_bucket{status="fail",le="4.0",} 6.0
my_histogram_bucket{status="fail",le="5.0",} 6.0
my_histogram_bucket{status="fail",le="+Inf",} 6.0
my_histogram_count{status="fail",} 6.0
my_histogram_sum{status="fail",} 7.0