prometheus监控哪些指标，prometheus监控告警里面的百分比用什么表示怎么设置呢

欧气 2024年09月27日 06:02 4 0

标题：Prometheus 监控告警中百分比的表示与设置

一、引言

Prometheus 是一个强大的开源监控系统，广泛应用于云原生环境和各种基础设施监控场景，在 Prometheus 监控告警中，百分比是一种常见的指标表示方式，用于表示某个值在总体中的比例或占比，本文将详细介绍 Prometheus 监控告警中百分比的表示方法以及如何进行设置，帮助您更好地利用 Prometheus 进行监控和告警。

二、Prometheus 监控的指标类型

Prometheus 可以监控多种类型的指标，包括计数器（Counter）、 gauge（仪表盘）、直方图（Histogram）和摘要（Summary），在这些指标类型中，百分比可以通过不同的方式表示和计算。

1、计数器（Counter）：计数器是一个单调递增的数值，用于表示某个事件发生的次数，百分比可以通过将计数器的值除以某个时间段内的总事件数来计算，如果在一分钟内收到了 100 个请求，其中有 20 个是错误请求，那么错误请求的百分比就是 20/100 = 20%。

2、gauge（仪表盘）：gauge 是一个可以任意增减的数值，用于表示某个系统的状态或资源的使用情况，百分比可以通过将 gauge 的当前值除以某个最大值来计算，如果系统的内存使用率为 80%，那么内存使用率的百分比就是 80/100 = 80%。

3、直方图（Histogram）：直方图用于表示数据的分布情况，通常将数据分为多个区间，并统计每个区间内的数据数量，百分比可以通过将某个区间内的数据数量除以总数据数量来计算，如果有 100 个数据点，其中有 20 个数据点落在区间[0, 10]内，那么落在该区间内的数据点的百分比就是 20/100 = 20%。

4、Summary）：摘要用于统计数据的分位数，50%分位数、90%分位数等，百分比可以通过将某个分位数的值除以总体的最大值来计算，如果 90%分位数的值为 80，90%分位数的百分比就是 80/100 = 80%。

三、Prometheus 监控告警中百分比的设置方法

在 Prometheus 中，可以通过设置告警规则来监控百分比指标，并在百分比超过阈值时发送告警，以下是设置 Prometheus 监控告警中百分比的一般步骤：

1、定义监控指标：需要在 Prometheus 中定义要监控的百分比指标，可以使用 Prometheus 的指标采集器（如 Node Exporter、Exporter 等）来采集指标数据，并将指标数据存储到 Prometheus 的数据库中。

2、设置告警规则：在 Prometheus 中，可以使用 Alertmanager 来设置告警规则，告警规则可以定义在 Prometheus 的配置文件中，也可以通过 API 动态设置，告警规则通常包括以下几个部分：

- 告警名称：告警名称用于唯一标识告警规则。

- 监控指标：监控指标用于指定要监控的指标。

- 阈值：阈值用于指定百分比指标的阈值，当百分比指标的值超过阈值时，告警规则将触发告警。

- 告警级别：告警级别用于指定告警的严重程度，常见的告警级别包括警告（Warning）、严重（Critical）等。

- 告警通知方式：告警通知方式用于指定在告警触发时如何通知用户，常见的告警通知方式包括邮件、短信、Slack 等。

3、启动 Alertmanager：在设置好告警规则后，需要启动 Alertmanager 来接收和处理告警，Alertmanager 可以作为独立的服务运行，也可以与 Prometheus 集成在一起运行。

4、测试告警：在设置好告警规则并启动 Alertmanager 后，可以使用 Prometheus 的测试工具来测试告警规则，可以模拟百分比指标的值超过阈值的情况，然后检查是否收到了告警通知。

四、Prometheus 监控告警中百分比的示例

以下是一个使用 Prometheus 和 Alertmanager 监控百分比指标的示例，假设我们有一个 Web 应用程序，该应用程序的响应时间分布在 100ms 到 1000ms 之间，我们希望在响应时间超过 500ms 的请求比例超过 10%时发送告警。

1、定义监控指标：我们需要使用 Prometheus 的指标采集器来采集 Web 应用程序的响应时间指标，可以使用 Node Exporter 来采集系统级别的指标，也可以使用专门的 Web 应用程序监控 Exporter 来采集应用程序级别的指标，假设我们使用 Node Exporter 来采集系统级别的指标，我们可以在 Prometheus 的配置文件中添加以下内容：

scrape_configs:
  - job_name: 'node'
    static_configs:
      - targets: ['localhost:9100']

这将配置 Prometheus 定期从本地的 9100 端口采集 Node Exporter 提供的指标数据。

2、设置告警规则：我们需要在 Prometheus 中设置告警规则，可以在 Prometheus 的配置文件中添加以下内容：

alerting:
  alertmanagers:
    - static_configs:
        - targets: ['localhost:9093']
rules:
  - alert: WebAppResponseTimeHigh
    expr: rate(http_request_duration_seconds_count{job="webapp"}[5m]) * 100 > 10
    for: 5m
    labels:
      severity: warning
    annotations:
      summary: 'Web App Response Time High'
      description: 'The percentage of requests with a response time above 500ms has exceeded 10% for the last 5 minutes.'

这将定义一个名为 WebAppResponseTimeHigh 的告警规则，该规则将监控名为 webapp 的服务的 HTTP 请求响应时间指标，当在过去 5 分钟内超过 500ms 的请求比例超过 10%时，告警规则将触发，并发送一个警告级别的告警通知。

3、启动 Alertmanager：在设置好告警规则后，我们需要启动 Alertmanager，可以在 Alertmanager 的配置文件中添加以下内容：

route:
  group_by: ['alertname']
  group_wait: 30s
  group_interval: 5m
  repeat_interval: 12h
  receiver: 'email'
receivers:
  - name: 'email'
    email_configs:
      - to: ['user@example.com']
        from: 'alertmanager@example.com'
        subject: 'Prometheus Alert'

这将配置 Alertmanager 接收告警通知，并将告警通知发送到指定的邮箱地址。

4、测试告警：在设置好告警规则并启动 Alertmanager 后，我们可以使用 Prometheus 的测试工具来测试告警规则，可以使用以下命令来模拟一个超过 500ms 的请求：

curl -H "Host: webapp" http://localhost:8080/slow

这将模拟一个从本地的 8080 端口向名为 webapp 的服务发送的请求，该请求的响应时间将超过 500ms，在请求发送后，Prometheus 将检测到响应时间超过 500ms 的请求比例超过 10%，并触发告警规则，Alertmanager 将收到告警通知，并将告警通知发送到指定的邮箱地址。

五、总结

Prometheus 是一个强大的开源监控系统，在监控告警中，百分比是一种常见的指标表示方式，通过本文的介绍，我们了解了 Prometheus 监控告警中百分比的表示方法以及如何进行设置，希望本文能够帮助您更好地利用 Prometheus 进行监控和告警，提高系统的可靠性和稳定性。

标签： #Prometheus #监控指标 #设置方法