prometheus监控报表，prometheus监控告警里面的百分比用什么表示怎么设置呢

欧气 2024年09月28日 12:12 6 0

标题：Prometheus 监控告警中百分比的表示与设置

一、引言

在 Prometheus 监控系统中，告警是确保系统稳定性和可靠性的重要组成部分，告警规则可以根据监控指标的阈值来触发警报，以便及时发现和解决问题，在某些情况下，我们可能需要使用百分比来表示监控指标的变化情况，以便更直观地了解系统的性能状况，本文将介绍如何在 Prometheus 监控告警中使用百分比，并提供一些设置示例。

二、Prometheus 监控告警的基本概念

Prometheus 是一个开源的监控系统，它可以收集、存储和查询时间序列数据，告警是 Prometheus 中的一个重要功能，它可以根据监控指标的阈值来触发警报，以便及时发现和解决问题，告警规则可以使用 Prometheus 的查询语言（PromQL）来定义，查询语言支持各种数学运算符和函数，可以方便地对时间序列数据进行分析和计算。

三、百分比的表示方法

在 Prometheus 监控告警中，百分比可以使用以下几种方法来表示：

1、直接使用百分比值：在告警规则中，可以直接使用百分比值来表示监控指标的变化情况，如果我们要监控服务器的 CPU 使用率，并且希望在 CPU 使用率超过 80%时触发警报，那么可以使用以下告警规则：

alerts:
- alert: HighCPUUsage
  expr: 100 * (1 - (avg by (instance) (irate(node_cpu_seconds_total{mode="idle"}[5m])))) > 80
  for: 5m
  labels:
    severity: critical
  annotations:
    summary: High CPU usage detected on {{ $labels.instance }}
    description: CPU usage is above 80% for the last 5 minutes on {{ $labels.instance }}.

在上述告警规则中，我们使用了 PromQL 的avg by (instance) (irate(node_cpu_seconds_total{mode="idle"}[5m])) 函数来计算服务器的平均空闲 CPU 使用率，然后使用100 * (1 - (avg by (instance) (irate(node_cpu_seconds_total{mode="idle"}[5m])))) 计算服务器的 CPU 使用率，我们使用> 80 来表示 CPU 使用率超过 80%时触发警报。

2、使用比率值：在某些情况下，我们可能需要使用比率值来表示监控指标的变化情况，如果我们要监控网站的响应时间，并且希望在响应时间超过 500 毫秒时触发警报，那么可以使用以下告警规则：

alerts:
- alert: HighResponseTime
  expr: (histogram_quantile(0.95, sum(rate(http_requests_total{code!~"2.."}[5m])) by (le, job)) / sum(rate(http_requests_total{job=~".*"}[5m])) * 1000) > 500
  for: 5m
  labels:
    severity: critical
  annotations:
    summary: High response time detected on {{ $labels.job }}
    description: The response time is above 500 milliseconds for the last 5 minutes on {{ $labels.job }}.

在上述告警规则中，我们使用了 PromQL 的histogram_quantile(0.95, sum(rate(http_requests_total{code!~"2.."}[5m])) by (le, job)) 函数来计算网站的 95%分位数响应时间，然后使用sum(rate(http_requests_total{job=~".*"}[5m])) 计算网站的总请求数，我们使用(histogram_quantile(0.95, sum(rate(http_requests_total{code!~"2.."}[5m])) by (le, job)) / sum(rate(http_requests_total{job=~".*"}[5m])) * 1000) 计算网站的平均响应时间，并使用> 500 来表示平均响应时间超过 500 毫秒时触发警报。

3、使用差值百分比：在某些情况下，我们可能需要使用差值百分比来表示监控指标的变化情况，如果我们要监控数据库的读写吞吐量，并且希望在读写吞吐量超过 10%时触发警报，那么可以使用以下告警规则：

alerts:
- alert: HighThroughput
  expr: (increase(db_write_ops_total[5m]) / (increase(db_write_ops_total[5m]) + increase(db_read_ops_total[5m]))) > 0.1
  for: 5m
  labels:
    severity: critical
  annotations:
    summary: High throughput detected on {{ $labels.db }}
    description: The throughput is above 10% for the last 5 minutes on {{ $labels.db }}.

在上述告警规则中，我们使用了 PromQL 的increase(db_write_ops_total[5m]) 函数来计算数据库的写入操作数的增量，然后使用increase(db_read_ops_total[5m]) 函数来计算数据库的读取操作数的增量，我们使用(increase(db_write_ops_total[5m]) / (increase(db_write_ops_total[5m]) + increase(db_read_ops_total[5m]))) 计算数据库的读写吞吐量，并使用> 0.1 来表示读写吞吐量超过 10%时触发警报。

四、设置百分比的告警阈值

在 Prometheus 监控告警中，我们可以使用以下方法来设置百分比的告警阈值：

1、直接设置百分比值：在告警规则中，我们可以直接使用百分比值来设置告警阈值，如果我们要监控服务器的 CPU 使用率，并且希望在 CPU 使用率超过 80%时触发警报，那么可以使用以下告警规则：

alerts:
- alert: HighCPUUsage
  expr: 100 * (1 - (avg by (instance) (irate(node_cpu_seconds_total{mode="idle"}[5m])))) > 80
  for: 5m
  labels:
    severity: critical
  annotations:
    summary: High CPU usage detected on {{ $labels.instance }}
    description: CPU usage is above 80% for the last 5 minutes on {{ $labels.instance }}.

在上述告警规则中，我们使用了> 80 来设置 CPU 使用率的告警阈值为 80%。

2、使用比率值：在某些情况下，我们可能需要使用比率值来设置告警阈值，如果我们要监控网站的响应时间，并且希望在响应时间超过 500 毫秒时触发警报，那么可以使用以下告警规则：

alerts:
- alert: HighResponseTime
  expr: (histogram_quantile(0.95, sum(rate(http_requests_total{code!~"2.."}[5m])) by (le, job)) / sum(rate(http_requests_total{job=~".*"}[5m])) * 1000) > 500
  for: 5m
  labels:
    severity: critical
  annotations:
    summary: High response time detected on {{ $labels.job }}
    description: The response time is above 500 milliseconds for the last 5 minutes on {{ $labels.job }}.

在上述告警规则中，我们使用了> 500 来设置平均响应时间的告警阈值为 500 毫秒。

3、使用差值百分比：在某些情况下，我们可能需要使用差值百分比来设置告警阈值，如果我们要监控数据库的读写吞吐量，并且希望在读写吞吐量超过 10%时触发警报，那么可以使用以下告警规则：

alerts:
- alert: HighThroughput
  expr: (increase(db_write_ops_total[5m]) / (increase(db_write_ops_total[5m]) + increase(db_read_ops_total[5m]))) > 0.1
  for: 5m
  labels:
    severity: critical
  annotations:
    summary: High throughput detected on {{ $labels.db }}
    description: The throughput is above 10% for the last 5 minutes on {{ $labels.db }}.

在上述告警规则中，我们使用了> 0.1 来设置读写吞吐量的告警阈值为 10%。

五、总结

在 Prometheus 监控告警中，百分比可以使用直接使用百分比值、使用比率值和使用差值百分比等方法来表示，在设置百分比的告警阈值时，可以根据具体情况选择合适的方法，通过合理设置百分比的告警阈值，可以及时发现和解决系统性能问题，确保系统的稳定性和可靠性。

标签： #Prometheus #监控报表 #监控告警