prometheus问题赏析-填坑的心路历程

baijin 2024-08-17 10:42:27 博客文章 12 ℃ 0 评论

话不多说，内容奉上。

prometheus强制使用UTC世界统一时间，比实际北京时间早8个小时，可以在grafana修改时间为浏览器当前时间。

生产环境在用prometheus修改配置后如何在不影响正常使用的前提下更新配置，需要启动带如下参数：

 --web.enable-lifecycle --web.enable-admin-api

热加载语法：

curl -X POST http://ip:9090/-/reload

登录grafana服务器，执行如下语句：

grafana-cli admin reset-admin-password newpass

prometheus两个及以上指标参与运算时，两个指标具有不同的标签值，无法匹配，导致两个正常的指标组合运算后返回no data。

原因是： 当 prometheus 对表达式求值时，该操作隐式应用于共享相同标签集的指标。尽管指定了指标名称和大多数标签，但 Prometheus 一直在寻找具有相同标签集的指标。

举例： 一个指标具有标签 metric=“Used”，另一个指标具有标签 metric=“Total”.可能是其中一个指标具有一些额外的标签，即会导致运算结果无返回值。

解决方案： 使用ignore(或on)来减少考虑的标签集。

真实解决案例：
prometheus运算要求两个指标必须拥有相同的标签集，这两个指标的标签集存在差异。有两种可以实现计算的方法：
1、使用ignoring(node)，忽略差异的标签，如：

jenkins_node_builds_count{node="master"} /ignoring(node)(default_jenkins_uptime / 1000 / 60 / 60)

2、比较取巧的方法，通过max，min等计算符将结果转换为数值进行计算，而非prometheus数据类型，如：

max(jenkins_node_builds_count{node="master"}) /max((default_jenkins_uptime / 1000 / 60 / 60))

发现是告警语句问题，具体逻辑摸索中，征求大家原理分析下：
原告警语句：

 100 - (avg(irate(node_cpu_seconds_total{hostip=~"ip:.*",mode="idle"[2m])) *100)>80

调整后正常：

100(1 - avg(irate(node_cpu_seconds_total{hostip=~"ip:.*",mode="idle"}[2m]))by(instance))>80