话不多说,内容奉上。
一、关于默认时区为世界时
prometheus强制使用UTC世界统一时间,比实际北京时间早8个小时,可以在grafana修改时间为浏览器当前时间。
二、关于prometheus服务如何实现配置热加载
生产环境在用prometheus修改配置后如何在不影响正常使用的前提下更新配置,需要启动带如下参数:
--web.enable-lifecycle --web.enable-admin-api
热加载语法:
curl -X POST http://ip:9090/-/reload
三、grafana如何重置管理员密码
登录grafana服务器,执行如下语句:
grafana-cli admin reset-admin-password newpass
四、关于PromQL (Prometheus Query Language)两个指标运算返回no data
prometheus两个及以上指标参与运算时,两个指标具有不同的标签值,无法匹配,导致两个正常的指标组合运算后返回no data。
原因是: 当 prometheus 对表达式求值时,该操作隐式应用于共享相同标签集的指标。尽管指定了指标名称和大多数标签,但 Prometheus 一直在寻找具有相同标签集的指标。
举例: 一个指标具有标签 metric=“Used”,另一个指标具有标签 metric=“Total”.可能是其中一个指标具有一些额外的标签,即会导致运算结果无返回值。
解决方案: 使用ignore(或on)来减少考虑的标签集。
真实解决案例:
prometheus运算要求两个指标必须拥有相同的标签集,这两个指标的标签集存在差异。有两种可以实现计算的方法:
1、使用ignoring(node),忽略差异的标签,如:
jenkins_node_builds_count{node="master"} /ignoring(node)(default_jenkins_uptime / 1000 / 60 / 60)
2、比较取巧的方法,通过max,min等计算符将结果转换为数值进行计算,而非prometheus数据类型,如:
max(jenkins_node_builds_count{node="master"}) /max((default_jenkins_uptime / 1000 / 60 / 60))
五、alertmanager CPU告警恢复未正常发送信息给到第三方告警平台
发现是告警语句问题,具体逻辑摸索中,征求大家原理分析下:
原告警语句:
100 - (avg(irate(node_cpu_seconds_total{hostip=~"ip:.*",mode="idle"[2m])) *100)>80
调整后正常:
100(1 - avg(irate(node_cpu_seconds_total{hostip=~"ip:.*",mode="idle"}[2m]))by(instance))>80
本文暂时没有评论,来添加一个吧(●'◡'●)