Prometheus告警為什么選用Alertmanager？

本文轉(zhuǎn)載自微信公眾號「猿天地」，作者尹吉歡。轉(zhuǎn)載本文請聯(lián)系猿天地公眾號。

作為一家“創(chuàng)意+整合+營銷”的成都網(wǎng)站建設(shè)機構(gòu)，我們在業(yè)內(nèi)良好的客戶口碑。成都創(chuàng)新互聯(lián)提供從前期的網(wǎng)站品牌分析策劃、網(wǎng)站設(shè)計、網(wǎng)站制作、成都網(wǎng)站建設(shè)、創(chuàng)意表現(xiàn)、網(wǎng)頁制作、系統(tǒng)開發(fā)以及后續(xù)網(wǎng)站營銷運營等一系列服務(wù)，幫助企業(yè)打造創(chuàng)新的互聯(lián)網(wǎng)品牌經(jīng)營模式與有效的網(wǎng)絡(luò)營銷方法,創(chuàng)造更大的價值。

為什么要用 alertManager

alertmanager 主要用于接收 Prometheus 發(fā)送的告警信息，它支持多種告警通知渠道，而且很容易做到告警信息進行去重，降噪，分組等，超級好用。

其實 Grafana 也自帶了告警功能，本來想直接用 Grafana 的告警功能，這樣就不用多部署一個組件了，試用了一下 Grafana 的告警，不是很好用，然后就放棄了。

看上圖，最難受的就是 Template variables are not supported in alert queries 這段話了，不能用于變量類型的模板。下面來解釋下這個問題：

指標(biāo)查詢語句如下：

 
 
 
  
  
  sum(rate(http_server_requests_seconds_count{application="$application", instance="$instance"}[1m]))

其實是根據(jù) application 和 instance 來查詢的，也就是在查詢的時候可以選擇哪個應(yīng)用，哪個實例進行數(shù)據(jù)的查看。

但是你如果要用 Grafana 的告警，就不能這么寫，那要怎么寫呢?把變量去掉。

假如我的 A 服務(wù)有 5 個實例，那么你就得配置 5 個查詢語句，如下:

 
 
 
  
  
  sum(rate(http_server_requests_seconds_count{application="a-service", instance="10.11.11.12"}[1m]))   
  
  sum(rate(http_server_requests_seconds_count{application="a-service", instance="10.11.11.13"}[1m]))   
  
  sum(rate(http_server_requests_seconds_count{application="a-service", instance="10.11.11.14"}[1m]))   
  
  sum(rate(http_server_requests_seconds_count{application="a-service", instance="10.11.11.15"}[1m]))   
  
  sum(rate(http_server_requests_seconds_count{application="a-service", instance="10.11.11.16"}[1m]))

到了這一步我就直接放棄了，太難用了，不知道有沒有其他的方式能夠解決這個問題，反正我是投向了 alertmanager。

部署 alertManager

部署 alertmanager 之前我們首先部署一個釘釘消息的轉(zhuǎn)發(fā)服務(wù)，也就是當(dāng)有告警的時候，alertmanager 會調(diào)用這個轉(zhuǎn)發(fā)服務(wù)將告警內(nèi)容發(fā)送至釘釘。

 
 
 
  
  
  docker run -d -p 8060:8060 --name webhook timonwong/prometheus-webhook-dingtalk --ding.profile="webhook1=   
  
  https://oapi.dingtalk.com/robot/send?access_token=你的token"

釘釘機器人需要自定義關(guān)鍵詞來匹配告警信息，否則接收不到消息。

直接用 Docker 來部署 alertmanager，命令如下：

 
 
 
  
  
  docker run -d --name alertmanager -p 9093:9093 -v /opt/alertmanager/alertmanager.yml:/etc/alertmanager/alertmanager.yml prom/alertmanager:latest

alertmanager.yml

 
 
 
  
  
  global:   
  
    resolve_timeout: 5m   
  
  route:   
  
    receiver: webhook   
  
    group_wait: 30s   
  
    group_interval: 5m   
  
    repeat_interval: 5m   
  
    group_by: [alertname]   
  
    routes:   
  
    - receiver: webhook   
  
      group_wait: 10s   
  
  receivers:   
  
  - name: webhook   
  
    webhook_configs:   
  
    - url: http://10.100.0.168:8060/dingtalk/webhook1/send   
  
      send_resolved: true

webhook 的通知地址我們配置成上面我們部署的釘釘轉(zhuǎn)發(fā)服務(wù)的 IP+Port 就可以了。

修改 prometheus 的配置文件，增加 alertmanager 的配置。

prometheus.yml

 
 
 
  
  
  # Alertmanager configuration   
  
  alerting:   
  
    alertmanagers:   
  
    - static_configs:   
  
      - targets: ["10.100.0.168:9093"]   
  
  rule_files:   
  
  - "/etc/prometheus/rules.yml"

配置告警規(guī)則

rules.yml

 
 
 
  
  
  groups:   
  
  - name: qps   
  
    rules:   
  
    - alert: QPS告警   
  
      expr: (sum by(instance,application)(rate(http_server_requests_seconds_count[1m]))) > 100   
  
      for: 1m   
  
      labels:   
  
        severity: warning   
  
      annotations:   
  
        description: "應(yīng)用:{{ $labels.application }} 實例:{{ $labels.instance }} QPS超過100 (當(dāng)前值: {{ $value }})"   
  
        summary: ""   
  
    - alert: 應(yīng)用下線告警   
  
      expr: up == 0   
  
      for: 0m   
  
      labels:   
  
        severity: warning   
  
      annotations:   
  
        description: "應(yīng)用:{{ $labels.job }} 實例:{{ $labels.instance }} 已下線"   
  
        summary: ""

上面配置了 QPS 告警和應(yīng)用下線的告警，關(guān)于告警規(guī)則不做詳細講解，大家可以自己去學(xué)習(xí)下，當(dāng)然也有一些可以參考的規(guī)則配置，具體可以查看這個網(wǎng)站：https://awesome-prometheus-alerts.grep.to/rules

配置好了后可以在 prometheus 的 Web 控制臺 Alerts 中進行查看。

告警效果

遇到的問題

在告警內(nèi)容顯示這塊遇到了一個問題，研究了挺長時間的。上面有貼釘釘告警后的消息接入，在描述信息中有寫哪個應(yīng)用，哪個實例出問題了，就是這 2 個具體的信息，在我一開始配置告警規(guī)則的時候沒有獲取到值。

沒有獲取到值的原因是我的告警規(guī)則是這樣寫的：

 
 
 
  
  
  sum (rate(http_server_requests_seconds_count[1m])) > 100

規(guī)則本身沒問題，也能執(zhí)行，就是實例值獲取不到，后面研究了網(wǎng)上一些其他的規(guī)則，發(fā)現(xiàn)想要獲取具體的值，就得在規(guī)則里面包含這些內(nèi)容才行。

然后就改用下面的方式了，在 sum 后接上要顯示的指標(biāo)名稱，就可以在告警信息中顯示了。跟 Sql 中的 select 一樣，沒有寫清要哪個字段就不會查詢出來。

 
 
 
  
  
  (sum by(instance,application)(rate(http_server_requests_seconds_count[1m]))) > 100

關(guān)于作者：尹吉歡，簡單的技術(shù)愛好者，《Spring Cloud 微服務(wù)-全棧技術(shù)與案例解析》, 《Spring Cloud 微服務(wù) 入門實戰(zhàn)與進階》作者, 公眾號猿天地發(fā)起人。

當(dāng)前名稱：Prometheus告警為什么選用Alertmanager？
本文路徑：http://uogjgqi.cn/article/dpgpejj.html

掃二維碼與項目經(jīng)理溝通

我們在微信上24小時期待你的聲音

解答本文疑問/技術(shù)咨詢/運營咨詢/技術(shù)建議/互聯(lián)網(wǎng)交流

av激情亚洲男人的天堂国语,日韩欧美精品一中文字幕,无码av一区二区三区无码,国产又色又爽又刺激的a片,国产又色又爽又刺激的a片

Prometheus告警為什么選用Alertmanager？

掃二維碼與項目經(jīng)理溝通

其他資訊

行業(yè)動態(tài)

企業(yè)網(wǎng)站建設(shè)的重要性！

服務(wù)項目

網(wǎng)站建設(shè)

移動端/APP

微信/小程序

技術(shù)支持

其它服務(wù)

更多服務(wù)項目

聯(lián)系吧在百度地圖上找到我們

電話：13518219792

av激情亚洲男人的天堂国语,日韩欧美精品一中文字幕,无码av一区二区三区无码,国产又色又爽又刺激的a片,国产又色又爽又刺激的a片

Prometheus告警為什么選用Alertmanager？

掃二維碼與項目經(jīng)理溝通

其他資訊

行業(yè)動態(tài)

企業(yè)網(wǎng)站建設(shè)的重要性！

服務(wù)項目

網(wǎng)站建設(shè)

移動端/APP

微信/小程序

技術(shù)支持

其它服務(wù)

更多服務(wù)項目

聯(lián)系吧 在百度地圖上找到我們

電話：13518219792

企業(yè)網(wǎng)站建設(shè)的重要性！

聯(lián)系吧在百度地圖上找到我們