监控-平台搭建+邮件报警

准备工作

mkdir /data/common/{conf,template,rules} -p
cd /data

# 提前看下自定义目录
[root@k8s-node02 data]# pwd
/data
[root@k8s-node02 data]# ls
alertmanager  common  grafana  node_exporter  prometheus
[root@k8s-node02 data]# tree common/
common/
├── conf
   ├── alertmanager.yml
   └── prometheus.yml
├── rules
   └── node.yml
└── template
    └── email.tmpl

3 directories, 4 files

Prometheus 安装

node_exporter 安装

Grafana 安装

Alertmanager 安装

查看 prometheus 配置文件

查看 alertmanager.yml

告警收敛 当我收到一个告警级别为 critical 时,他就会抑制掉 warning 这个级别的告警,这个告警等级是在你编写规则的时候定义的,最后一行就是要对哪些告警做抑制,通过标签匹配的,我这里只留了一个 instance,举个最简单的例子,当现在 alertmanager 先收到一条 critical、又收到一条 warning 且 instance 值一致的两条告警他的处理逻辑是怎样的。 例如 在监控 nginx,nginx 宕掉的告警级别为 warning,宿主机宕掉的告警级别为 critical,譬如说现在我跑 nginx 的服务器凉了,这时候 nginx 肯定也凉了,普罗米修斯发现后通知 alertmanager,普罗米修斯发过来的是两条告警信息,一条是宿主机凉了的,一条是 nginx 凉了的,alertmanager 收到之后,发现告警级别一条是 critical,一条是 warning,而且 instance 标签值一致,也就是说这是在一台机器上发生的,所以他就会只发一条 critical 的告警出来,warning 的就被抑制掉了,我们收到的就是服务器凉了的通知

查看告警邮件摸版

查看告警规则

启动并开机自启

测试停止数据收集

Grafana 摸版查找

https://grafana.com/grafana/dashboards

Last updated