监控-平台搭建+邮件报警
准备工作
mkdir /data/common/{conf,template,rules} -p
cd /data
# 提前看下自定义目录
[root@k8s-node02 data]# pwd
/data
[root@k8s-node02 data]# ls
alertmanager common grafana node_exporter prometheus
[root@k8s-node02 data]# tree common/
common/
├── conf
│ ├── alertmanager.yml
│ └── prometheus.yml
├── rules
│ └── node.yml
└── template
└── email.tmpl
3 directories, 4 filesPrometheus 安装
node_exporter 安装
Grafana 安装
Alertmanager 安装
查看 prometheus 配置文件
查看 alertmanager.yml
告警收敛 当我收到一个告警级别为 critical 时,他就会抑制掉 warning 这个级别的告警,这个告警等级是在你编写规则的时候定义的,最后一行就是要对哪些告警做抑制,通过标签匹配的,我这里只留了一个 instance,举个最简单的例子,当现在 alertmanager 先收到一条 critical、又收到一条 warning 且 instance 值一致的两条告警他的处理逻辑是怎样的。 例如 在监控 nginx,nginx 宕掉的告警级别为 warning,宿主机宕掉的告警级别为 critical,譬如说现在我跑 nginx 的服务器凉了,这时候 nginx 肯定也凉了,普罗米修斯发现后通知 alertmanager,普罗米修斯发过来的是两条告警信息,一条是宿主机凉了的,一条是 nginx 凉了的,alertmanager 收到之后,发现告警级别一条是 critical,一条是 warning,而且 instance 标签值一致,也就是说这是在一台机器上发生的,所以他就会只发一条 critical 的告警出来,warning 的就被抑制掉了,我们收到的就是服务器凉了的通知
查看告警邮件摸版
查看告警规则
启动并开机自启
测试停止数据收集




Grafana 摸版查找
https://grafana.com/grafana/dashboards



Last updated