news 2026/4/18 12:53:18

Prometheus告警处理详解:从Alertmanager部署到告警实战

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
Prometheus告警处理详解:从Alertmanager部署到告警实战

一、Alertmanager介绍

Prometheus 内置了一个报警模块——Alertmanager,它负责接收来自 Prometheus 的告警信息,并支持对告警进行去重、降噪、分组、路由,同时具备丰富的通知渠道集成能力,是一款高效的告警通知系统。

告警流程架构

在 Prometheus 中,告警功能分为两部分:

  1. Prometheus:定义告警规则并周期性计算,触发告警后发送给 Alertmanager。

  2. Alertmanager:接收告警并按照配置进行后续处理与通知。

下图展示了告警流程架构:


二、部署Alertmanager

Alertmanager 使用 Go 编写,无第三方依赖,支持跨平台部署。

1. Linux安装步骤

(1)下载安装包

bash

wget https://github.com/prometheus/alertmanager/releases/download/v0.26.0/alertmanager-0.26.0.linux-amd64.tar.gz

(2)创建配置文件

解压后默认配置文件为alertmanager.yml,主要内容如下:

yaml

route: group_by: ['alertname'] group_wait: 30s group_interval: 5m repeat_interval: 1h receiver: 'web.hook' receivers: - name: 'web.hook' webhook_configs: - url: 'http://127.0.0.1:5001/' inhibit_rules: - source_match: severity: 'critical' target_match: severity: 'warning' equal: ['alertname', 'dev', 'instance']
(3)启动Alertmanager

bash

./alertmanager

支持启动参数:

  • --config.file:指定配置文件路径

  • --storage.path:指定数据存储路径

(4)查看运行状态

访问http://<IP>:9093可进入Alertmanager控制台。


2. Docker安装步骤

bash

mkdir -p /etc/alertmanager/ mkdir -p /etc/alertmanager/template vim /etc/alertmanager/alertmanager.yml # 内容同上 docker run -d -p 9093:9093 \ -v /etc/alertmanager:/etc/alertmanager \ -v /etc/localtime:/etc/localtime \ prom/alertmanager

三、配置Receiver接收告警信息

Alertmanager 支持多种通知方式,包括邮件、Slack、Webhook、PagerDuty 等。

集成QQ邮箱告警示例

1. 申请QQ邮箱授权码

参考:QQ邮箱授权码申请指南

2. 配置alertmanager.yml

yaml

global: resolve_timeout: 5m smtp_smarthost: 'smtp.qq.com:465' smtp_from: '276****211@qq.com' smtp_auth_username: '276****211@qq.com' smtp_auth_password: 'xxxxxxxxx' # 授权码,非QQ密码 smtp_require_tls: false templates: - '/etc/alertmanager/template/*.tmpl' route: group_by: ['service','alertname','cluster'] group_wait: 30s group_interval: 10s repeat_interval: 5m receiver: 'email' receivers: - name: 'email' email_configs: - to: '276****211@qq.com' send_resolved: true html: '{{ template "email.html" . }}' inhibit_rules: - source_match: severity: 'critical' target_match: severity: 'warning' equal: ['alertname', 'dev', 'instance']
3. 创建自定义邮件模板

bash

vim /etc/alertmanager/template/email.tmpl

模板内容如下(支持Go模板语法):

go

{{ define "email.html" }} {{ range $i, $alert :=.Alerts }} ========监控报警==========<br> 告警状态:{{ .Status }}<br> 告警级别:{{ $alert.Labels.severity }}<br> 告警类型:{{ $alert.Labels.alertname }}<br> 告警应用:{{ $alert.Annotations.summary }}<br> 告警主机:{{ $alert.Labels.instance }}<br> 告警详情:{{ $alert.Annotations.description }}<br> 触发阀值:{{ $alert.Annotations.value }}<br> 告警时间:{{ ($alert.StartsAt.Add 28800e9).Format "2006-01-02 15:04:05"}}<br> ========end=============<br> {{ end }} {{ end }}

注意:

  • StartsAt为UTC时间,需加28800e9转换为北京时间

  • 2006-01-02 15:04:05为Go语言固定时间格式


四、启用Alertmanager模块与Rules告警规则

1. 配置Prometheus连接Alertmanager

编辑prometheus.yml,添加以下内容:

yaml

global: scrape_interval: 5s evaluation_interval: 5s alerting: alertmanagers: - static_configs: - targets: - 192.168.3.100:9093 rule_files: - "/etc/prometheus/rules/*.rules"

重启Prometheus后,访问http://<IP>:9090/config确认配置生效。

2. 创建告警规则文件

示例规则:CPU与内存使用率告警

bash

mkdir -p /etc/prometheus/rules vim /etc/prometheus/rules/alerts.rules

内容如下:

yaml

groups: - name: hostStatsAlert rules: - alert: hostCpuUsageAlert expr: (1 - avg(irate(node_cpu_seconds_total{mode="idle"}[5m])) by (instance))*100 > 85 for: 1m labels: severity: critical annotations: summary: "Instance {{ $labels.instance }} CPU usage high" description: "{{ $labels.instance }} CPU usage above 85% (current value: {{ $value }})" - alert: hostMemUsageAlert expr: (1 - (node_memory_MemAvailable_bytes{} / (node_memory_MemTotal_bytes{})))* 100 > 70 for: 1m labels: severity: critical annotations: summary: "Instance {{ $labels.instance }} MEM usage high" description: "{{ $labels.instance }} MEM usage above 70% (current value: {{ $value }})"

重启Prometheus后,可通过以下地址查看规则与告警状态:

  • 规则列表:http://127.0.0.1:9090/rules

  • 告警状态:http://127.0.0.1:9090/alerts

3. 模拟告警触发测试

创建CPU负载脚本:

bash

vim load_cpu.sh #!/bin/bash while true; do : done chmod +x load_cpu.sh ./load_cpu.sh

运行后观察:

  1. Prometheus 检测到CPU使用率 >85%

  2. 告警状态先变为PENDING(持续1分钟后)

  3. 触发FIRING状态并发送至Alertmanager

  4. Alertmanager 根据路由发送邮件通知


总结

本文完整介绍了从 Alertmanager 部署、配置邮件接收、编写Prometheus告警规则到模拟告警测试的全过程。通过合理配置路由、抑制规则与通知模板,可构建一套稳定、易用的监控告警系统。

后续可继续扩展:

  • 集成企业微信、钉钉、Slack等通知

  • 配置告警分级与静默规则

  • 使用Webhook对接自愈系统

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/18 6:29:39

变量IV值高到“爆表”,是发现宝藏还是踩中陷阱?

“这个变量的IV值居然有1.2!是不是算错了?”“营销数据里出现IV值0.8的变量,该高兴还是该怀疑?”如果你是数据分析师或建模工程师,这样的对话一定不陌生。IV值(信息价值)作为衡量变量预测能力的标尺,在金融风控中备受推崇,但当它高得“异常”时,却可能引发两种截然不同…

作者头像 李华
网站建设 2026/4/14 23:43:55

贝叶斯优化随机森林的故障诊断附Matlab代码

✅作者简介&#xff1a;热爱科研的Matlab仿真开发者&#xff0c;擅长毕业设计辅导、数学建模、数据处理、建模仿真、程序设计、完整代码获取、论文复现及科研仿真。&#x1f34e; 往期回顾关注个人主页&#xff1a;Matlab科研工作室&#x1f447; 关注我领取海量matlab电子书和…

作者头像 李华
网站建设 2026/4/18 8:08:19

《AI应用架构师视角:AI发展怎样改变与社会责任的关系》

AI应用架构师视角&#xff1a;AI发展怎样改变与社会责任的关系 一、开场&#xff1a;当AI的“无心之过”变成架构师的“必须解答” 凌晨三点&#xff0c;我在医院急诊室的走廊里刷到一条朋友圈——是做儿科医生的老同学发的&#xff1a;“今晚接诊了一个高烧惊厥的孩子&#xf…

作者头像 李华
网站建设 2026/4/18 8:40:51

揭秘:AI应用架构师借助AI驱动市场分析引领行业变革的背后逻辑

揭秘AI应用架构师的“市场分析武器库”:用AI重构行业决策的底层逻辑 一、引言:传统市场分析的“死胡同”,AI架构师如何破局? 深夜11点,某零售企业市场部经理张丽盯着电脑屏幕上的Excel表格,揉了揉发涩的眼睛——这是她本周第3次调整下月的库存计划。上周刚因为“没预料…

作者头像 李华
网站建设 2026/4/18 7:37:52

从入门到精通:大数据环境下的数据脱敏实战指南

从入门到精通:大数据环境下的数据脱敏实战指南 关键词:数据脱敏、隐私保护、敏感数据识别、脱敏算法、合规性、大数据处理、动态脱敏 摘要:在大数据时代,用户隐私泄露事件频发,企业面临《个人信息保护法》《GDPR》等严格法规约束。本文从“为什么需要数据脱敏”出发,用“…

作者头像 李华
网站建设 2026/4/18 7:55:56

C++之继承与组合

继承与组合是C实现代码重用的两种主要方法继承是Is-a的关系&#xff0c;比如水果和梨组合是Has-a的关系&#xff0c;图书馆有图书 #include <iostream> using namespace std; class vehicles{ //交通工具 public:void load(const string& goods){cout << "…

作者头像 李华