快速体验
- 打开 InsCode(快马)平台 https://www.inscode.net
- 输入框内输入如下内容:
请设计一个轻量级的NGINX自动监控重启系统,要求:1. 定时检查NGINX状态 2. 异常时自动重启 3. 发送通知提醒 4. 记录事件日志 5. 低资源占用。使用Python或Shell实现,代码不超过200行,依赖尽可能少,适合快速部署。- 点击'项目生成'按钮,等待项目生成完整后预览效果
最近在维护服务器时遇到个头疼的问题:NGINX偶尔会莫名其妙挂掉,导致网站无法访问。手动重启虽然能解决,但半夜被报警电话吵醒实在不愉快。于是花了点时间研究如何用最轻量的方式实现自动监控,最终搞定了这个5分钟就能部署的解决方案。分享下我的实践过程:
核心思路设计
整个系统只需要做三件事:定期检查NGINX进程是否存在、发现异常时执行重启、记录事件并通知管理员。用Shell脚本实现最轻量,但考虑到后续可能扩展通知功能,最终选择了Python(代码约150行)。关键点在于:- 使用
ps或systemctl命令检测服务状态 - 通过
subprocess模块执行重启命令 - 用
logging模块记录时间戳和事件类型 - 邮件通知采用
smtplib标准库
- 使用
状态检测实现
测试发现直接调用systemctl is-active nginx返回最准确。在Python中捕获命令返回值,非"active"状态即触发处理流程。为避免频繁检测浪费资源,设置每30秒检查一次(实际生产环境可调整间隔)。自动重启逻辑
当检测到异常时,先尝试优雅重启(systemctl restart nginx),如果连续3次失败则强制重启(systemctl stop/start)。这里特别注意要添加延迟判断,避免在NGINX正常启动过程中误判。通知与日志记录
日志文件按日期分割存储,包含事件类型和时间戳。通知功能采用最简单的邮件提醒,配置SMTP参数即可。如果不想搭邮件服务器,也可以改用企业微信/钉钉的Webhook(代码需稍作调整)。资源占用优化
通过以下方式控制资源消耗:- 使用
time.sleep替代循环检测 - 日志文件按大小自动轮转
- 禁止脚本自身输出调试日志
- 用
nice命令降低进程优先级
- 使用
实际部署时发现个细节问题:直接crontab运行脚本可能因环境变量导致命令找不到。解决方法是在脚本开头显式设置PATH,或者使用绝对路径调用systemctl。另外建议添加锁文件机制,防止脚本重复执行。
这个方案在测试环境运行两周,成功处理了3次异常情况。最惊喜的是CPU占用几乎可以忽略(平均0.1%),内存消耗不到20MB。对于更复杂的场景,还可以扩展这些功能:
- 增加HTTP状态码检测(配合curl)
- 集成Prometheus监控指标
- 添加Telegram通知支持
整个过程在InsCode(快马)平台上验证特别方便,不用配置服务器环境就能测试脚本逻辑。他们的在线编辑器直接支持Python和Shell,调试时还能实时看到输出结果。最关键的是部署按钮一点就能生成可访问的演示环境,我把监控脚本放上去跑了一天,稳定性完全达标。对于需要快速验证原型的情况,这种免配置的体验确实省心。
快速体验
- 打开 InsCode(快马)平台 https://www.inscode.net
- 输入框内输入如下内容:
请设计一个轻量级的NGINX自动监控重启系统,要求:1. 定时检查NGINX状态 2. 异常时自动重启 3. 发送通知提醒 4. 记录事件日志 5. 低资源占用。使用Python或Shell实现,代码不超过200行,依赖尽可能少,适合快速部署。- 点击'项目生成'按钮,等待项目生成完整后预览效果