集群环境中系统报警与自动修复
Nagios 在大型集群环境中主要担任监控与报警的任务,可以监控系统的内存,CPU,磁盘运行状态,还可以监控系统中运行的服务 例如:JVM、Oracle、MySQL 、Jboss 、Apache 的使用状态,对于一些特殊的软件还可以编写各种脚本来进行监控和报警,整体系统架构 如图所示:
除了邮件报警以外还可以通过短信报警,例如中国移动的 “飞信” 进行短信报警(免费),或者采用GSM手机,下图中一台在局域网中的Nagio监控服务器对网络设备和linux主机进行监控,如果发送异常状态立即将管理员的手机发送报警短信, 如图所示:

Nagios的可扩性非常强大,更强大的功能是Nagios还可以对通过脚本对出现故障的应用服务进行自动修复。
实现原理其实不算很难,Nagios本身发邮件也是通过调用命令/脚本来实现的,那么在发送邮件的同时,把远程登录,并且修复的脚本和发送邮件部分的脚本捆绑在一起,即可实现。
–end–
豆瓣读书 向你推荐有关
Linux/Unix、
类别的图书。

本文由J2ee企业顾问-黄毅创作,并已采用创作共用署名2.5中国大陆版许可证授权。






