集群环境中系统报警与自动修复

7 七月, 2010 (00:07) | Linux/Unix 繁体 English    DeliciOus    分享到新浪微博
作者: H.E. | 您可以转载, 但必须以超链接形式标明文章原始出处和作者信息及版权声明
网址: http://www.javabloger.com/article/nagios-linux-cluster-auto-fix.html
豆瓣读书 向你推荐有关 Linux/Unix、 类别的图书。

Nagios 在大型集群环境中主要担任监控与报警的任务,可以监控系统的内存,CPU,磁盘运行状态,还可以监控系统中运行的服务 例如:JVM、Oracle、MySQL 、Jboss 、Apache  的使用状态,对于一些特殊的软件还可以编写各种脚本来进行监控和报警,整体系统架构 如图所示:

http://www.javabloger.com/images/2010-07/nagios/distributed.png

除了邮件报警以外还可以通过短信报警,例如中国移动的 “飞信” 进行短信报警(免费),或者采用GSM手机,下图中一台在局域网中的Nagio监控服务器对网络设备和linux主机进行监控,如果发送异常状态立即将管理员的手机发送报警短信, 如图所示:
http://www.javabloger.com/images/2010-07/nagios/sms.png

 

Nagios的可扩性非常强大,更强大的功能是Nagios还可以对通过脚本对出现故障的应用服务进行自动修复。

实现原理其实不算很难,Nagios本身发邮件也是通过调用命令/脚本来实现的,那么在发送邮件的同时,把远程登录,并且修复的脚本和发送邮件部分的脚本捆绑在一起,即可实现。

 

–end–

豆瓣读书  向你推荐有关 Linux/Unix、 类别的图书。



Creative Commons License
本文由J2ee企业顾问-黄毅创作,并已采用创作共用署名2.5中国大陆版许可证授权。

评论

评论也是有版权的!




8794