Nagiosの監視対象サーバで「Additional Info: CHECK_NRPE: Socket timeout after 10 seconds」アラートが最近よく出るようになりました。その監視対象サーバがダウンした訳ではなく、最近あるミドルウェアプログラムを動かしはじめたため、Nagios監視に対する応答が遅くなる時があるからかな?と考えています。(その監視対象サーバは、USにあるAWS無料インスタンスなので大したリソースもありません。)
そこで、まずは、NagiosでSocket timeout する回数を減らしたいと考えました。
ググってみると、Socket timeout 値を大きくする方法があったので、その対策を施してみました。記録として残しておきます。
設定する箇所
Socket timeout 値を設定するファイルは、監視マネージャ側の「commands.cfg」です。
NRPE用に以下の設定を入れています。
define command{ command_name check_nrpe command_line $USER1$/check_nrpe -H $HOSTADDRESS$ -c $ARG1$ }
この状態の場合、Socket timeout はデフォルト値である10秒になります。
Socket timeout を30秒にする場合は、以下のように「-t 30」というオプション設定を追加するだけのようです。
define command{ command_name check_nrpe command_line $USER1$/check_nrpe -H $HOSTADDRESS$ -c $ARG1$ -t 30 }
その後、Nagiosをリスタートすれば完了です。
あとは、「Additional Info: CHECK_NRPE: Socket timeout after 10 seconds」が発生する回数が減るかどうかを、様子見してみます。