sidetech

インフラエンジニアの寄り道メモ。

System Answer G2でしきい値監視をする

ちょっと息抜き?にブログです。

みなさん、しきい値監視はどの位真面目にやっていますかね。ディスク容量だったら60%で警告だすとか、CPUでも60%以上は警告かな?とか一定の基準値を設けていると思うのですが、私は、OSや機器やアプリの癖次第で、しきい値の基準をかえちゃうタイプです。

一定の基準値だと、しきい値アラートが飛びまくるもんで。。。瞬間的に超えたものも反応shちありすると厄介だったり、機器によっては、常に60%からスタートみたいな機器も無くもないです。なので、固有の癖を掴んでしきい値を入れていくタイプです。

かっこよくいっていますが、しきい値の設定漏れはボチボチあるもんで、何とかせねばと言う所です。今回、そのしきい値の設定が漏れていた某ADサーバーのメモリが大変な事になっていた事にきがついたので、まずしきい値対策をしてみました。
Sag2memory01
ガツンとフリーメモリーがなくなって挙動が怪しくなった某ADサーバ・・・。再起動でフリーメモリ回復。これは何かしらのメモリリークですね。原因は別途追いかけるとして、システム的には傍目上生きている感じで挙動がおかしいのに気が付くのが遅れたので、しきい値アラートを組み込みます。

私はSystem Answer G2を使っているので、その中の「しきい値監視」機能を利用します。

Sag2memory02
まずは、どんな値が入っているのかですが、「CSVエキスポート」を利用します。
Sag2memory03
なるほどなるほど、こんな値が入っていたんですね。グラフ表示では、GやMで表現するので、生データが見られるのは助かりますね。

Sag2memory04
今回は、メモリが足りなくなる前に警告をだしたいので、「下限しきい値」の設定をします。
しきい値には3段階(注意・警戒・警告)とあります。しきい値の話なので、運用によっては3項目ではなく1項目だけ使うだけでも良いと思います。とりあえず、CSVから数字をみて、1.2Gの所で注意をだして、0.8Gで警戒、0.4Gで警告にしてみました。本来はもう少し上の数字にした方が良いでしょう。

さて、これでどうなるかな・・・・あれれ?![E:coldsweats02]

Sag2memory05
警告が出ちゃってます。おかしいですね。アラートメールで何を基に検知したのか見てみましょう。

Sag2memory06
およよ。取得値の桁がカットされていますね。内部的にはM単位ってことなんですね。それでは、私のしきい値設定では大きすぎて、いきなり下回った警告が出ちゃうわけですね。

では、この取得値を元に、
Sag2memory07
桁を合わせた設定に変更してみた所、しきい値アラートは止まりました。

これで、メモリリークの発生時には効果を発揮してくれるはずです。

パーセンテージでのしきい値設定が一番楽なのですが、取得する値によっては、こういった地道な作業が必要です。

と言った所で「しきい値」の設定はだいぶかったるいですが、何時か僕を救ってくれることを信じて・・・[E:coldsweats01]

2016/02/23追記:
どうやら取得値についてはSNMPの取得する単位によって違うとのことで、グラフの方では値が歪まない様に補正してくれているようです。
今回取得した値が、HP インサイトマネージャ経由で取得した値なのですが、取得単位がM(メガ)でした。その為、こういったSNMP応答値になっていたんですね。
ただ、そのままだとグラフ的に調子が悪いという事で桁数の補正が入っているようです。