sidetech

(元)インフラエンジニアの寄り道メモ。

System Answer G2のタイムゾーンの活用

昨日の海外拠点の問題は、私のつたない英文により一部誤解を与えてしまった。。。ううむ。それならばと、こちらのSNMP監視のユーザーを作って直接見てもらうか・・・。

と、いうことで、SystemAnswerG2は、ランゲージが日本語と英語と切り替えられるので、海外のIT管理者にも活用してもらいやすいです。
そして、なによりタイムゾーンですね。
Sag2_time01
現地サイドのタイムゾーンをユーザー毎に設定できるので、グラフの時間軸を構築した日本のタイムゾーンで見るのではなく、現地時刻に合わせられるのがイイですね。
Sag2_time02
昨日と同じレイテンシ解析付きグラフですが、現地時間で英語モードで出してみました。こうすることで、いちいちタイムゾーンの時差分を自分で脳内変換しなくても、現地の何時ごろの調子がどうかというのが分かりやすくなりました。現地から参考にならなくなるのは、レイテンシの軸が日本からという値になってしまうので、あくまで参考値程度にしかならない事かな。でもとりあえず使ってもらいましょぅ。

グラフを見る限りでは昨日より落ち着いちゃってますね。困ったね。VPNがつながっている状態で、ルーターのリブートで症状が緩和する場合は、社内LANに何かが起きている可能性も推測出来てしまうので、社内LANの影響で回線が遅延しているような振る舞いになったと考える事も出来てしまう。
ルーターまでは私が機器を頼って思考を巡らせることは出来るのですが、社内で起きていることを読み取るには、ある程度ARP系のログが取れるVPNルーターでないと判断が難しい。

よくあるケースとしては、途中経路に壊れかけたHUBがあったりして、その配下の端末が通信しだすと、社内ネットワークが重たくなる現象。犯人を捕まえにくい。HUBループでも似た現象が出る。そしてHUBならまだしも稀に端末側のインターフェースが悪さをする場合もあるので、そうなると遠隔での対応は非常に困難に。でも統計グラフの波形を見る限りでは、稀にレイテンシが1000msを超えてしまう。その時にVPNルーターのCPUなりメモリなりが変化していれば、社内LANと断定しやすくなるのだけど、全くピクリとも動いていない。これじゃまだ犯人を絞り込めないですね。

あとは海外拠点で困るのはリアルな話での時差だよね。現在あっちはお休み中の時間。なので活動時間に入る前に情報を集めて、出社してきたら色々と試してもらわなければならない。普通なら現地に技術者を派遣したりして対応とかするのだろうけど、完全自営な場合はそういった対応は無理なので、少しでも様々な情報を吸い上げられる環境は大事になってくるんだよね。

ただ、このSNMPグラフの一番肝心な所は、グラフの波形や変化からどのような状況をつかめるか・想像できるかは、ある程度の経験は必要なので、私も常に色々な傾向とパターンを学習していかなければなりません(^^;
特に障害発生前後を含めて対応が終わった時でもそれまでの一連のグラフの動きを把握することが大事になるので、回復後も暫くはグラフの推移を眺めて学習することをお勧めします。グラフマニアになれば変態レベルで即時症状診断できるレベルになれるはず(笑)

まぁクリティカルレベルではないようなので、ブログも書けるのですが・・・ボチボチ対策しましょ。もうちょっと取得項目増やしてみましょ。[E:coldsweats01]取りあえず、念のためにエラーパケットとかコリジョンもみておきましょうかね。