sidetech

インフラエンジニアの寄り道メモ。

うちが悪いの?相手が悪いの?

ネットワークの仕事をしていると、何かにつけて「ネットワークが重い・遅い」と難癖つけられます。こんだけWifiやらベストエフォートなインターネット回線使っといてよく言うよ・・・って思うのですが、最近最も厄介な相手が出てきました。

監視は今までは自前のオンプレミスのシステム監視がメインだったのだけど、今後はクラウドもちゃんと見ていかないとレスポンスやパフォーマンスでドツボにハマるので注意です。以下愚痴も混ぜたお話・・・。

Office365_slow

製品名隠してないですけどw

この文章だと、明らかにうちの回線が遅いからダウンロードに時間掛かってんだよ・・・って言っていますよね。この文章をうちの社員がみたら、情シス何やってんだよって言われるわけですよ。ショボいなオイって。完全に喧嘩売ってますよね。

そーかいそーかい。お前さん所のクラウド環境は完璧であって、あくまでも利用者回線が悪いっていうんだな。SLAもバッチリだといいたいわけだな。

という所で、System Answer G2のコマンド監視のCommand Valueを活かしたスクリプトで、ちょっとCactiのAdvancedPINGライクなものを実装して統計グラフを眺めてみました。

System AnswerもG2になってからコマンド監視という自由スクリプトの実装のおかげで、結構色々な事が出来るようになりました。ZABBIXやCactiのような自由度が出来るようになっただけなのですが、SystenAnswerG2のイイところは、とにかく「値」を返せばグラフ化してくれる所です。

CactiとかZABBIXではXMLでのフォーマット作りもちょっとしなければならないところもあったり、アッチコッチと作りこんであげなければならないのですが、その労力がなくなるので、スクリプトの知識などは多少必要ですが、だいぶシンプルに作れます。ノリはNagiosに近い。

Downloadms_2




これだけ見せても本来はこの監視ラインの回線負荷の状況が見られませんが、それらは問題ない値を指しております(と、ここでは割愛ということで)。グラフはOffice365のダウンロードサイトではないですが。

で、このガッタガタのレスポンス値の実態。1分間隔でデータ収集しており、1部で5分ほどデータが取れなかった・・・てことはサイトロストです。

でもグラフでは毎日17時頃から0時頃まで突然レスポンスが100msを超えてしまうんです。これで、利用者からダウンロードが早かったり遅かったりするのは何故かという言い訳(理由)は言えなくはないのですが、改善しようがないので、このパターンと付き合っていくしかないわけですね。クラウド環境の怖さの片鱗というべきでしょうか。

一応フォローじゃないけど、揺らぎの少ない100ms程度なら実用範囲内だと思います。で、今回はpingレベルでの揺らぎの監視なので、アプリケーション相手の場合はちゃんとHTTP/HTTPSで監視してあげたほうがいいですね。

ただねぇ・・・やっぱりあの文章気に食わん。申し訳ございませんって言っているそばから人のせいにする姿勢には納得いきません。安心してください。問い詰めても改善するような企業様ではないので問い詰めません~。

という、テスト投稿ですw