sidetech

インフラエンジニアの寄り道メモ。

Azureで次世代の監視(インサイト)

ご無沙汰のこんちゃーす。すっかりブロガーと言うことを忘れておりました。

久々の投稿になります。

f:id:hunter1014:20190916210218p:plain

今年、実は3度目の海外出張です。カナダ(トロント)、韓国、そして今回ベルギーです。
今回は滞在期間が長く、9月はほぼベルギーに居ます。

仕事はだいぶバーチャルな仕事をしているはずなのですが、やはり現地側にいたほうがクイックに対応できる部分もあり、時差もしかりでベルギーに滞在しています。

旅の報告はまた次回として、今回は「Azure Insight」です。

 

カナダに居た時も便利だなぁとおもっていたんですが、今回も「Azureインサイト」によって通信不良といいますか、不具合をキャッチ出来たんで、ちょっとご紹介。

監視というと、死活監視とSNMP監視、ほかにアプリケーション監視にログ監視・・・・色々ありますね。

最近ではクラウド系監視なんて言葉が出てきたり、SRE(Site Reliability Engineering)なんて言葉が出てきたりで、運用の在り方うんぬんの流れも変わっていている模様。まぁそんな小難しいのは他人に任せて・・・と。

 

先日、とあるお方に愚痴をこぼしたんですよ。そしたら、その中での答えに”死活監視”と”性能監視”は分けるべきだよと。そのトーリなんですけどね。

で、今回はおそらく性能監視的な方向性の一部の話になるかと思います。

性能監視のうんぬんかんぬんも奥が深いので、今回の記事では割愛。

 

今回はですね、フローの監視に近いのかな?でもアプリケーション寄り。

Azureには、とりあえず監視という項目に

インサイト

「警告」

「メトリック」

「診断設定」

「アドバイザーのレコメンデーション」

「ログ」

「接続モニター」

というのがあり、更にトラブルシューティング向けになっていますが、

「リソース正常性」

「ブート診断」

「Performance Diagnostics」

てのがあります。今回は「インサイト」にフォーカスします。

 

今までの監視で、サーバーからプリンター出力しようとした場合のログってどこから取れますか?どの様に取りますか?

おそらく、監視対象にはならないと思います。必要な時にパケットキャプチャしたり、netstatで見たりはするかもですね。

そしておそらく、1度でも正常に処理できていれば後は気にしないフローになりますよね。

まぁ、どこまで気にするかにもよるかもしれませんが、実体験としてリフト&シフトの際にはこれ、結構役立つのではと思った次第です。

 

さて、以下は実際にあったケースですが、参考例としてみてくださいね。

f:id:hunter1014:20190916212331p:plain

サーバーはターミナルサーバーです。28のクライアントから接続があり、1つだけ赤の点線がでています。タイムレンジは最新から30分という状況です。Port443で何か通信ミスが出ている様子です。

 

f:id:hunter1014:20190916212549p:plain

Port443をドリルダウンすると、4つ通信エラーが出ているのが確認できました。うーん、これだけだと、何故かが分かりずらいですね。1つ選択してみた所、ソースプロセルがWINWORDがFailedしているという情報が出てきました。

WORDでautodiscoverとなると、勘が良い人だとここでもう答えが出るようですが、

ここで、ソースプロセスを探してみましょう。

 

f:id:hunter1014:20190916213355p:plain

サーバーに55プロセスが動いているということで、こちらをドリルダウンしてみます。

どうやらMicrosoft Officeプロセスに通信エラーが出ているように見えます。

この時点で、どのプロセスからというのが直ぐに分かるのが良いところですね。

 

f:id:hunter1014:20190916213545p:plain

そして、Microoft Officeを展開してみると、なんとEXCELも通信エラーの対象になっていました。

 

プロセスで確認出来るってのがすごいすね。で、そのプロセスのユーザーネームが表示されています。今回はログインの方法が少しアレンジされており、そこを修正しないとエラーが出ることが分かっていたのですが、まさか可視出来るとは。

 

こんなかんじで、プリンターの何処が繋がらないとかのチェックやら、リフト&シフト時にありがちなのですが、修正プログラムの宛先が、何故かまだオンプレミスを指しているとかあるので、インフラ屋はプログラマの通信先のミス経路(修正漏れ)についてお知らせすることが出来ます。

 

様々なトラフィックをBandwith(帯域)で見るだけでなく、アプリケーション可視化で見れてドリルダウンできるようなグラフだと良いんでしょうけど、中々骨折れますよね。キャプチャにはいれていないですが、各プロセスが必要としたネットワークトラフィックもグラフで一応表示されます。ちょっとピンときにくいグラフだったので割愛しました。

 

実際に、この後に閾値の設定やらとファンクションはあるんですけど、そろそろ自己学習的なものって出てこないですかね。

正しいか正しくないかを教え込むのは大変そうですが。

一応、これまでもフロー解析というのはあるにはありました。しかし扱いやすいかは( ^ω^)・・・。

あとは、このインサイトを設定した同士のフローとか相関がどのように見えていくようになるかに期待でしょうか。

正直、いっくらPrometheusとかでデータを取りまくっても、どうやってそのデータを生かせばよいのかというストラクチャを構築するのは途方もない作業です。

というか、今回の様な表現はちょっと出来ないすね。

ただ、インサイトのパフォーマンスグラフはちょっと物足りないですよね。組み合わせ自由度があるようでないようで。まぁそこはデータは取ってあるからあとは煮るなり焼くなりしろってことなんでしょうけど。

 

まあWindowsならではな部分ではありますが、クラウド的な監視だなと感じた次第です。

てことで久々の投稿はこの辺で。