sidetech

(元)インフラエンジニアの寄り道メモ。

PrometheusでBlackbox expoterを使ってノード遅延をGrafanaで感じよく?

Grafanaが出てきた時点である程度想像がついたと思いますが、今回はPrometheusを使って監視環境を作っていきます。

まぁ、PrometheusやGrafanaは、特段私があれこれ言うよりも先人の方々のブログのほうが面白いかもです。何故なら今回は愚痴ぽい内容だからです(^^;

f:id:hunter1014:20190921004456p:plain

とりあえずの完成形を載せますが・・・まだチューニングしきれていないというか、気持ち悪くて納得していないというか・・・。

今回はヨーロッパ各サイトをAzure西ヨーロッパリージョンから監視していくよという内容です。

Azure西ヨーロッパにサーバーをこしらえているので、そこからの遅延を見てみたく、Azure上にWindows Serverインスタンスを起こして、PrometheusとBlackbox Expoterを仕掛けて、そのデータをGrafanaで見るという流れです。

しかし・・・Windows Serverでやってしまったからかな・・・?!

 

なーんか変。

 

オランダ向けと、ドイツ向けのICMPの遅延の値がどーにもしっくりと一致しないのです。それ以外のサイトはなんだかんだで許容範囲内にあるかなぁ・・・という感じです。

ドイツ向けも本来は17ms付近なはずなんですが、2msってなんなんでしょ。

あと、Blackbox_expoterでプローブの取得値をどうとるのかがよくわからず、

f:id:hunter1014:20190921011002p:plain

こんな感じで取り出ししていますが、

f:id:hunter1014:20190921011044p:plain

これも近似値でとれるんですよ。うーん、どっちが正解なんでしょう?

 

でも、どっちで取っても、異常値は異常値なんですよ・・・orz

 

Sclapeのタイミングを5s,10s,15s,20sとやってみたけど、特段大きく変わらず。
あ、でも15s以降のほうがロスト率は下がるかな?

いっそのことN/Aだったり0msとか割り切れればいいんだけど、中途半端に応答してきているんです。これがICMPの厄介な所なんでしょうか…。

結局、ICMP部分で使えるのはステータス情報だけかな・・・?(^^;

やっぱりインターネット越えなんでSmokePingが恋しくなりますね。

 

何処かのPrometheus使いの会社さんが、SmokePingは移行しきれていないようだったので、もしかしたら・・・このBlackboxの挙動に悩まされたからなのかな?

うーん、でもまだLinux系で試していないので、Windowsでの作法がよくないだけかもしれない?

 

ダッシュボード集にあるpingなちゃらとかを色々眺めてみましたが、式がよくわからんのも多く、とにかく何やるにしても苦労しますね・・・。なんでこれ流行っているんだろう(?-?;

 

監視も分析も同時にできればいいのになぁと思いながらも試行錯誤をしていますが、

監視をする画面と分析する画面は別々の方がいいかな?

まだGrafanaのプラグインに手を出していない事もあり、まだ未知な部分ばかりですが、とにかく時間食いまくるなぁ・・・。

ちゃんと教本を読まないとだけかな?(^^;

 

追記>やり方変えたっす!

(直リンクやGoogleでここにいきなり来た方は以下のリンクをどうぞ)

blog.sidetech.jp