sidetech

インフラエンジニアの寄り道メモ。

7分の沈黙

解決していない障害というか・・・ついさっき同一障害が発生したにも関わらず、もうブログを書いている私は一体(汗)・・・実は2週間前に7分間程、特定のEX3300がスイッチの仕事をしなくなる不具合に悩まされていた。

EX3300の安定度でいうと稼働時間は1250日。それまでこんな不具合感じたことなかった。

2週間前。

f:id:hunter1014:20170819160926p:plain

14:58分頃にこのグラフはEX2200のものだが、EX3300だと思われる通信断が発生。7分後に何事もなく生還した。ただ、ログには不可解なログを吐きだすようになっていた。

原因がイマイチわからないまま日は過ぎて・・・すっかり安定したなぁと思っていた矢先、ゴーストがまた現れた。

f:id:hunter1014:20170819161142p:plain

また同じ14:58分頃。さらには土曜日。

今回は多少の余波があり、ルーターのPPPoEの再認証に失敗していただけだったが…。

ただ、今回は対象と思っていたEX3300のCPUからMEM,トラフィックに至るまで、大きな変動がなく、グラフだけでは何が起きたのかがわからない。ログをみてもたいして情報がない。。。うーん困ったぞ。

他のスイッチはどの様な影響があったのか調べてみるか・・・と、2週間前は調べていなかったEX2200(グラフのもの)を見てみた。

「あれ、CPU負荷が下がってる。」

障害の対象と思っていたEX3300のCPUは、多少の上昇はあったものの、数日後に安定をみせてしまい、更には他のEX3300もVLAN系で影響があったかみてみようと見てみたが、影響はそのダウンした時間帯だけ・・・。

で、今回は障害対象のEX3300の近くに接続されているEX2200を覗き込んだわけだが・・・。

「ちょっとまて、このEX2200のCPUが今まで高すぎるじゃないか。」

すかさず、過去1カ月をみてみる。

f:id:hunter1014:20170819162006p:plain

「げ、なんじゃこりゃ。一体何があった日だ?!」

あわてて、私のスケジュールを確認すると・・・私自身の作業はなく、その日はRTV700の内線不具合の報告がある程度だった。

f:id:hunter1014:20170819162500p:plain

妙な波形だ・・・。だけどこの時に気が付いていれば、何か手を打てたかもしれない?

しかしこのEX2200は、内部検証環境向けに用意したスイッチだったので、監視設定をゆるーくしかやっていなかった。

私は、道具を持っているにも関わらず、手抜きによって道具を活かしきれない行為をしてしまった・・・orz。

それは何かというと「ベースライン検知」というSystemAnswerG2の機能で、

f:id:hunter1014:20170819162946p:plain

大凡の曖昧範囲を備えた予兆検知の仕組みの一つ。上記グラフはベースラインで見た時のもの。ピンク?紫の線のベースラインから上下しきい値があり、緑の線が実際のCPUの値だ。明らかに検知出来ている。

しかし、今回の7分間の沈黙をしたEX3300との因果関係は一体何なんだろう・・・。

f:id:hunter1014:20170819163345p:plain

そして、無常にも16時前に、本来のCPU負荷まで落ちついてしまった。

やはり、煽りを受けていただけで、こいつが犯人じゃないのか?

ここで。もう一つの疑問としては、事の事件が起きたのは、今日と2週間前。

しかしこのEX2200は、事が起きる約2週間前から異変が起きている。

なので、8月5日の沈黙の7分を調べるより前に7月24日の周辺を調べないと駄目って事か。それとも14:58に何かあるのか。

正直な所、スイッチ達はあんまりログに重要なメッセージを吐いてくれないのがいつも頭が痛い。色々なケースを経験して傾向を知るしかないスイッチばかりで。

そして、メーカーに解析依頼をだしてもEOLファームウェアだとこれが見てもらえなかったりするんでもっと頭痛い(^^;

とりあえず、ベースライン監視設定の見直しからかな・・・(汗)。

Junos設定&管理 完全Bible

Junos設定&管理 完全Bible

 

この本を読まずに野良勉強でJuniper触ってきたけど、ちょっと読んでみるかな(^^;