sidetech

インフラエンジニアの寄り道メモ。

PowerConnectという真犯人

「くっそ~」な日々が続きます。

今日の大規模障害が起きる直前に、社内ネットワーク機器でトラブル抱えていました。

それを絞り込んでいる最中の出来事だったんで・・・チョイ混乱しました。

でもやっとたどり着きましたよ。影響範囲を考えて・・・前回の「7分の沈黙 - sidetech」では、Juniper EXが犯人か?と考えていました。

所が、今日は似た障害だったけど、影響範囲が狭く絞り込みやすかった。

が、監視の緩い機器でした・・・(^^;

バッファーログを確認したら・・・

>5395 Notice TRAPMGR Stack Port Link Down: Index: 100 Unit: 1 Tag: xg1

>5403 Error DRIVER RPC - Timeout to CPU:

 

おうぅ・・・スタッキングがダウンかいな・・・。

まぁ運が悪い事に2本のスタックケーブルが両方ともダウン判定だったので、モジュールごと駄目になったぽいですね…

で、1分後には復帰するという・・・。

>5476 Notice TRAPMGR Unit 1 identified a link failure in the stack. xg2

>5477 Notice TRAPMGR Stack Port Link Up: Index: 101 Unit: 1 Tag: xg2

>5478 Notice TRAPMGR Stack Port Link Up: Index: 100 Unit: 1 Tag: xg1

>5479 Notice TRAPMGR Unit 2 is added to the stack

 

スパツリーを使っている環境なもんで暫く混乱しますわね・・・(^^;

この機器自体はスタックが回復後、スパツリ―のフォワードブロッキング調整が走って約5分程度で落ち着いています。

 

この機器が犯人だとたどり着けなかった理由・・・色々と浮かびますが・・・

いあー全部どーしょもない言い訳ですね。

 

てことで暫定処置のままなんで・・・

「明日取りあえず撤去します(汗)」

 

貧乏性がでて使っていただけだったしね…(^^;

しかし、1か月前の予兆にはこいつは見えなかった。。。ちゃんと見える化しとかんとね・・・。