sidetech

インフラエンジニアの寄り道メモ。

まだ不具合は潜んでいる?!

えーと、記事日付は前後していますが、12月は構築フィーバーでして、18日~21日は、コアスイッチの入れ替えから色々なエリアへのL2スイッチ化、TAG-VLAN化をしてきました。

元々は、時折起こるネットワークの不具合で、対応に1時間とか掛かり、障害の内容によっては全てのネットワークがダウンしてしまうとのこと。一つのセグメントにかなり頼っていた構成だったのと、障害発生時の痕跡と言うかログというのが殆ど拾いきれない環境だったので、ある程度分析しやすく、障害範囲を限定出来るようにしてあげようと、少しVLAN化した環境にしてあげました。

が、やはり魔物はどこかに潜んだままだったようです。
Sag2001

これはコアスイッチとなっているEX2200のルーティングエンジンをしているCPUの値です。CPUが時折ハンチングしてしまっています。ただ、この状態で特に誰からもネットワークがおかしいという連絡は無し。

しかし、この魔物は間違いなくL3となっているコアスイッチに影響を与えてきました。監視項目の範囲を広げることにしましょう。

それともう一つ、悩ましい問題が。
ちょっと予算都合で、L2スイッチで安いタグVLANを理解できるスイッチを一部使っているのですが、何故かGUICLIの管理画面のレスポンスが著しく良くありません。SNMPタイムアウトしてしまいます。
完全に安価なスイッチを利用した私が悪いのでございますが、なんとかしなければなりません。とりあえず取り出せる値を見てみると、Discard packetの値がちょっと大きすぎることに気が付きました。
Sag2002

日頃あんまり気にする事はなかったんですが、どうやらこの処理の負荷が一つ悪さをしているように思えます。コアスイッチ側から、このL2スイッチへはVLANをTRUNK ALLで全てのVLANを通す設定にして、アクセスポートで利用するVLANだけ取り出す様にしていたのですが、本来このL2スイッチでは不要なVLANもTRUNKで飛ばしていたので、どうやらそれらがDiscardしているようです。

コアスイッチ側とL2スイッチの間で利用するVLANだけに絞った結果が、ついさっきの値です。ほぼ0になりました。多分MACアドレステーブルにも不要なアドレスが飛び込んで着まくるので悲鳴を上げたんでしょう。
L2スイッチの管理画面へのアクセスも出来るようになりました[E:coldsweats01]

まぁ不要なVLAN情報を流さなければそれだけ的は絞れるってことで。
Discard Packetの値の動きはわかったので、別の値に注視する事にしてみましょう。

でも、明らかに怪しいエリアはわかってきました。
もう少しだけ戦いを続けます[E:smile]