sidetech

(元)インフラエンジニアの寄り道メモ。

海外拠点の重たい問題の犯人めっけ

いやーもう少し早く初心に帰っておくべきでした。犯人を追いつめました!

Ns5gt001
SNMP取得範囲を広げてエラーパケットやら色々と拾うようにしてみたら、早速痕跡が出てきました。エラーパケットの値が出るという事は・・・?!CRCエラーかコリジョンによるものか。。。アタリ付けとしてはそんな感じでしょう。

Ns5gt002
こちらはTCPリセットのグラフ。これは通信(パケット)が切断されたりすると出てきます。インターネット回線ではTCP再送がボチボチあるので不思議ではないのですが、Discardではないことは明らかです。

じゃ、VPNルーターの内部の値を見てみましょう。海外拠点ではNetscreenというすでに古いルーターを利用していますので、参考程度に。
Ns5gt01
まずはTrustインターフェースの状態は・・・きれいですね。

Ns5gt02
[E:sign02]あああっコリジョンエラーが出てるっ。100Mbpsでインターフェースが反応していたので油断しました。
NetscreenはFullかHarfかを確認するにはCLIで見るしかないです。
Ns5gt03
あちゃー。100M/Harfでネットにつながっていましたよ。。。これは重たい症状出るわけです。ICMPだけでは中々見つけられんです。端末の通信が混んでくれば来るほど著しく悪化するので、現地では何度もVPNルーターの電源を入れなおしていたようです。瞬間的に良くなったような感覚があるのでこの手の不具合は中々現地では分かりずらい。

さて犯人はわかりました。原因はちょっとわかりません。LANケーブルの品質問題か、ONUのそもそもの仕様でAutoMDIが働かないのか。何時からなのかわかりません。

で、NetscreenでDuplexを強制固定はコマンドで実施出来るのですが、もしもLANケーブルの品質問題だったり、それ以外の要因だったりすると、デュプレックスを弄った途端、私の所からアウトオブコントロールになってしまうので、まずはLANケーブルでも交換してもらってみましょうかね。

という事で「見える化」は大事だねっ。
さーて、英語でどうやって説明すっかな~。。。