sidetech

インフラエンジニアの寄り道メモ。

失敗は成功の何なのか。

f:id:hunter1014:20170902230431j:plain

ああ・・・海外行きたい・・・。あれこれ仕事やるんじゃなくて目的の仕事だけやりたい・・・な。海外じゃなくてもいいんだけど・・・。

あっしはですね、海外出張での国際便に乗るときは基本的に通路側に座るので、窓からの写真は結構貴重だったりしますw

今日はブログ投稿用のネタが完成もせず、想定外におわったのでボヤキです。

 

何か構築しようと思ったときに私が扱う製品はマニュアルがあったり参考書があったり、ググって世の中の先陣の先輩方のブログを参考にして構築したりするのですが、ちょっと手順を間違えて手戻りっていうのもあるんですよね。

モノによってはその手戻りが全くできないので初期化を覚悟せねばならないとかあるのですが、まぁ当たり前ですが、手戻りのマニュアルなんてないんですよね。

先日アップしたHA関連もじゃぁHAを解除したらどうなるの?ってのはマニュアルにはあまり詳しく書かれていないし、ナレッジも探すのが大変。

Fortigateの記事では、ホスト名を変更しておくのを忘れていつもの方法でホスト名を変更する事ができなくてそりゃ大変。(^^;

なんだかんだでCLIが大事なファイアウォールではHAをGUIで外すとどうなるかの挙動を知らないと・・・結構大変す(^^;

後々考えると、あぁそーいう挙動と結果を考えていたからこーいうアプローチになるのね・・・と思うのはやってしまった後のことだったり(涙)。

 

FortigateでHAを外す場合は、基本的に外された側はConfigがマッサラになってしまうことがわかりました。外すときに「どのインターフェースになんのIPにする?」みたいな表示が出るのですが、これが意味わからんくて・・・。

結局”ファクトリーリセット”しました(^^;

あと、HAクラスター化すると、MGMTポートどうするんだっけ?っていうのが出てくるんですが、クラスターを組む際に同期をさせない非同期ポートを指定できるまではよかったんですが・・・これも一筋縄でいかないことがやってみて分かりました・・・。

FortigateでさらにファームウェアのアップグレードしながらHAの挙動を動画に取ったんですが・・・TAKE1は何故か切り替わっているはずなのにWANの通信が途絶えてしまい・・・WAN側につかっていたしょぼいHUBが怪しかった事が判明。オンラインアップグレード動画を撮っているのに切り替わらずにオフラインになるという不始末(涙)。TAKE2をやるのにまずどうやってダウングレードするんだっけから始まって・・・ありゃメンドクサイじゃないって思って別のFortigateでTAKE2(^^;

おもったよりも切り替わりにダウンタイムが出たんで、ちゃんと後で記事にしますね。

アップグレードで非対応になったコマンドとかも出てくるからCLI眺めているとワーニングやエラーが表示されるたびにドキドキするよね。

 

じゃ、めげずにSRXのアップグレードも動画撮ろうって始めたら、案の定・・・予定した挙動にならず、慌てて追加手順を突っ込んだけどオンラインアップグレードになってなくて、これまた納得いかずダウングレード。

しかしダウングレードが上手くいかないのがでてきて、できたと思ったらHAが安定しない・・・(^^;なんか上手くいかないからバージョンアップダウングレードを実施し、とりあえず安定したんで別のステップを始めましたが、マニュアルも見ないでファームウェアアップグレードの(手順)失敗したのはSRXが初めてかも・・・。

Paloaltoがまず苦労しないんだよね(^^;そして、今までの経験でHAした機器はファームウェアをアップロードするとpassive側の機器に勝手にファームウェアを複製してpassive側からアップグレードが始まるので、SRXはとにかく想定外だった。たぶん、リブートのチェックを入れちゃいけなかったんだな( ^ω^)・・・。

悪あがきしているときには見たこともないエラーも見るし、想定外だから色々なコマンド覚えるね(笑)

まぁSRXのjunosエンジニアが思っていた操作をしていなかったのは間違いない。

 

今は検証構築をしているので本番環境ではないけど、本番の環境を想定して組んで、実際に障害が起きた場合(インフラの場合はハード故障の再現とリンクダウン挙動判定などなど)を試して想定挙動を考えるんだけど、今回もう一つ取り組んでいるのが、別筐体でHAメンバー入りさせる方法をトレーニングしています(^^;

 

まぁ自分でやっててわかるけど、色々なお客さんの環境にあわせて、リカバリーマニュアルを作って、それを現場で打ち込む人たちがいるという保守社会・・・すごいね。

私は残念ながら、今日本番環境だったら、3回はインターネットへの通信を何分間か途絶えさせました(^^;

もっと反復して覚えたいけど、とにかく最近の機械って起動に時間かかりすぎちゃう?(^^;大したことやっていないのにあっという間に時間がすぎていくねんけど(涙)

 

さて、私にとってはどうでもいいんですが・・・この検証作業は仕事?それとも勉強?

働き方改革がどーのこーの世間では言っていますが・・・

「悪いっすが、今日8時間やって前進に費やした時間は約1時間程度ですw」

 前進とは所定の作法によって終わる作業に費やした時間。

あとの時間は、失敗や不具合や想定外の対応時間。。。とそれらを理解する時間w

 

「あ”~検証時間が足りないっ」

ておもう今日です(^^;