sidetech

(元)インフラエンジニアの寄り道メモ。

GWは平和でしたがオーバーヒートアラートが・・・

完全に休み過ぎです。8連休とってみましたが、おかげで仕事モードに戻りません。頭が仕事をしたがらない(苦笑

ま、そんな平和な日々を送れたのも監視に任せているというか。んでも全く監視アラートが無かった訳ではありません。クリティカルではなかっただけです。[E:gawk]

急に日差しも厳しくなったりしましたが、雨もあんまり降っていないので、お休みとしては最高でしたね。でも僕は「塗装剥がし・塗装・防水照明器具交換」というDIYやってました。[E:coldsweats01]
暇な時間を見つけたらIngress散歩で日焼けするという。

で、こう日差しがきつくなって気温が上がってくると、僕らインフラ屋でDC関係者じゃない人達は、ネットワーク機器温度が気になってくる頃なんすね。

ネットワーク機器の設置環境が多種多様な環境ですと、必ず出てくるのが温度問題。
Temp_rtx1200
これは某拠点のRTX1200の内部温度データです。外気温度を視ている訳ではないのですが、外気温の変動によって、機器の内部温度も影響したりします。

・ラック内に収納されているのかどうか(ラックのない拠点も・・・)
・ラックにファンはついている?ファンは生きてる?
・ラック内の収容状況
・執務室内のエアコンのON/OFFでの影響変化
・ラックの場所またはネットワーク機器の設置場所の日照の有無

ある程度の基本構成で機器の収容を行っていますが、現地を視た事のない環境や、色々と追加で弄られてしまっている環境や、執務室レイアウト変更で移動など、条件がコロコロと変わる場合もございます。

なので去年は大丈夫だったのに今年になって「あれれ?」という事も。

RTX1200の仕様では「外気温度0~40度」という仕様なので、TEMPの値が40度までじゃなきゃいけないと言うわけではないのですが、過去にRTX1100を燃やしてしまった時の内部温度が65度あたりを繰り返した後イカレはじめたので、現在監視では55度でINFOを出すようにしています。
グラフを見るとなだらかに温度上昇しているのが判りますね。このままだと夏場にRTX1200を壊しかねないので今のうちに対策打っておきましょう[E:delicious]

ネットワーク機器で温度センサーを搭載している機器は結構限られてしまったりするのですが、高熱化によってCPUが逝かれる事もありますので、監視対象としたいですね。

RTX1100を燃やしてしまった時は監視していたのですが、温度のしきい値を設定していなかったんですね。オーバーヒートの適正を判断するのはちょっと難しいですが、同じ過ちはしないようにしましょ。

ちなみにお手製温度センサーで、室外機空間を計測しているセンサーがいるのですが、直日光にあたりながらも頑張って計測してます。
Tempmcout
室外機の熱風に直日光の当たるセンサーですが、グラフは綺麗な波形出てますね。環境の悪い室外機エリアなので要観察です[E:bearing]