sidetech

(元)インフラエンジニアの寄り道メモ。

脅威の圧縮と重複排除

あけおめことよろの2016年。1発目の記事です。

借りていてほったらかしになっていたPURESTORAGEですが、やっとこ少し試すことが出来ました。

残念ながら、理想環境でのテスト環境が(色々と時間が無くて)用意出来ず、オールフラッシュSSDとしてのパフォーマンスを見ることは出来ませんでしたが、そこは別途挑戦する機会を頂けることを願って、今回は私としての最低限の宿題をする事に専念。

テーマとしては

『どんなデータでも圧縮・重複排除が効くのかどうか』

と言った所で、例えば普通に考えればファイルの圧縮だったらZIPとかそういったものを連想すると思います。なので、画像とか元々圧縮が掛かっているファイルはどうなるのかな?とかね。

・・・[E:think]

ごめんなさい。そんな低次元な圧縮方式じゃなかったぽい[E:coldsweats01]

Purestorage06

な・・・なんだって[E:sign02] トータルの圧縮比が1/5.6ってどゆことだ?!

あかん、やみくもにノーツのデータを放り込んでしまったが、真面目に見てみよう。

言うのを忘れていました。今回の圧縮・重複排除で知りたかったファイルは『*.nsf』というロータスノーツに使われているファイルです。そもそもが独自圧縮ファイルなので、圧縮掛かるのかなぁ?!なんて思っていたんですが・・・想定外だぞ。。。[E:coldsweats02]

ちゃ・・・ちゃんとわかりやすくやろう。

Purestorage13
取りあえず、大き目なファイルを6つ。目隠ししているけど全てのファイル容量が違うので、別のファイルだと判りますね。この状態でPURESTORAGEをみてみると・・・?!

Purestorage12

[E:coldsweats02][E:sign03] なに、7.8to1って・・・。1/8ってことですか?!そして使用容量が、2.15GB[E:sign02]
Windowsからみたら間違いなく15.8GB消費したはずなのに・・・。

ま・・・まぁここまでは・・・ソ・・・想定内・・・さ・・・[E:coldsweats02][E:sweat02] 想定内[E:sign02] いや想定にはなかった[E:sweat01]

ほぉぉぉぉ・・・(リソース容量計算どうやって今後やればいいんだ・・・[E:sweat02])。

まぁ、あと一つ残っている・・・重複排除がどうなのかだ。
実際にVDIで評判が良いという話を聞いているので、まぁ間違いないとは思うが・・・自分の目で確かめるまでは騙されないぞっ[E:weep]

Purestorage15

まず、先ほど使ったファイルを別フォルダを作ってコピーだ。Windows的にはこれで31.6GB消費した事になる。

 Purestorage14

[E:shock]マジか・・・。0.27GBの増加で済んでいる・・・。お蔭で圧縮重複排除率が7.8to1から12.2to1になっちまった・・・。これってSSDじゃなきゃパフォーマンス出ないだろうな・・・[E:coldsweats01]

ただ、最初の5.6to1で考えると、ファイルの数や容量や条件によっては苦しくなるようだが、それでもスゴイワ・・・。

取りあえず落ち着こう。[E:coldsweats02]

つまり・・・例えば余裕を見て4to1ぐらいの割合で考えた時、100TBのストレージが欲しかったら、25TBのオールフラッシュSSDで事が足りるって言う事か。

ただ、PURESTORAGEの場合、容量の使用率とSSDキャッシュを考慮しなければならないので、実際には上記のような計算ではダメだけど、重複排除が活かせるような環境ではかなりオーバーコミットが出来る計算となるので、重複だらけのようなVDIだったら、15TBから20TBぐらいでも行けちゃうかもしれないってことだよね。[E:sweat01]

ま、仮に足りなくてもホットアドでSSDを足したり、筐体をスケールアウトで足せば良いだけだしね・・・。

詳しい話はまたの機会にしますが、PURESTORAGEはRAIDで動いていない独自のSSD冗長なんだよね。彼らはRAID-3Dと言っているようだけど。
簡単にいうと、RAIDは従来のHDDでのテクノロジなのに、SSDにもそれをやっちまうとSSDはかなりシンドイばかりか本来の効率が出ない。

受け売りの様な感じになっちゃったけど、そー言われれば納得できる。これは営業さんのセールストークでも聞ける話なんで、興味があればPURESTORAGEの営業さんにめっちゃ色々とツッコミをいれると良いと思う。

SSDのNAND型での弱点を補う部分でもあるので、SSDに不信感のある方はここがポイントになると思う。んでもって、今回の高圧縮と重複排除の効果が更にSSDに対してのデッドラインを延命するキーにもなっていると思う。

いやーやっぱり自分で評価すると楽しいなぁ~。

今年は暫くクラウド方面のお仕事が多くなりそうなんだけど、コスパ計算今後も大変だ[E:sad]