Yahoo! is one of the most-visited web sites in the world. It runs one of the largest private cloud infrastructures, one that operates on petabytes of data every day. Being able to store and manage that data well is essential to the efficient functioning of Yahoo!`s Hadoop clusters. A key component that enables this efficient operation is data compression. With regard to compression algorithms, the
圧縮レベル2と3では、bzip2よりずっと短い所要時間で高い圧縮率が得られています。興味深いのはレベル4で、所要時間が大きく増えたのに圧縮率が下がっています。xzはレベル4からLZ法の一致文字列を探すアルゴリズムが変わるので、これが裏目に出ているようです。 bzip2より2割以上高い圧縮率が得られるレベル7以上では、所要時間は5倍以上になります。ログファイルの圧縮方式が混ざるのは何かと面倒なので、5倍の所要時間でこの程度の圧縮率の差ではxzに変更する気にはなれないです。 圧縮率はそうでもないですが、xzの伸張速度の速さはとても魅力的です。デフォルトの圧縮率のファイルを伸張するのに、bzip2が1分22秒かかるのに対してxzは25秒しか掛かりません。ログを集計するときに伸張速度が3倍近く速いのはとても有利です。 もし圧縮方法を決め直せるならxzにするかもしれません。適宜レベルを調節してbzi
下記の表は gzip の標準状態を 1 とした相対的な数値を示しています。 Software 欄の -1 や -9 は、コマンドに指定できる圧縮率です。 -1 が最低、 -9 が最高になっているコマンドが多いです。 並列に実行できるものに関してはすべて 8 スレッドで実行しています。 ベンチマーク結果 time real 実際の経過時間 time user CPU user 時間 compression ratio 圧縮率の比。大きいほどファイルが大きい。 compression ratio (single/parallel) 並列版について、シングルスレッドに対する圧縮率の比 parallel overhead シングルスレッド版と比較した CPU user時間の比
Selected archives I have selected: Source of the kernel to test source compression Stream protocol with flush Test conditions Tests were run on a desktop: Intel Core i5 CPU 750 at 2.67GHz 8GB of DDR3 memory tmpfs as ram disk is used Linux kernel 3.3.2, gentoo amd64 CFLAGS: -pipe -O2 -g -floop-block -floop-interchange -fgraphite bzip2-1.0.6-r3, xz-utils-5.0.3, gzip-1.4 Only normal mode will be test