Twitterでは基本的にファイルはLZO圧縮しているようで, 3,4倍のストレージの節約 分割可能 CPUは少ししか使わない IOバウンドのジョブは3,4倍の性能向上 などのメリットがあると言っています.これは使わない手はないということで試してみました. clouderaのこのブログ記事を参考にして進めます. code.google.com/p/hadoop-gpl-compressionもありますが,Twitterが公開している分割可能なのを使います. http://github.com/kevinweil/hadoop-lzo 今回の環境はclouderaのamiをベースにしました. cloudera-ec2-hadoop-images/cloudera-hadoop-fedora-20090623-x86_64 ami-2359bf4 CDH3で,hadopoのバージョンは