深夜に「はじめてのHadoop」が出版されるとしたら欲しいネタの一覧をなんとなく考えてた。Hadoopクラスタのセットアップを新規にやるのが予定にあるので、それも含めてトピックだけ書き出しておこうかなと思った次第。 「初めてのHadoop」ちょっと考えてたが、例えば最初に考えるべきHDFSのblock sizeとかで、でもそれノード数とMR処理データ量の最大/平均サイズと、データ投入時の圧縮、そういうことをちゃんと考えないと決まらないんだよね、そういうことを書いてる本がないよね、みたいな 2012-05-08 01:13:11 via TweetDeck 設計 HDFS総容量と処理対象のデータ量について ファイルの形式について (TextFile/SequenceFile/RCFile) データの圧縮について ノードあたりのHDD台数、ディスクの選択 CPUおよびメモリの選択 ノード数 H