Hadoopのワードカウントの例だとテキスト形式の入力ファイルが出てきますが、 Hadoopではそれ以外にもバイナリ形式のKey-Valueレコードを保存するためのフォーマットとしてSequenceFileというのがあります。 Hadoopは容量が少ないファイルを大量に扱うのは苦手です(ネームノードのメモリを圧迫する)。 なので容量が少ないファイルを1つのファイルにまとめると効率的になりますが、SequenceFileはその用途に使えます。また圧縮も使えます。 SequenceFileに関しては象本の4章に詳しく書かれていますが、ここで簡単に紹介したいと思います。まあ自分自身の備忘録ですね。 ファイルフォーマットはこんな感じです。 ヘッダー レコード レコード 同期 レコード レコード レコード 同期 レコード ところどころに同期マーカーがありますが、これによって1つのファイルを複数のスプ