基本的には以下のエントリーを自分なりに再試・咀嚼したものです。 HDFS and Hive storage - comparing file formats and compression methods - Adaltas Hiveテーブルを作成する際、SequenceFileはTextFileに比べてMapReduce時の処理効率は概ね良くなる傾向にありますが、様々なヘッダー情報が付与されるためファイルサイズ的には若干冗長になります。 僕もHiveを触り始めてまだ1ヶ月ちょっとなので色々調べている中、RCFileという、HDFS上でHiveテーブルのように構造化されたデータを扱うのに適したデータ構造がある、という事を知ったので、それぞれ以下3種のデータフォーマットについてデータサイズの比較を行いました。 TEXTFILE SEQUENCEFILE RCFILE ◯前提条件 今回試験に使
![TEXTFILE/SEQUENCEFILE/RCFILEのサイズ比較](https://cdn-ak-scissors.b.st-hatena.com/image/square/bc046a9cbb7c70b4c6d22e73032bff6e19e4e3af/height=288;version=1;width=512/https%3A%2F%2Fblogger.googleusercontent.com%2Fimg%2Fb%2FR29vZ2xl%2FAVvXsEguhDpmoTt5psmBuyCRqIAixAALY1YGR_-rgFRvRErToykQBNFRNEuvVTQuGZAvqvwCBM5AMRcRj1Q0BrpTAfiFK3T-RcIZaW0cxYxHx93s5PINDp_bF5lYtBX9Yd9B_dqG9U0OD1h08l0%2Fw1200-h630-p-k-no-nu%2F20120815hive_store.001.png)