タグ

rcFileに関するyukimori_726のブックマーク (1)

  • TEXTFILE/SEQUENCEFILE/RCFILEのサイズ比較

    的には以下のエントリーを自分なりに再試・咀嚼したものです。 HDFS and Hive storage - comparing file formats and compression methods - Adaltas Hiveテーブルを作成する際、SequenceFileはTextFileに比べてMapReduce時の処理効率は概ね良くなる傾向にありますが、様々なヘッダー情報が付与されるためファイルサイズ的には若干冗長になります。 僕もHiveを触り始めてまだ1ヶ月ちょっとなので色々調べている中、RCFileという、HDFS上でHiveテーブルのように構造化されたデータを扱うのに適したデータ構造がある、という事を知ったので、それぞれ以下3種のデータフォーマットについてデータサイズの比較を行いました。 TEXTFILE SEQUENCEFILE RCFILE ◯前提条件 今回試験に使

    TEXTFILE/SEQUENCEFILE/RCFILEのサイズ比較
  • 1