タグ

tableとhadoopに関するwlbhiroのブックマーク (1)

  • Hiveのファイル圧縮とSTOREの種類とマージの関係

    Hiveの設定項目に「hive.merge.size.per.task」という項目があります。 マージ処理が有効になっている(hive.merge.mapredfiles=true)上で、上述の項目で指定した所定のファイルサイズにHiveの計算結果ファイル(MapReduceの結果ファイル)のサイズが満たない場合、所定のサイズを超えるようにマージ処理が行われます。 用途としては、結果ファイルとしてあまりに細かいファイルが大量に作られHDFSのブロックが有効活用出来ない状況を回避するため、と認識しています。 (できるだけ1ファイルをHDFSのブロックサイズに一致するようなサイズにマージしたい。) もしくは解析時に大量のMapタスクを生成したくない、という目的もあると思います。 ただ、こちらのパラメータはケースによっては有効にならないようです。 ◯有効になるケース 計算結果ファイルを非圧縮にし

  • 1