タグ

Compressionとhiveに関するyassのブックマーク (2)

  • ORCFile in HDP 2: Better Compression, Better Performance - Cloudera Blog

    ORCFile in HDP 2: Better Compression, Better Performance The upcoming Hive 0.12 is set to bring some great new advancements in the storage layer in the forms of higher compression and better query performance. Higher Compression ORCFile was introduced in Hive 0.11 and offered excellent compression, delivered through a number of techniques including run-length encoding, dictionary encoding for stri

    ORCFile in HDP 2: Better Compression, Better Performance - Cloudera Blog
    yass
    yass 2013/09/23
    " ORCFile was introduced in Hive 0.11 and offered excellent compression, delivered through a number of techniques including run-length encoding, dictionary encoding for strings and bitmap encoding. "
  • Hiveのファイル圧縮とSTOREの種類とマージの関係

    Hiveの設定項目に「hive.merge.size.per.task」という項目があります。 マージ処理が有効になっている(hive.merge.mapredfiles=true)上で、上述の項目で指定した所定のファイルサイズにHiveの計算結果ファイル(MapReduceの結果ファイル)のサイズが満たない場合、所定のサイズを超えるようにマージ処理が行われます。 用途としては、結果ファイルとしてあまりに細かいファイルが大量に作られHDFSのブロックが有効活用出来ない状況を回避するため、と認識しています。 (できるだけ1ファイルをHDFSのブロックサイズに一致するようなサイズにマージしたい。) もしくは解析時に大量のMapタスクを生成したくない、という目的もあると思います。 ただ、こちらのパラメータはケースによっては有効にならないようです。 ◯有効になるケース 計算結果ファイルを非圧縮にし

  • 1