タグ

関連タグで絞り込む (0)

  • 関連タグはありません

タグの絞り込みを解除

hdfsに関するumitanukiのブックマーク (2)

  • Hiveのファイル圧縮とSTOREの種類とマージの関係

    Hiveの設定項目に「hive.merge.size.per.task」という項目があります。 マージ処理が有効になっている(hive.merge.mapredfiles=true)上で、上述の項目で指定した所定のファイルサイズにHiveの計算結果ファイル(MapReduceの結果ファイル)のサイズが満たない場合、所定のサイズを超えるようにマージ処理が行われます。 用途としては、結果ファイルとしてあまりに細かいファイルが大量に作られHDFSのブロックが有効活用出来ない状況を回避するため、と認識しています。 (できるだけ1ファイルをHDFSのブロックサイズに一致するようなサイズにマージしたい。) もしくは解析時に大量のMapタスクを生成したくない、という目的もあると思います。 ただ、こちらのパラメータはケースによっては有効にならないようです。 ◯有効になるケース 計算結果ファイルを非圧縮にし

  • Cloudera Blog

    Enterprise IT leaders across industries are tasked with preparing their organizations for the technologies of the future – which is no simple task. With the use of AI exploding, Cloudera, in partnership with Researchscape, surveyed 600 IT leaders who work at companies with over 1,000 employees in the U.S., EMEA and APAC regions. The survey, […] Read blog post

    Cloudera Blog
  • 1