タグ

compressとhadoopに関するmuddydixonのブックマーク (1)

  • hive.mergeにおけるSTOREと圧縮の問題とワークアラウンド - still deeper

    問題 以下のブログでSTOREをTextFileにしてで圧縮を有効にしていると、hive.merge.(mapfiles|mapredfiles)が無視される問題が報告されています。 Hiveのファイル圧縮とSTOREの種類とマージの関係 Hiveは圧縮されたTextFileをインプットにした場合は、複数ファイルのCombineを行わないようなので、圧縮された細かいファイルはsmall files problemによるパフォーマンスの悪化に繋がります。 また、RCFileでもマージはされるようです。が、実運用で用いているデータで試すとマージされないケースがあったので、下記のワークアラウンドを入れておくのが無難だと思います。 対応方法 ダメな形式の複数のMapper(Reducer)からファイルが出力されると、マージされずにそのまま残ります。 現状のワークアラウンドとしては Reducerを

  • 1