タグ

ParquetとSEQUENCEFILEに関するwlbhiroのブックマーク (2)

  • 独断と偏見で選ぶHDFSのファイル形式 - サナギわさわさ.json

    HDFSのファイル形式を何にすべきか、というのはRPGの主人公の名前を何にすべきか、と同じぐらい皆さん悩まれるかと思います。 ご多分に漏れず僕も悩みましたので、調べた事をまとめておきます。 なお先に結論だけ言っておきますと、大体のケースではORCをZlib圧縮して使っておけば良いんじゃないかなと考えています。マサカリは歓迎です。 ※201701/21追記 EMR5.0以降ではHive + ORCで遅くなるケースがあるとのアドバイスをAWSのサポートの方から伺いました。EMRを使っている方はParquetとの速度比較をしてみたほうが良いかもしれません。 ファイル形式の候補 ファイル形式の候補としては大体以下が挙げられます。 ORC Apache Parquet Apache Avro SequenceFile TextFile 各形式の特徴 それぞれのファイル形式の詳細な説明はここではせず、

    独断と偏見で選ぶHDFSのファイル形式 - サナギわさわさ.json
  • Hiveのパフォーマンスチューニングで試した7つのこと - Qiita

    Spark, SQL on Hadoop etc. Advent Calendar 2014 - Qiita 10日目の記事です。 とあるプロジェクトにて、パフォーマンスチューニングのために実施した7つのことをまとめました。 この内容はCloudera World Tokyo 2014でお話しさせていただいた内容を再編したものです。 登壇資料 - Hadoopで作る広告分析プラットフォーム 登壇の様子 - 国内最大級のHadoop関連カンファレンスに登壇してきました! 1.YARNが利用可能なリソースの変更 YARNではMR1と異なりスロットではなくコンテナという概念でリソースが管理されます。 以下のパラメータでノードマネージャがコンテナに利用可能なメモリ量、CPU数を変更しました。 yarn.nodemanager.resource.memory-mb yarn.nodemanager.

    Hiveのパフォーマンスチューニングで試した7つのこと - Qiita
  • 1