タグ

関連タグで絞り込む (1)

タグの絞り込みを解除

EMRとS3DistCpに関するmark0727のブックマーク (1)

  • S3 上の大量データを EMR するときは S3DistCp を使うと捗る – I'm Sei.

    CloudFront のアクセスログを S3 に出力するように設定していると、日に日に大量のログファイルが溜まっていきます。 中には 1 MB 程度のファイルもあれば、数百 bytes 程度の小さなものもあります。 何にせよ、とにかく大量にあります。 小さいファイルはまとめるCloudFront のログのように小さいファイルが大量にあるようなケースは Hadoop が苦手とするパターンで、そのまま扱うと大抵めちゃんこ時間がかかります。 そういう場合は、S3DistCp という便利ツールを使って S3 上のログファイルをもうすこし大きいサイズに連結して、HDFS にコピーするとパフォーマンスがあがることがあります。 ちなみに、EMR のベストプラクティスによると、Gzip で圧縮されている場合は 1 ~ 2GB、LZO で圧縮されている場合は 2 ~ 4GB が最適なファイルサイズらしいです

    S3 上の大量データを EMR するときは S3DistCp を使うと捗る – I'm Sei.
  • 1