タグ

ブックマーク / qiita.com/zumax (2)

  • Amazon EMRを整理してみた - Qiita

    背景・目的 Amazon ERMは使用したことありますが、どのような機能があるか仕様など細かいところを把握してないため整理します。 まとめ 以下の特徴があります。 ビッグデータアプリケーション、PBスケールのデータ分析をオンプレの半分以下のコストで高速に実行できます。 カスタマイズされたEC2クラスタ、EKS、Outposts、EMR Serverlessで実行するオプションを備えた、最新のOSSフレームワークを使用してアプリケーションを構築する。 パフォーマンスが最適化されたOSSのAPI五感バージョンでSpark、Hive、Prestoを使用してインサイトを導き出すまでかかる時間を最大2倍高速 EMR NotebooksとEMR Studioの使い慣れたOSSを使用してアプリケーションを簡単に開發、視覚化、デバッグできる。 下記のユースケースで利用できます。 ビッグデータ分析 スケーラ

    Amazon EMRを整理してみた - Qiita
  • 【Glue】約9万件のパーティションを作る時間を計測してみた - Qiita

    背景・目的 以前、こちらの記事でAthenaのパーティションインデックスの効果を検証した際に、パーティションをMSCK REPAIR TABLEで作成しました。 MSCK REPAIR TABLEの場合には、6時間9分46秒もの時間を要したので、Glue Crawlerで作った場合にはどれくらいの時間がかかるか検証したいと思います。 まとめ 9万弱のパーティションを作成するのに、MSCK REPAIR TABLEとGlueのCrawlerでおおよそ、5時間44分46秒(93.23%の削減率)もの差がありました。 Glue Crawlerが圧倒的に速かったです。 Glue Crawlerがどのようなアルゴリズムで実行されているのかは不明だが、プロダクション等で利用する場合はCrawlerを選択したほうが良いと思います。 実践 事前準備 前回同様の条件で実施するため、事前に確認します。 S3パ

    【Glue】約9万件のパーティションを作る時間を計測してみた - Qiita
  • 1