タグ

lambdaとpysparkに関するishideoのブックマーク (1)

  • AmazonAthenaで日時バッチ処理を作成 – TECH4ALL

    Amazon Athenaで日時バッチ処理を作成 はじめに EMR on Sparkで実行していた日時処理(の一部)を、AthenaのCTASで実装し直した記事です。 何故このような対応をしたかというと、単にコスト削減&高速化のためです。 ただ、実行するクエリや処理するデータ量によっては、この対応により逆に高コスト&低速になる場合もあるので、事前に評価を行う必要があります。 この対応でどのようになったか この処理が毎日READ/WRITEするデータのサイズは下記のとおりです。 READデータ:約 80 GB/日 WRITEデータ:約 6 GB/日 この対応により、速度とコストは下記のようになりました。 EMR Athena 計算式については、後述します。 Athenaの速度は、Sparkと同様のクエリでは約24分でしたが、クエリ内の「ORDER BY」を外すと約6分で終了しました。 そのた

  • 1