タグ

ブックマーク / qiita.com/h-imaoka (1)

  • AWS Glue で 億超えレコードなテーブルからETLする - Qiita

    この記事はfreee データに関わる人たち Advent Calendar 2019の11日目です。 シンプルにAWS Glueで RDB(MySQLとか)から巨大なテーブルデータを取り出すときの話です。 tl;dr Glueを使ってMySQLなどRDSから億単位のデータを引っこ抜くときは、Glueの並列取り込み機能を使わず、sparkの機能を使おう やりたいこと & 問題 RDB(MySQL)の一つのテーブルが 1億件以上データを持っている そのままGlueで取り込むと遅い -> なんかGlueで並列読み込みする機能があるらしい Glueの並列読み込み機能試したけど、クソ遅い Spark自身の機能を使った -> めちゃ早くできた Glue と Sparkの関係 用語・語弊を生みそうなので、最初に整理 Glue は Managed Sparkと言い換えられます。Sparkを使いやすくしたも

    AWS Glue で 億超えレコードなテーブルからETLする - Qiita
    sh19910711
    sh19910711 2020/01/04
    "RDB(RDS含む)の場合は Glueのウィザードがソレっぽいコードをdyfで自動生成してくれるが、それで対応できるのはせいぜい1000万件レコード以下です。それ以上の場合はdfでsparkの機能でやるとよい"
  • 1