sh19910711のブックマーク - はてなブックマーク

sh19910711 id:sh19910711

ブックマーク / qiita.com/h-imaoka (1)

AWS Glue で億超えレコードなテーブルからETLする - Qiita
この記事はfreee データに関わる人たち Advent Calendar 2019の11日目です。シンプルにAWS Glueで RDB(MySQLとか)から巨大なテーブルデータを取り出すときの話です。 tl;dr Glueを使ってMySQLなどRDSから億単位のデータを引っこ抜くときは、Glueの並列取り込み機能を使わず、sparkの機能を使おうやりたいこと & 問題 RDB(MySQL)の一つのテーブルが 1億件以上データを持っているそのままGlueで取り込むと遅い -> なんかGlueで並列読み込みする機能があるらしい Glueの並列読み込み機能試したけど、クソ遅い Spark自身の機能を使った -> めちゃ早くできた Glue と Sparkの関係用語・語弊を生みそうなので、最初に整理 Glue は Managed Sparkと言い換えられます。Sparkを使いやすくしたも
sh19910711 2020/01/04
"RDB(RDS含む)の場合は Glueのウィザードがソレっぽいコードをdyfで自動生成してくれるが、それで対応できるのはせいぜい1000万件レコード以下です。それ以上の場合はdfでsparkの機能でやるとよい"

*data

aws

bigdata
リンク
1

お知らせ

もっと読む

公式Twitter

@HatenaBookmark
リリース、障害情報などのサービスのお知らせ
@hatebu
最新の人気エントリーの配信

キーボードショートカット一覧

j次のブックマーク

k前のブックマーク

lあとで読む

eコメント一覧を開く

oページを開く

設定を変更しましたx