AWS Glue で億超えレコードなテーブルからETLする - Qiita

テクノロジーカテゴリーの変更を依頼記事元:

qiita.com/h-imaoka

2 usersがブックマークコメント

コメント

0

記事へのコメント0件

注目コメント
新着コメント

sh19910711 "RDB(RDS含む)の場合は Glueのウィザードがソレっぽいコードをdyfで自動生成してくれるが、それで対応できるのはせいぜい1000万件レコード以下です。それ以上の場合はdfでsparkの機能でやるとよい"

2020/01/04 リンク

注目コメント算出アルゴリズムの一部にLINEヤフー株式会社の「建設的コメント順位付けモデルAPI」を使用しています

規約違反を報告

アプリのスクリーンショット

いまの話題をアプリでチェック！

バナー広告なし
ミュート機能あり
ダークモード搭載

アプリをダウンロード

関連記事

AWS Glue で億超えレコードなテーブルからETLする - Qiita

この記事はfreee データに関わる人たち Advent Calendar 2019の11日目です。シンプルにAWS Glueで RDB(... この記事はfreee データに関わる人たち Advent Calendar 2019の11日目です。シンプルにAWS Glueで RDB(MySQLとか)から巨大なテーブルデータを取り出すときの話です。 tl;dr Glueを使ってMySQLなどRDSから億単位のデータを引っこ抜くときは、Glueの並列取り込み機能を使わず、sparkの機能を使おうやりたいこと & 問題 RDB(MySQL)の一つのテーブルが 1億件以上データを持っているそのままGlueで取り込むと遅い -> なんかGlueで並列読み込みする機能があるらしい Glueの並列読み込み機能試したけど、クソ遅い Spark自身の機能を使った -> めちゃ早くできた Glue と Sparkの関係用語・語弊を生みそうなので、最初に整理 Glue は Managed Sparkと言い換えられます。Sparkを使いやすくしたも

ブックマークしたユーザー

knj29182023/01/21
sh199107112020/01/04

同じサイトの新着

同じサイトの新着をもっと読む

いま人気の記事

いま人気の記事をもっと読む

いま人気の記事 - テクノロジー

いま人気の記事 - テクノロジーをもっと読む

新着記事 - テクノロジー

新着記事 - テクノロジーをもっと読む

設定を変更しましたx