
エントリーの編集

エントリーの編集は全ユーザーに共通の機能です。
必ずガイドラインを一読の上ご利用ください。
【AWS】AWS Glue + PySparkでお手軽なサーバレス分散処理 - Qiita
記事へのコメント0件
- 注目コメント
- 新着コメント
このエントリーにコメントしてみましょう。
注目コメント算出アルゴリズムの一部にLINEヤフー株式会社の「建設的コメント順位付けモデルAPI」を使用しています

- バナー広告なし
- ミュート機能あり
- ダークモード搭載
関連記事
【AWS】AWS Glue + PySparkでお手軽なサーバレス分散処理 - Qiita
はじめに 数TBクラスの大きなデータを変換してDBへputするような場合、 データをいくつかのグループに分... はじめに 数TBクラスの大きなデータを変換してDBへputするような場合、 データをいくつかのグループに分割して、複数台のコンバータで分担して処理したい。 AWS Glueを使えば分散処理ライブラリSparkを利用した並列処理をサーバレスで簡単に実現できる。 サンプルコード↓ AWS Glue + PySparkによる分散処理のメリット フルマネージドなサーバレスサービスで、煩雑な保守作業は不要 データ量や処理の重さに応じて、コンソールから分散処理の台数をいつでも変更できる (2台 〜 299台) 利用台数 x 利用時間分のみ課金 公式ドキュメント↓ やること S3に置いたPySparkスクリプトをAWS Glueと紐付けて実行する 要素が5000個の整数型リスト1000個用意して、それぞれ(重い処理の疑似として)バブルソートする 分散処理する場合としない場合でパフォーマンスを比較する も