Amazon Web Services ブログ AWS GlueでApache Sparkジョブをスケーリングし、データをパーティション分割するためのベストプラクティス AWS GlueはApache Spark ETLジョブでのデータ分析・データ処理を行うために、様々なデータソースから大量のデータセットを準備(抽出および変換)し、ロードするサーバーレスな環境を提供します。この投稿のシリーズでは、Apache SparkアプリケーションとGlueのETLジョブの開発者、ビッグデータアーキテクト、データエンジニア、およびビジネスアナリストが、AWS Glue上で実行するデータ処理のジョブを自動的にスケールするのに役に立つベストプラクティスについて説明します。 まず最初の投稿では、データ処理を行うジョブのスケーリングを管理する上で重要な2つのAWS Glueの機能について説明します。1つ目は、
![AWS GlueでApache Sparkジョブをスケーリングし、データをパーティション分割するためのベストプラクティス | Amazon Web Services](https://cdn-ak-scissors.b.st-hatena.com/image/square/0fc257e8ac5c0a4234f0ec8727a86934bb55480e/height=288;version=1;width=512/https%3A%2F%2Fd2908q01vomqb2.cloudfront.net%2F827bfc458708f0b442009c9c9836f7e4b65557fb%2F2020%2F06%2F03%2FBlog-Post_thumbnail.png)