概要 AWS Glue を利用すると Apache Spark をサーバーレスに実行できます。基本的な使い方を把握する目的で、S3 と RDS からデータを Redshift に ETL (Extract, Transform, and Load) してみます。2017/12/22 に東京リージョンでも利用できるようになりました。また、本ページでは Python を利用しますが、新たに Scala サポートされています。 AWS Glue ETL 概略図 AWS Glue を ETL サービスとして利用する場合のシステム概略図は以下のようになります。 Data Source から Data Target に対して ETL します。本ページでは Data Source は S3 と RDS であり、Data Target は Redshift となります。 ETL は Job として実行され
![AWS Glue の基本的な使い方](https://cdn-ak-scissors.b.st-hatena.com/image/square/8578c7630ea20540bc7ace314dad289f332cc022/height=288;version=1;width=512/https%3A%2F%2Fdhs1l7yoal3vp.cloudfront.net%2Fuploads%2Fimage%2F470%2Fcontent%2Flarge-5ce33cc0f8d17f8b88a0abfde416244e.png%3FX-Amz-Algorithm%3DAWS4-HMAC-SHA256%26X-Amz-Credential%3DAKIAIAKPQVZUBM64PATA%252F20240627%252Fap-northeast-1%252Fs3%252Faws4_request%26X-Amz-Date%3D20240627T191205Z%26X-Amz-Expires%3D900%26X-Amz-SignedHeaders%3Dhost%26X-Amz-Signature%3Dbc7eae4c3ff3860e0ebc95b1e952e170d43fdbe1ba3d5db55f881be94f66f78e)