AWS Glueは、データエンジニア、抽出、変換、読み込み (ETL) デベロッパー、データアナリスト、データサイエンティストがデータを簡単に抽出、クリーンアップ、強化、正規化、読み込みできるようにするサーバーレスのデータ準備サービスです。このサービスを用いてAmazon Redshiftへのデータインポートを行います。この構築を行う過程で注意するべき点なども解説します。 AWS GlueジョブにはSpark、Pythonシェル、Spark Streamingの3つのタイプが存在します。 このうち、Spark、Pythonシェルはバッチ等の一定周期のETL処理、Spark Streamingは断続的なETL処理に用います。 本項ではSpark及びPythonシェルのタイプについて説明します。 まずSparkタイプは最初にローンチされたタイプで、分散処理フレームワークのSparkを用いたET