AWS GlueのJobでクロールしたRedshiftのテーブルをDynamic Frame経由で利用しようとすると以下の2つの問題点があります。 複数のテーブルをJoinして利用することができない SELECT * で条件指定などせず、全レコードをtemporary領域にUnloadしてしまう そこで、databricksが提供しているRedshift Data Source for Apache Sparkを利用してRedshiftを利用します。 前提 spark-redshift v2.0.1のjarを利用 AWS Glue Jobは2018/5時点に作成、言語としてはScalaを利用。 python(pySpark)だと 必要なライブラリや、py4jのリフレクションで詰まって動作するところまで持っていけてない。 Database(Redshift)への設定は事前に確認しておく Gl
![AWS Glueからspark redshiftを利用してRedshiftを直接利用する - Qiita](https://cdn-ak-scissors.b.st-hatena.com/image/square/c9c6af850988d9676b818d6adb52a548e425f9c2/height=288;version=1;width=512/https%3A%2F%2Fqiita-user-contents.imgix.net%2Fhttps%253A%252F%252Fcdn.qiita.com%252Fassets%252Fpublic%252Farticle-ogp-background-9f5428127621718a910c8b63951390ad.png%3Fixlib%3Drb-4.0.0%26w%3D1200%26mark64%3DaHR0cHM6Ly9xaWl0YS11c2VyLWNvbnRlbnRzLmltZ2l4Lm5ldC9-dGV4dD9peGxpYj1yYi00LjAuMCZ3PTkxNiZoPTMzNiZ0eHQ9QVdTJTIwR2x1ZSVFMyU4MSU4QiVFMyU4MiU4OXNwYXJrJTIwcmVkc2hpZnQlRTMlODIlOTIlRTUlODglQTklRTclOTQlQTglRTMlODElOTclRTMlODElQTZSZWRzaGlmdCVFMyU4MiU5MiVFNyU5QiVCNCVFNiU4RSVBNSVFNSU4OCVBOSVFNyU5NCVBOCVFMyU4MSU5OSVFMyU4MiU4QiZ0eHQtY29sb3I9JTIzMjEyMTIxJnR4dC1mb250PUhpcmFnaW5vJTIwU2FucyUyMFc2JnR4dC1zaXplPTU2JnR4dC1jbGlwPWVsbGlwc2lzJnR4dC1hbGlnbj1sZWZ0JTJDdG9wJnM9ZjhkNmUxMjg2MDNkMTE5N2MyMjI2YmE3NzZjNTI3NGM%26mark-x%3D142%26mark-y%3D112%26blend64%3DaHR0cHM6Ly9xaWl0YS11c2VyLWNvbnRlbnRzLmltZ2l4Lm5ldC9-dGV4dD9peGxpYj1yYi00LjAuMCZ3PTYxNiZ0eHQ9JTQwaGlkZWppMiZ0eHQtY29sb3I9JTIzMjEyMTIxJnR4dC1mb250PUhpcmFnaW5vJTIwU2FucyUyMFc2JnR4dC1zaXplPTM2JnR4dC1hbGlnbj1sZWZ0JTJDdG9wJnM9OGFiNzdiZTg0NTYyODgxMmFkZWUyN2IwN2VkNWU1YzE%26blend-x%3D142%26blend-y%3D491%26blend-mode%3Dnormal%26s%3D43ac5a42b6c45b98dac3f97f09a9f1c5)