[B! redshift][Glue] atsuizoのブックマーク

atsuizo id:atsuizo

redshiftとGlueに関するatsuizoのブックマーク (2)

AWS Glueからspark redshiftを利用してRedshiftを直接利用する - Qiita
AWS GlueのJobでクロールしたRedshiftのテーブルをDynamic Frame経由で利用しようとすると以下の２つの問題点があります。複数のテーブルをJoinして利用することができない SELECT * で条件指定などせず、全レコードをtemporary領域にUnloadしてしまうそこで、databricksが提供しているRedshift Data Source for Apache Sparkを利用してRedshiftを利用します。前提 spark-redshift v2.0.1のjarを利用 AWS Glue Jobは2018/5時点に作成、言語としてはScalaを利用。 python（pySpark）だと必要なライブラリや、py4jのリフレクションで詰まって動作するところまで持っていけてない。 Database（Redshift）への設定は事前に確認しておく Gl
atsuizo 2018/05/31
aws

Glue

redshift
リンク
AWS Glue の基本的な使い方
概要 AWS Glue を利用すると Apache Spark をサーバーレスに実行できます。基本的な使い方を把握する目的で、S3 と RDS からデータを Redshift に ETL (Extract, Transf orm, and Load) してみます。2017/12/22 に東京リージョンでも利用できるようになりました。また、本ページでは Python を利用しますが、新たに Scala サポートされています。 AWS Glue ETL 概略図 AWS Glue を ETL サービスとして利用する場合のシステム概略図は以下のようになります。 Data Source から Data Target に対して ETL します。本ページでは Data Source は S3 と RDS であり、Data Target は Redshift となります。 ETL は Job として実行され
atsuizo 2018/04/26
Glue

rds

redshift

Spark
リンク
1

お知らせ

もっと読む

公式Twitter

@HatenaBookmark
リリース、障害情報などのサービスのお知らせ
@hatebu
最新の人気エントリーの配信

キーボードショートカット一覧

j次のブックマーク

k前のブックマーク

lあとで読む

eコメント一覧を開く

oページを開く

設定を変更しましたx