タグ

glueに関するurza358のブックマーク (4)

  • Write data to Redis from PySpark

  • AWS再入門ブログリレー AWS Glue編 | DevelopersIO

    当エントリは弊社コンサルティング部による『AWS 再入門ブログリレー 2019』の14日目のエントリです。 このブログリレーの企画は、普段AWSサービスについて最新のネタ・深い/細かいテーマを主に書き連ねてきたメンバーの手によって、今一度初心に返って、基的な部分を見つめ直してみよう、解説してみようというコンセプトが含まれています。 AWSをこれから学ぼう!という方にとっては文字通りの入門記事として、またすでにAWSを活用されている方にとってもAWSサービスの再発見や2019年のサービスアップデートのキャッチアップの場となればと考えておりますので、ぜひ最後までお付合い頂ければ幸いです。 では、さっそくいってみましょう。14日目のテーマは『AWS Glue』です。 目次 AWS Glueとは AWS Glueの概念・構成要素 データストア、データソース、データターゲット データカタログ クロ

    AWS再入門ブログリレー AWS Glue編 | DevelopersIO
  • AWS Glue の基本的な使い方

    概要 AWS Glue を利用すると Apache Spark をサーバーレスに実行できます。基的な使い方を把握する目的で、S3 と RDS からデータを Redshift に ETL (Extract, Transform, and Load) してみます。2017/12/22 に東京リージョンでも利用できるようになりました。また、ページでは Python を利用しますが、新たに Scala サポートされています。 AWS Glue ETL 概略図 AWS Glue を ETL サービスとして利用する場合のシステム概略図は以下のようになります。 Data Source から Data Target に対して ETL します。ページでは Data Source は S3 と RDS であり、Data Target は Redshift となります。 ETL は Job として実行され

    AWS Glue の基本的な使い方
  • Athenaで気軽にS3のデータを集計する - Qiita

    S3のJSONを気軽にAthenaで集計したいと思い、安く済ます方法を調べた。 事前の印象では結構なお値段かかってしまうものだと思っていたが、小さいデータを最低コストで集計する分にはかなり安く済みそうだった。 ということで、ここでやりたいのは、 S3の小さいデータを 気軽に 安く SQLで集計する ということで、RDSなど立てるのはもってのほかである。 前提知識 パーティション データをパーティション分割することで、各クエリでスキャンするデータの量を制限し、パフォーマンスの向上とコストの削減を達成できます。Athena では、データのパーティション分割に Hive を使用します。すべてのキーでデータをパーティション化できます。一般的な方法では、時間に基づいてデータをパーティション分割します。これにより、通常、複数レベルのパーティション構成となります。たとえば、1 時間ごとに配信されるデータ

    Athenaで気軽にS3のデータを集計する - Qiita
  • 1