[B! glue] urza358のブックマーク

urza358 id:urza358

glueに関するurza358のブックマーク (4)

Write data to Redis from PySpark
urza358 2022/04/21
AWS

glue

redis

python
リンク
AWS再入門ブログリレー AWS Glue編 | DevelopersIO
当エントリは弊社コンサルティング部による『AWS 再入門ブログリレー 2019』の14日目のエントリです。このブログリレーの企画は、普段AWSサービスについて最新のネタ・深い/細かいテーマを主に書き連ねてきたメンバーの手によって、今一度初心に返って、基本的な部分を見つめ直してみよう、解説してみようというコンセプトが含まれています。 AWSをこれから学ぼう！という方にとっては文字通りの入門記事として、またすでにAWSを活用されている方にとってもAWSサービスの再発見や2019年のサービスアップデートのキャッチアップの場となればと考えておりますので、ぜひ最後までお付合い頂ければ幸いです。では、さっそくいってみましょう。14日目のテーマは『AWS Glue』です。目次 AWS Glueとは AWS Glueの概念・構成要素データストア、データソース、データターゲットデータカタログクロ
urza358 2022/04/21
aws

glue
リンク
AWS Glue の基本的な使い方
概要 AWS Glue を利用すると Apache Spark をサーバーレスに実行できます。基本的な使い方を把握する目的で、S3 と RDS からデータを Redshift に ETL (Extract, Transf orm, and Load) してみます。2017/12/22 に東京リージョンでも利用できるようになりました。また、本ページでは Python を利用しますが、新たに Scala サポートされています。 AWS Glue ETL 概略図 AWS Glue を ETL サービスとして利用する場合のシステム概略図は以下のようになります。 Data Source から Data Target に対して ETL します。本ページでは Data Source は S3 と RDS であり、Data Target は Redshift となります。 ETL は Job として実行され
urza358 2022/04/21
aws

glue
リンク
Athenaで気軽にS3のデータを集計する - Qiita
S3のJSONを気軽にAthenaで集計したいと思い、安く済ます方法を調べた。事前の印象では結構なお値段かかってしまうものだと思っていたが、小さいデータを最低コストで集計する分にはかなり安く済みそうだった。ということで、ここでやりたいのは、 S3の小さいデータを気軽に安く SQLで集計するということで、RDSなど立てるのはもってのほかである。前提知識パーティションデータをパーティション分割することで、各クエリでスキャンするデータの量を制限し、パフォーマンスの向上とコストの削減を達成できます。Athena では、データのパーティション分割に Hive を使用します。すべてのキーでデータをパーティション化できます。一般的な方法では、時間に基づいてデータをパーティション分割します。これにより、通常、複数レベルのパーティション構成となります。たとえば、1 時間ごとに配信されるデータ
urza358 2021/03/17
aws

athena

s3

glue
リンク
1

お知らせ

もっと読む

公式Twitter

@HatenaBookmark
リリース、障害情報などのサービスのお知らせ
@hatebu
最新の人気エントリーの配信

キーボードショートカット一覧

j次のブックマーク

k前のブックマーク

lあとで読む

eコメント一覧を開く

oページを開く

設定を変更しましたx