タグ

qiitaとaws-glueに関するnabinnoのブックマーク (9)

  • AWS Glue Flexオプションについて - Qiita

    AWS Glue Flexオプション AWS Glueでは2022/08/09にFlexタイプのジョブ実行モードというのが追加されました。 FlexタイプのジョブはEC2のスポットインスタンスのような非占有型のコンピュートキャパシティ上で動作します。 そのため、リソースの使用状況に応じてジョブの開始に時間がかかる場合などがありますが、その分コスト的には通常のジョブに比べ安価になっています。 テスト用途のジョブや実行時間の制約の緩い夜間のバッチジョブなどでコストを安価に抑えながらジョブを実行できるオプションになります。 Flexオプションのコスト 2022年11月現在、東京リージョンではFlexオプションは通常のジョブに比べ最大34%のコスト削減効果があります。 通常 Flex Flexオプションの特徴 FlexオプションはGlue 3.0またはそれ以降のバージョンのETLジョブで利用可能で

    AWS Glue Flexオプションについて - Qiita
  • AWS Glueとは何か? - Qiita

    こいつに入門します。 一言でいうと… マネージドETLサービスです。 ETLとは「Extract/Transform/Load」の略で、分析用に様々なデータを集める際に発生する「取り出す/変換する/取り込む」というプロセスを表しています。 Glueとは「糊」のことで、ETLにおいてAWSのリソースとリソースを繋ぐことの比喩になっているようです。 ※ややこしいですがDevOps Guruというサービスも最近出現しています。このGuruは「賢者」を表す別単語で、機械学習を活用した賢いサービスを比喩しているものと思われます。 Glueの概念図 データソースから取り込んだデータをETLジョブで加工し、ターゲットに格納して分析などに利用します。 Glueのコンポーネント データカタログ ETL処理をしたいデータのメタデータを管理するもの。元データ(データソース)からGlueのクローラーで抽出してきた

    AWS Glueとは何か? - Qiita
  • AWS Glue Data Catalog を理解する - Qiita

    AWS Glue Data Catalog を理解するために 初めてクラウドサービスを使用する&初めてAWS Glue で ETL 処理のジョブを作って色々やってみようとするとき、不意に登場するのが AWS Glue Data Catalog ではないだろうか。 「何のために Data Catalog は存在するのだ?」 「Data Catalog はなくても ETL できるんじゃないの?」 こんな思いをした皆さんにこの記事が参考になれば幸いです。 来はより詳細な Data Catalog技術記事を紹介しようと思いましたが、今回は「Data Catalog は重要なのね」と理解することがゴールになります。また、ただのツール説明ではなく、データエンジニアリングやデータ基盤を構築するデータエンジニアとしての視点を交えて書いてみました。 とりあえず AWS Glue Data Catalo

    AWS Glue Data Catalog を理解する - Qiita
  • Glueでcsvファイルをparquet形式に変換してみた - Qiita

    AWS DASの勉強で初めてGlueを触ったのでメモ Parquet形式とは AWSドキュメントより Apache Parquet や ORC は、データを高速に取得できるように最適化された、AWS 分析アプリケーションで使用されている、列指向ストレージ形式です。 列指向ストレージ形式には以下の特性があるため、Athena での使用に適しています。 列のデータ型に合わせて選択された圧縮アルゴリズムによる列ごとの圧縮で、Amazon S3 のストレージ領域を節約し、ディスク容量とクエリの処理中における I/O を削減します。 Parquet および ORC での述語プッシュダウンにより、Athena クエリが必要なブロックのみを取得できるようになり、クエリパフォーマンスが向上します。Athena クエリがデータから特定の列値を取得すると、データブロック述語からの統計 (最大値や最小値など)

    Glueでcsvファイルをparquet形式に変換してみた - Qiita
  • AWS Lake Formationの概要を図と用語で整理する - Qiita

    AWS Lake Formationをざっくりと理解するために基的な概念とコンポーネントを、図と用語で整理してみます。 AWS Lake Formationとは? AWSでデータレイクを構築・運用するためのマネージドサービス 実体は、ほぼAWSの各種サービスをラップしたもの(Glue, IAM, S3, etc..) データレイク専用にアクセス制御を行うために、IAMとは別に独自の権限管理機構を持つ 実データも保持しセキュリティ向上と権限管理が簡単に行えるAWS Glueという印象 IAMやGlueを個別に駆使してデータレイクを構築・運用するよりデータレイクに特化していて扱いやすい ざっくりした概念図 図にするとかなりシンプル。 備考 公式ドキュメント (2020/02/04時点では英語のみ) 公式マンガがあるよ Lake Fromationの根っこにはAWS GlueがあるためAWS

    AWS Lake Formationの概要を図と用語で整理する - Qiita
  • 【Glue】約9万件のパーティションを作る時間を計測してみた - Qiita

    背景・目的 以前、こちらの記事でAthenaのパーティションインデックスの効果を検証した際に、パーティションをMSCK REPAIR TABLEで作成しました。 MSCK REPAIR TABLEの場合には、6時間9分46秒もの時間を要したので、Glue Crawlerで作った場合にはどれくらいの時間がかかるか検証したいと思います。 まとめ 9万弱のパーティションを作成するのに、MSCK REPAIR TABLEとGlueのCrawlerでおおよそ、5時間44分46秒(93.23%の削減率)もの差がありました。 Glue Crawlerが圧倒的に速かったです。 Glue Crawlerがどのようなアルゴリズムで実行されているのかは不明だが、プロダクション等で利用する場合はCrawlerを選択したほうが良いと思います。 実践 事前準備 前回同様の条件で実施するため、事前に確認します。 S3パ

    【Glue】約9万件のパーティションを作る時間を計測してみた - Qiita
  • AWSで2022に打破されたアンチパターン - Qiita

    TLDR AWS2022年の1月から9月までのアップデートが多数ありました。私(と、何人かのサポーター)が考えた、この期間内の打破されたアンチパターンを紹介します。32項目ありました! アンチパターンって何よ? 「AWSでこうしたい」という思いからAWSを使っていく方は多いはずです。 そのなかで、数多くのAWS使いこなしの工夫が生まれ、成功例が生まれていきました。AWSのサービスとして提供されていないことを工夫でなんとかした、そんな成功例たち。それが「秘伝のタレ」となり、「さわってはいけないもの」、あるいは「ロストテクノロジー」として、封をしたパターンとなっていないでしょうか? 動作やプロセス、構造について、当初は妥当であったのに、最終的に悪い結果が繰り返されるパターンであり、リファクタリングするための方法が存在するパターンこそがアンチパターンです。サービスアップデートされれば、いままで

    AWSで2022に打破されたアンチパターン - Qiita
  • BigQuery・Glue・S3・QuickSightの連携 - Qiita

    今回は、FirebaseAnalyticsからBigQueryにエクスポートしたデータをQuickSight上で、表形式で閲覧したいという要件を実現するための過程を記事にしました。 以前書いたこの記事の続きみたいな感じです。 なぜ、BigQueryのデータをわざわざQuickSightで見ようとするかというと、BigQuery上のデータとRDSのDBデータをガッチャンこして見たいという要件があり、少し回りくどく見えるような構成になっています。 要件を実現するための構成はこれ以外にも案はあると思いますが、考えた結果、これが最適と考えた末なので、何かいい案をお持ちの方がいれば優しく教えて欲しいです。(ここには出てこない隠れた要件も色々あるので最適な構成を考えるのはかなり難しかったです。) BigQuery・Glue・S3の連携について それぞれのツールについての概要の公式記事は以下です。 Bi

    BigQuery・Glue・S3・QuickSightの連携 - Qiita
  • Glueの使い方的な - Qiita

    この記事は更新をやめました。見てくださったみなさんありがとうございました!!!(もしかしたら再開するかもですが)。20210324 Glueのすぐ使えそうな操作 1.Glueの使い方的な①(GUIでジョブ実行) GUIだけでcsv->parquet変換処理してAthenaで見たい時 2.Glueの使い方的な②(csvデータをパーティション分割したparquetに変換) 元データにタイムスタンプが入ってるデータを、パーティションによるディレクトリ構成にしてデータ配置とフォーマットなど変換したい時 3.Glueの使い方的な③(CLIでジョブ作成) CLIでジョブ作成などしたい時 4.Glueの使い方的な④(ブックマーク) 処理したデータを2回目は無視させたい時。 それがGlueのブックマークと言う機能。 5.Glueの使い方的な⑤(パーティション分割してるcsvデータをパーティション分割したp

    Glueの使い方的な - Qiita
  • 1