[B! qiita][aws-glue] nabinnoのブックマーク

nabinno id:nabinno

qiitaとaws-glueに関するnabinnoのブックマーク (10)

AWS S3, Athena, Glue を活用した統合データ分析基盤 - AWS RDS, Kintone, Freee のデータを一元管理 - Qiita
社内で RDS, Kintone, Freee など様々なサービスを使っていて、それらの情報をー箇所で集約し、分析するためのデータ基盤の必要がありました。そのために以下の手順でデータ基盤を構築してみました。データのまとめ：AWS Glue を用いてデータを S3 に抽出しカタログ化データ加工：dbt-athena でデータ変換クエリ実行：Athena でクエリデータ分析：Metabase でのデータ分析とお可視化将来的に集めるデータ量が増加見込みなので、コスト効率と拡張性の面で S3 での保存は適切かと考えました。また、開発チュー自体少人数なので、煩雑な管理作業を避けるためにサーバーレスや自動化に注力し、ETL（Extract, Transf orm, Load）ワークフローは AWS Glue、Athena、dbt で構築しました。安全かつスマートにインフラを管理インフラ
nabinno 2024/11/20
qiita

amazon-s3

amazon-athena

aws-glue

data-engineering
リンク
AWS Glue Flexオプションについて - Qiita
Flexオプションの特徴 FlexオプションはGlue 3.0またはそれ以降のバージョンのETLジョブで利用可能です。また、Flexオプションを有効にした場合は以下のような形でジョブが動作します。ジョブ実行時に確保できるリソースがある場合は速やかにジョブが開始されるが、リソースが不足している場合はWAITING状態に遷移する WAITING状態は最大20分。WAITING状態に遷移してから15分後に確保可能なリソース量でジョブを実行開始する。ジョブ実行中であってもリソース量の増減は発生する可能性がある確保されたリソース量のみに課金が発生する。すなわちWAITING状態の時は課金は発生しない Flexオプションの有効化方法 Glue Studioでの有効化方法を記載します。 Glue Studioのジョブ作成画面のJob DetailsでFlex executionのチェックボックス
nabinno 2024/04/29
qiita

aws-glue

aws-glue-flex

resource-management

data-engineering
リンク
AWS Glueとは何か？ - Qiita
こいつに入門します。一言でいうと… マネージドETLサービスです。 ETLとは「Extract/Transf orm/Load」の略で、分析用に様々なデータを集める際に発生する「取り出す/変換する/取り込む」というプロセスを表しています。 Glueとは「糊」のことで、ETLにおいてAWSのリソースとリソースを繋ぐことの比喩になっているようです。 ※ややこしいですがDevOps Guruというサービスも最近出現しています。このGuruは「賢者」を表す別単語で、機械学習を活用した賢いサービスを比喩しているものと思われます。 Glueの概念図データソースから取り込んだデータをETLジョブで加工し、ターゲットに格納して分析などに利用します。 Glueのコンポーネントデータカタログ ETL処理をしたいデータのメタデータを管理するもの。元データ（データソース）からGlueのクローラーで抽出してきた
nabinno 2024/04/28
qiita

aws-glue

aws-glue-data-catalog

extract-transform-load

data-engineering
リンク
AWS Glue Data Catalog を理解する - Qiita
AWS Glue Data Catalog を理解するために初めてクラウドサービスを使用する&初めてAWS Glue で ETL 処理のジョブを作って色々やってみようとするとき、不意に登場するのが　AWS Glue Data Catalog ではないだろうか。「何のために Data Catalog は存在するのだ？」「Data Catalog はなくても ETL できるんじゃないの？」こんな思いをした皆さんにこの記事が参考になれば幸いです。本来はより詳細な Data Catalog の技術記事を紹介しようと思いましたが、今回は「Data Catalog は重要なのね」と理解することがゴールになります。また、ただのツール説明ではなく、データエンジニアリングやデータ基盤を構築するデータエンジニアとしての視点を交えて書いてみました。とりあえず AWS Glue Data Catalo
nabinno 2024/04/26
qiita

aws-glue-data-catalog

aws-glue

database-catalog

data-management
リンク
Glueでcsvファイルをparquet形式に変換してみた - Qiita
Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article? AWS DASの勉強で初めてGlueを触ったのでメモ Parquet形式とは AWSドキュメントより Apache Parquet や ORC は、データを高速に取得できるように最適化された、AWS 分析アプリケーションで使用されている、列指向ストレージ形式です。列指向ストレージ形式には以下の特性があるため、Athena での使用に適しています。列のデータ型に合わせて選択された圧縮アルゴリズムによる列ごとの圧縮で、Amazon S3 のストレージ領域を節約し、ディスク容量とクエリの処理中における I/O を削減します。 Parque
nabinno 2024/04/17
qiita

aws-glue

parquet

column-oriented-dbms

database
リンク
AWS Lake Formationの概要を図と用語で整理する - Qiita
AWS Lake Formationをざっくりと理解するために基本的な概念とコンポーネントを、図と用語で整理してみます。 AWS Lake Formationとは？ AWSでデータレイクを構築・運用するためのマネージドサービス実体は、ほぼAWSの各種サービスをラップしたもの(Glue, IAM, S3, etc..) データレイク専用にアクセス制御を行うために、IAMとは別に独自の権限管理機構を持つ実データも保持しセキュリティ向上と権限管理が簡単に行えるAWS Glueという印象 IAMやGlueを個別に駆使してデータレイクを構築・運用するよりデータレイクに特化していて扱いやすいざっくりした概念図図にするとかなりシンプル。備考公式ドキュメント (2020/02/04時点では英語のみ) 公式マンガがあるよ Lake Fromationの根っこにはAWS GlueがあるためAWS
nabinno 2024/04/08
qiita

aws-lake-formation

data-mesh

data-lake

aws-glue
リンク
【Glue】約9万件のパーティションを作る時間を計測してみた - Qiita
背景・目的以前、こちらの記事でAthenaのパーティションインデックスの効果を検証した際に、パーティションをMSCK REPAIR TABLEで作成しました。 MSCK REPAIR TABLEの場合には、6時間9分46秒もの時間を要したので、Glue Crawlerで作った場合にはどれくらいの時間がかかるか検証したいと思います。まとめ 9万弱のパーティションを作成するのに、MSCK REPAIR TABLEとGlueのCrawlerでおおよそ、5時間44分46秒（93.23%の削減率）もの差がありました。 Glue Crawlerが圧倒的に速かったです。 Glue Crawlerがどのようなアルゴリズムで実行されているのかは不明だが、プロダクション等で利用する場合はCrawlerを選択したほうが良いと思います。実践事前準備前回同様の条件で実施するため、事前に確認します。 S3パ
nabinno 2023/11/15
qiita

aws-glue

amazon-athena
リンク
AWSで2022に打破されたアンチパターン - Qiita
TLDR AWSで2022年の1月から9月までのアップデートが多数ありました。私（と、何人かのサポーター）が考えた、この期間内の打破されたアンチパターンを紹介します。32項目ありました！アンチパターンって何よ？「AWSでこうしたい」という思いからAWSを使っていく方は多いはずです。そのなかで、数多くのAWS使いこなしの工夫が生まれ、成功例が生まれていきました。AWSのサービスとして提供されていないことを工夫でなんとかした、そんな成功例たち。それが「秘伝のタレ」となり、「さわってはいけないもの」、あるいは「ロストテクノロジー」として、封をしたパターンとなっていないでしょうか？動作やプロセス、構造について、当初は妥当であったのに、最終的に悪い結果が繰り返されるパターンであり、リファクタリングするための方法が存在するパターンこそがアンチパターンです。サービスアップデートされれば、いままで
nabinno 2022/10/10
マネージドの幅が広がって嬉しい限り。

qiita

amazon-redshift

amazon-athena

aws-glue

aws-health-dashboard

aws-site-to-site-vpn

amazon-guardduty

aws-lambda

ril
リンク
BigQuery・Glue・S3・QuickSightの連携 - Qiita
nabinno 2022/05/02
qiita

cloud-bigquery

aws-glue

amazon-s3

amazon-quicksight
リンク
Glueの使い方的な - Qiita
Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article? この記事は更新をやめました。見てくださったみなさんありがとうございました!!!(もしかしたら再開するかもですが)。20210324 Glueのすぐ使えそうな操作 1.Glueの使い方的な①(GUIでジョブ実行) GUIだけでcsv->parquet変換処理してAthenaで見たい時 2.Glueの使い方的な②(csvデータをパーティション分割したparquetに変換) 元データにタイムスタンプが入ってるデータを、パーティションによるディレクトリ構成にしてデータ配置とフォーマットなど変換したい時 3.Glueの使い方的な③(CLIでジョブ
nabinno 2021/03/18
qiita

aws-glue
リンク
1

お知らせ

もっと読む

公式Twitter

@HatenaBookmark
リリース、障害情報などのサービスのお知らせ
@hatebu
最新の人気エントリーの配信

キーボードショートカット一覧

j次のブックマーク

k前のブックマーク

lあとで読む

eコメント一覧を開く

oページを開く

設定を変更しましたx