タグ

qiitaとamazon-athenaに関するnabinnoのブックマーク (7)

  • dbt-athenaことはじめ - Qiita

    この記事はスタンバイ Advent Calendar 2022の21日目の記事です。 Modern Data Stackの一つであるDBTについて、Amazon Athenaで利用できるかを検証してみることにしました。 DBTとは ELT処理 (Extract、Load、Transform) のTransformの工程を効率化できるツール、という位置づけです。 詳細は割愛しますが、以下の記事がわかりやすくまとめられています。 dbt-athenaとは dbtのAthena用Adapterです。 大前提として、Saas版であるdbt Cloudでは非サポートであるため、CLI版であるdbt-coreを利用することになります。 開発コミュニティ githubで開発が進められています。執筆時点での最新バージョンは1.3.3です。 以前はfork元である別repositoryで開発が行われていたよ

    dbt-athenaことはじめ - Qiita
  • AWS S3, Athena, Glue を活用した統合データ分析基盤 - AWS RDS, Kintone, Freee のデータを一元管理 - Qiita

    社内で RDS, Kintone, Freee など様々なサービスを使っていて、それらの情報をー箇所で集約し、分析するためのデータ基盤の必要がありました。 そのために以下の手順でデータ基盤を構築してみました。 データのまとめ:AWS Glue を用いてデータを S3 に抽出しカタログ化 データ加工:dbt-athena でデータ変換 クエリ実行:Athena でクエリ データ分析:Metabase でのデータ分析とお可視化 将来的に集めるデータ量が増加見込みなので、コスト効率と拡張性の面で S3 での保存は適切かと考えました。 また、開発チュー自体少人数なので、煩雑な管理作業を避けるためにサーバーレスや自動化に注力し、ETL(Extract, Transform, Load)ワークフローは AWS Glue、Athena、dbt で構築しました。 安全かつスマートにインフラを管理 インフラ

    AWS S3, Athena, Glue を活用した統合データ分析基盤 - AWS RDS, Kintone, Freee のデータを一元管理 - Qiita
  • 【Glue】約9万件のパーティションを作る時間を計測してみた - Qiita

    背景・目的 以前、こちらの記事でAthenaのパーティションインデックスの効果を検証した際に、パーティションをMSCK REPAIR TABLEで作成しました。 MSCK REPAIR TABLEの場合には、6時間9分46秒もの時間を要したので、Glue Crawlerで作った場合にはどれくらいの時間がかかるか検証したいと思います。 まとめ 9万弱のパーティションを作成するのに、MSCK REPAIR TABLEとGlueのCrawlerでおおよそ、5時間44分46秒(93.23%の削減率)もの差がありました。 Glue Crawlerが圧倒的に速かったです。 Glue Crawlerがどのようなアルゴリズムで実行されているのかは不明だが、プロダクション等で利用する場合はCrawlerを選択したほうが良いと思います。 実践 事前準備 前回同様の条件で実施するため、事前に確認します。 S3パ

    【Glue】約9万件のパーティションを作る時間を計測してみた - Qiita
  • AWSで2022に打破されたアンチパターン - Qiita

    TLDR AWS2022年の1月から9月までのアップデートが多数ありました。私(と、何人かのサポーター)が考えた、この期間内の打破されたアンチパターンを紹介します。32項目ありました! アンチパターンって何よ? 「AWSでこうしたい」という思いからAWSを使っていく方は多いはずです。 そのなかで、数多くのAWS使いこなしの工夫が生まれ、成功例が生まれていきました。AWSのサービスとして提供されていないことを工夫でなんとかした、そんな成功例たち。それが「秘伝のタレ」となり、「さわってはいけないもの」、あるいは「ロストテクノロジー」として、封をしたパターンとなっていないでしょうか? 動作やプロセス、構造について、当初は妥当であったのに、最終的に悪い結果が繰り返されるパターンであり、リファクタリングするための方法が存在するパターンこそがアンチパターンです。サービスアップデートされれば、いままで

    AWSで2022に打破されたアンチパターン - Qiita
  • Athena Workgroup小ネタ - Qiita

    はじめに 2019/2/18にAthenaのWorkgroup機能がリリースされました。 https://aws.amazon.com/jp/about-aws/whats-new/2019/02/athena_workgroups/ Workgroup機能のまとめると以下になります。 Workgroupに対してクエリ上限を設定可能 Workgroup単位でスキャン量などのメトリクスが取得可能 Workgroupnに対してタグ付け可能でコストアロケーションタグとしても使用可能(Workgroup単位でのコスト管理が可能) 使い方 Workgroupの作成 WorkgroupにアクセスできるようににIAMポリシーを修正する。 https://docs.aws.amazon.com/athena/latest/ug/example-policies-workgroup.html#example

    Athena Workgroup小ネタ - Qiita
  • DataGripからJDBC経由でAthenaを利用する - Qiita

    Amazon AthenaにはAWSのマネージメントコンソールから、SQL実装&クエリログ保存ができるUIが提供されており、便利に使えます。 ちょっとした調査や分析であればこれで十分なのですが、ローカルのDB統合環境からつなげるとより捗りそうです。 もともと、SQL Serverを扱う際にSQL Operation Studioを使っていたのですが、UIや動作でつらみが結構あり、DataGripに切り替えたところ劇的に改善されたので、その流れで今度はログ調査でよく利用しているAthenaの接続を試みることにしました。 Athenaにローカル接続できる専用ツールは見つからない GUIの専用ツールは見つけられず(2018/11/15時点)。あったら使ってみたい Athena用のJDBCドライバが公式に配布されている AWSからJDBCドライバが提供されており、これを使えばツールからの接続ができ

    DataGripからJDBC経由でAthenaを利用する - Qiita
  • AWS Athena + QuickSightでS3に蓄積されたCSVデータを可視化 - Qiita

    やりたい事 サービスの統計情報を取得するために、データベースの登録状況をバッチ処理でCSVに落として保存している運用をされている方は結構いらっしゃるのではと思います。そのS3データを簡単に可視化する方法として、AWS AthenaとQuickSightを利用してみました。 AWS Athena Amazon S3 内のデータを標準 SQL を使用して簡単に分析できるようになります。Athenaを利用の流れは以下のような形になります。 1.S3にバケットを作成して、分析したいCSVファイルを置く 2.AWS Athenaのコンソールでデータベースの作成 3.AWS Athenaのコンソールでテーブルを作成する 4.作成したデータベースに対して、SQLのクエリを発行して必要な情報のみ取得する。 SQLのクエリはPresto 0.172 に基づいていますので、通常のSQL文とは差分がありますので

    AWS Athena + QuickSightでS3に蓄積されたCSVデータを可視化 - Qiita
  • 1