[B! athena] iga-ninjaのブックマーク

Athena(Presto)とGlue(Spark)で同じクエリを実行した際に異なる値が返る原因 - sambaiz-net

AWSではSQL-likeなクエリで集計を行うマネージドなサービスが複数あり、アドホックな集計はGlueのデータカタログでテーブルを共有して手軽にクエリを実行できるPrestoベースのAthena、重いバッチ集計はリソースや時間の制約を回避できるSparkベースのGlueといったように併用することができる。 Redshift Serverlessと他のサーバーレス集計サービス、Glue Data Catalogのテーブルへのクエリ実行 - sambaiz-net ANSI互換のSQLを実行するPrestoとデフォルトでHive互換のSpark SQLを実行するSparkで使える文法に差があったりするものの、同じクエリが使い回せることもあって、そのような場合は同じ結果が返ってくることを期待してしまうが、次のような挙動の違いによって大きく結果が異なってしまうことがある。数値の型 P

iga-ninja 2021/10/23

[presto[

athena

リンク

GitHub - awslabs/amazon-athena-cross-account-catalog: 🌉 Reference implementation for granting cross-account AWS Glue Data Catalog access from Amazon Athena

iga-ninja 2021/02/09

athena
glue

リンク

Athenaのパーティションを事前に一括作成する方法 | DevelopersIO

AthenaでHive互換のパーティションに対応していないログに一括でパーティションを作成します。ALTER TABLEを都度適用する運用負荷が軽減できます。 Hive互換になっていないログなどでは ALTER TABLE ADD PARTITIONを実行する必要があります。新しくデータが保存されたタイミングで作成するのは、運用の中で行うのは面倒です。実はデータがなくでもパーティションを事前に作成しておくことができるので、今回は一括でパーティションを作成するスクリプトを作成してみました。これを使って一年先までのパーティションを作成してみたいと思います。今回はVPCフローログをサンプルデータとして使用します。テーブルを作成 VPCフローログは下記の形式で出力されますので、year/month/day を利用してパーティション分割したいと思います。 bucket_ARN/optional_

iga-ninja 2020/06/30

athena

リンク

Amazon Athena Federated Query

iga-ninja 2020/02/11

Athena

リンク

Amazon Athenaでパーティション数が多いJSONのテーブルをParquet形式のテーブルに変換できずにハマった | iret.media

Amazon Athenaを利用してS3バケットにあるJSONファイルをParquet形式に変換するときにHIVE_TOO_MANY_OPEN_PARTITIONSというエラーが発生したので原因調査して対策を考えてみました。 Parquet形式とはなんぞ？という方は下記が参考になると思います。カラムナフォーマットのきほん〜データウェアハウスを支える技術〜 – Retty Tech Blog https://engineer.retty.me/entry/columnar-storage-format Amazon Athena: カラムナフォーマット『Parquet』でクエリを試してみた #reinvent ｜ Developers.IO https://dev.classmethod.jp/cloud/aws/amazon-athena-using-parquet/ Apache

iga-ninja 2020/01/24

athena
ctas

リンク

Amazon Athena を使ったセキュリティログ検索基盤の構築 - クックパッド開発者ブログ

こんにちは。技術部セキュリティグループの水谷（@m_mizutani ）です。最近はFGOで一番好きな話がアニメ化され、毎週感涙に咽びながら視聴しています。 TL;DR これまでセキュリティログ検索にGraylogを使っていたが、主に費用対効果の改善のため新しいセキュリティログ検索基盤を検討した自分たちの要件を整理し、Amazon Athenaを利用した独自のセキュリティログ検索基盤を構築したまだ完全に移行はできていないが対象ログを1ヶ月間分（約7.5TB1）保持してもコストは1/10以下である3万円に収まる見込みはじめにセキュリティグループでは日頃、社内ネットワークやPC環境、クラウドサービスに関連するセキュリティアラートに対応するセキュリティ監視業務を継続しておこなっています。アラートに対応する時に頼りになるのはやはり様々なサービスやシステムのログで、そのアラートに関連したログ

iga-ninja 2020/01/10

リンク

AthenaのCTAS (CREATE TABLE AS SELECT) でETLをするTips - Qiita

はじめにこの記事はAWS Advent Calendar 2018の3日目の記事です。今年の10月にAthenaがCTAS(CREATE TABLE AS SELECT)をサポートしました。 CTASサポート以前のAthenaではクエリの結果を無圧縮のCSVでしか残せなかったのですが、CTASを使うと結果を列指向やJSONなどのフォーマットにしたうえ圧縮をかけて残せるようになりました。これによりAthenaを使ったデータ加工の芽が出たのでいくつかのデータ加工バッチをAthenaでできるか検討しました。この記事ではAthenaのCTASを使ったバッチを作る際のTipsについて紹介します。前提 AthenaでETLしたい理由 AthenaはETL無しでS3のデータに直接分析をかけれるよ、というコンセプトを謳っており、現状ETLをするために設計されたサービスな訳ではないように感じていま

iga-ninja 2019/10/16

リンク

Amazon Athena が待望のCTAS（CREATE TABLE AS）をサポートしました！｜ DevelopersIO

待望のアップデート、Amazon Athena がCTAS（CREATE TABLE AS）をサポートしました！これまでは、SELECTクエリ（いわゆる参照系クエリ）のみでしたが、CTASによる書き込みクエリがサポートされました。はじめに待望のアップデート、Amazon Athena がCTAS（CREATE TABLE AS）をサポートしました！これまでは、SELECTクエリ（いわゆる参照系クエリ）のみでしたが、CTASによる書き込みクエリがサポートされました。更新系クエリのご要望は多く、かなり大きなアップデートなのでご紹介したいと思います。 Amazon Athena adds support for Creating Tables using the results of a Select query (CTAS) 過去には、こんなブログも書きましたが、今後はこんなことは不要です

iga-ninja 2019/05/15

リンク

Amazon Athena: カラムナフォーマット『Parquet』でクエリを試してみた #reinvent | DevelopersIO

先日『AWS re:Invent 2016』にて発表された新サービス『Amazon Athena』は、マニュアルにもある通りAWSが提供するフルマネージドHiveサービスと言えるでしょう。DWH用途で考えるとレコードをフルスキャンするよりも特定のカラムを集計・フィルタするというユースケースが多くなりそうですので、カラムナフォーマット『Parquet』を試したみたいと思いました。Parquetファイルの変換や、一般的なCSVとの簡単な比較をしてみました。（意外な結果が...）カラムナフォーマット『Parquet』とはデータ分析では大福帳フォーマットのテーブルデータに対して、特定の列の値を集計したり、フィルタリングすることが多いため、カラム毎にデータが連続して格納されていると必要なデータのみをピンポイントで読み込むことができるからです。また、列方向には同じ種類のデータが並んでいるため、圧縮

iga-ninja 2019/05/15

リンク

AWS Black Belt Online Seminar 2017 Amazon Athena

This document provides an overview and agenda for a webinar on Amazon Elasticsearch Service (Amazon ES). It introduces Elasticsearch and Amazon ES, including the benefits of using the fully-managed service such as cost efficiency, high availability, security, and ease of deployment. The webinar will cover topics like log analysis, search capabilities, operations management, security, pricing and l

iga-ninja 2017/11/17

Athena

リンク

Automatic Partitioning With Amazon Athena | Skeddly

Amazon Athena pricing is based on the bytes scanned. Anything you can do to reduce the amount of data that’s being scanned will help reduce your Amazon Athena query costs. In our previous article, Partitioning Your Data With Amazon Athena, we partitioned our data into folders to reduce the amount of data scanned. But those partitions were being loaded into our Athena table manually. In this articl

iga-ninja 2017/11/17

athena

リンク

Amazon Athena のパフォーマンスチューニング Tips トップ 10 | Amazon Web Services

Amazon Web Services ブログ Amazon Athena のパフォーマンスチューニング Tips トップ 10 2020/10/13 に、原文の更新に合わせて最新のバージョンにアップデートしました Amazon Athena は、S3 に保存されたデータに対して標準 SQL で簡単に分析を行える、インタラクティブクエリサービスです。Athena はサーバーレスのためインフラ管理の必要がなく、また実行したクエリのぶんだけ料金を支払うかたちになります。Athena は簡単に使えます。Amazon S3 上のデータに対してスキーマを定義し、標準 SQL でクエリを投げるだけです。このブログポストでは、クエリパフォーマンスを改善するための 10 個の Tips をご紹介します。Tips には、Amazon S3 に置かれたデータに関するものと、クエリチューニングに関するものがあ

iga-ninja 2017/11/15

athena

リンク

はてなブックマーク

タグ

関連タグで絞り込む (8)

athenaに関するiga-ninjaのブックマーク (12)

お知らせ

今週のはてなブックマーク数ランキング（2024年8月第1週）

月間はてなブックマーク数ランキング（2024年7月）

今週のはてなブックマーク数ランキング（2024年7月第4週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス