はじめに 先日ご紹介したAmazon AthenaのCTASサポートで、出力ファイルのBucketingとPartitioningに対応しました。BucketingとPartitioningは、相反するものではなく、必要に応じて組み合わせることでパフォーマンスの改善が期待できます。本日はBucketingとPartitioningの具体的なユースケースとパフォーマンス戦略について解説します。 Amazon Athena が待望のCTAS(CREATE TABLE AS)をサポートしました! PartitioningとBucketingの解説 Partitioningとは Partitioningとは、データを指定したキーごとにファイルにまとめてグループ化します。指定したキーのことをパーティションキーと呼びます。一般的なDBのパーティショニングと概念は一緒ですが、Hiveのパーティショニング
はじめに この記事はAWS Advent Calendar 2018の3日目の記事です。 今年の10月にAthenaがCTAS(CREATE TABLE AS SELECT)をサポートしました。 CTASサポート以前のAthenaではクエリの結果を無圧縮のCSVでしか残せなかったのですが、CTASを使うと結果を列指向やJSONなどのフォーマットにしたうえ圧縮をかけて残せるようになりました。 これによりAthenaを使ったデータ加工の芽が出たのでいくつかのデータ加工バッチをAthenaでできるか検討しました。 この記事ではAthenaのCTASを使ったバッチを作る際のTipsについて紹介します。 前提 AthenaでETLしたい理由 AthenaはETL無しでS3のデータに直接分析をかけれるよ、というコンセプトを謳っており、現状ETLをするために設計されたサービスな訳ではないように感じていま
AWS Big Data Blog Top 10 Performance Tuning Tips for Amazon Athena February 2024: This post was reviewed and updated to reflect changes in Amazon Athena engine version 3, including cost-based optimization and query result reuse. Amazon Athena is an interactive analytics service built on open source frameworks that make it straightforward to analyze data stored using open table and file formats in
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く