Presto Meetup 201706 の発表資料です. https://techplay.jp/event/621143
![Presto ベースのマネージドサービス Amazon Athena](https://cdn-ak-scissors.b.st-hatena.com/image/square/2529c69b21d0a546ec452862a74ca1db0a61a52e/height=288;version=1;width=512/https%3A%2F%2Fcdn.slidesharecdn.com%2Fss_thumbnails%2F20170615prestomeetup-170615120358-thumbnail.jpg%3Fwidth%3D640%26height%3D640%26fit%3Dbounds)
Presto Meetup 201706 の発表資料です. https://techplay.jp/event/621143
はじめに 弊社では、ビッグデータ分析のためにAWSのクエリサービスAmazon Athenaをよく利用しています。 簡単に使い始めることができて、本当に便利なサービスです。 SQL on Hadoopでは、パーティション数が多くなりすぎるとクエリ実行時間が長くなるので、 「パーティションの数は多くとも1万個くらいに抑えましょう」という定石があります1。 一方、Athenaではクエリ実行時に、スキャンしたデータ量に応じて $5/1TB 課金されます。パーティションを細分化しておけば、スキャンするデータ量が削減できます。 結局のところ、パーティションをどれくらい細分化すれば良いかは、定石だけではわかりません。 さて、我々のシステムでは、次々と送られてくる発生するログをS3に配置し、EMRで日次ETL処理した結果をAthenaで分析・集計します。 クエリ対象期間は1週間固定であるにもかかわらず、
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く