[B! presto][aws] hohoho_ho2005のブックマーク

hohoho_ho2005 id:hohoho_ho2005

prestoとawsに関するhohoho_ho2005のブックマーク (8)

Amazon Elastic MapReduce (EMR) ではじめる Presto/Trino 入門
Presto/Trino 1は日本語の入門書がなく、「Presto/Trino を運用することになったけど何から勉強すれば良いかわからない＞＜」という人も多いのではないかと思います。そこで、Presto/Trino を運用する時にこの辺の内容を知っていれば、よりスムーズにキャッチアップできたかなぁと思うことをまとめてみました。 Hive connector を使いたいので、Hive と Presto の環境構築をサクッと行える Amazon Elastic MapReduce (以降 EMR) で実際に手を動かせればと思います。以降 Presto/Trino ではなく Presto と表記しますが、Trino は元々同じソフトウェアであるため、Trino でも当てはまる内容がほとんどのはずです。なお、Presto のバージョンは 2019-03-13 時点で最新の EMR 5.21.0
hohoho_ho2005 2019/03/13
presto

aws

hadoop
リンク
AWS Athenaを使ってみよう
KLab Advent Calendar 10日目の記事です。KLab分析基盤チームの高田です。分析基盤チームでは、社内向けに各種KPIを提供している他、KG SDKのKPIレポートシステムを通じて、パートナー向けにシステムを提供しています。今回は、先日re:Invent 2016で発表されたばかりのAWSの新サービスAthenaを試してみました。KLabの分析基盤システムでは、すでにRedshiftやEMRを使用していますが、Athenaには、これらを補うような役割(低コストで導入し、アドホックな分析や定型的なレポートの作成をサポートするといった用途)を期待しています。 Athenaとは? ひとことで言えば、Athenaとは、S3上に置いてあるデータを高速にSQLで集計・分析できるサービスです。内部はPrestoをベースとしつつ、独自の改修をくわえて使用しているようです。Athena
hohoho_ho2005 2016/12/12
aws

presto

hadoop
リンク
AWS Athena雑感 - Go ahead!
Amazon Athena — Serverless Interactive Query Service - AWS Prestoのフォースを感じたので，知り合いが試した情報も含めて，今思っている所を書いてみる．実装 Athenaのページにあるように，実行エンジンは独自実装ではなくて，Facebookが公開しているPrestoを使っている．FacebookのみならずTreasure Data，Airbnb，Netflixなどクエリがガンガン飛ぶ環境で元気に動いている実績もあるので，拡張性，パフォーマンス，安定性で選ばれたのだろうと思われる．あとAWS的にJavaの方が相性は良さそう．パフォーマンスいくつかの記事で言及されている． Analyzing Data in S3 using Amazon Athena Amazon AthenaをBigQueryと比較してみた Amazon
hohoho_ho2005 2016/12/05
presto

aws
リンク
Presto on EMR AMI4.x - Qiita
EMRサンドボックス Amazon EMR Sandbox Applications いままではPrestoをEMR上にインストールする場合は、カスタムブートストラップを利用して、Java8をインストールしたり Prestoのセットアップを行っていました 4.0からEMRサンドボックスが利用できるようになりカスタムブートストラップを利用しなくてもセットアップできるようになりさらに簡単にPrestoが触れます現在3.x系awslabs/emr-bootstrap-actionsはそのまま利用しても動作しなそうですインストールされるjava8のバージョン起因でエラーが発生すると思います Setup 起動方法は2通りAwsConsole or AWSCLIのどちらかです Consoleは直感的ですごくよくわかるのでCLIの方だけ CLIによるクラスタ起動 AWS CLI Command
hohoho_ho2005 2015/12/10
AWS

presto
リンク
Amazon Elastic MapReduce with Hive/Presto ハンズオン(講義)
12. 12 Amazon Elastic MapReduceとは？ •  1クリックでHadoopクラスタが⼿手に⼊入る –  使い終わったらまとめて捨てるのも簡単 –  スポットインスタンスを使ったコストカットも •  設定済のアプリケーションがすぐ使える –  Application: Hive, Hue, Impalaなど –  Bootstrap Action: Presto, Sparkなど •  ⾏行行うべき処理理を簡単に設定できる –  ジョブが終わったらクラスタを消すところまで⾃自動化 13. 13 Task Node Task Instance Group Amazon EMRのアーキテクチャ security group security group Master Node Master Instance Group Amazon S3 Dynamo
hohoho_ho2005 2015/05/22
presto

hive

aws
リンク
AWS EMRでPrestoを動かしてshibからクエリ流してみる
Spark, SQL on Hadoop etc. Advent Calendar 2014の最終日です。書くこと AWS EMR/S3 + Hive + Presto + Hue + Shibの環境を構築し、簡単にトライアルしてみる。 Prestoについて Facebookがオープンソースで開発しているMPP(Massively Parallel Processing)クエリエンジン。本家: Presto - Distributed SQL Query Engine for Big Data TDさんのわかりやすい解説: 『Prestoとは何か，Prestoで何ができるか』同じ系統のクエリエンジン括りだとImpalaやApache DrillがOSSとして開発されている。MPPクエリエンジン/データベースの大まかな流れや種類、それぞれの使いドコロについてははコチラの記事が最高にまと
hohoho_ho2005 2014/12/26
AWS

presto
リンク
MPP on Hadoop, Redshift, BigQuery - Go ahead!
Twitterで「早く今流行のMPPの大まかな使い方の違い書けよ！」というプレッシャーが半端ないのでてきとうに書きます．この記事は俺の経験と勉強会などでユーザから聞いた話をもとに書いているので，すべてが俺の経験ではありません(特にBigQuery)．各社のSAの人とかに聞けば，もっと良いアプローチとか詳細を教えてくれるかもしれません．オンプレミスの商用MPPは使ったことないのでノーコメントです． MPP on HadoopでPrestoがメインなのは今一番使っているからで，Impalaなど他のMPP on Hadoop的なものも似たような感じかなと思っています．もちろん実装の違いなどがあるので，その辺は適宜自分で補間してください．前提アプリケーションを開発していて，そのための解析基盤を一から作る．簡単なまとめデータを貯める所が作れるのであれば，そこに直接クエリを投げられるPre
hohoho_ho2005 2014/07/24
presto

AWS

hadoop

bigquery
リンク
Netflix running Presto in the AWS Cloud
Netflix runs Presto in its AWS cloud environment to enable low-latency ad-hoc queries on petabyte-scale data stored in S3. Some key things Netflix did include optimizing Presto to read from and write directly to S3, fixing bugs, integrating Presto with its EMR and Ganglia monitoring, and deploying a 100+ node Presto cluster that handles over 1000 queries per day. Performance testing showed Presto
hohoho_ho2005 2014/05/17
aws

presto
リンク
1