タグ

prestoとawsに関するhohoho_ho2005のブックマーク (8)

  • Amazon Elastic MapReduce (EMR) ではじめる Presto/Trino 入門

    Presto/Trino 1は日語の入門書がなく、「Presto/Trino を運用することになったけど何から勉強すれば良いかわからない><」という人も多いのではないかと思います。そこで、Presto/Trino を運用する時にこの辺の内容を知っていれば、よりスムーズにキャッチアップできたかなぁと思うことをまとめてみました。 Hive connector を使いたいので、Hive と Presto の環境構築をサクッと行える Amazon Elastic MapReduce (以降 EMR) で実際に手を動かせればと思います。 以降 Presto/Trino ではなく Presto と表記しますが、Trino は元々同じソフトウェアであるため、Trino でも当てはまる内容がほとんどのはずです。 なお、Presto のバージョンは 2019-03-13 時点で最新の EMR 5.21.0

    Amazon Elastic MapReduce (EMR) ではじめる Presto/Trino 入門
  • AWS Athenaを使ってみよう

    KLab Advent Calendar 10日目の記事です。KLab分析基盤チームの高田です。 分析基盤チームでは、社内向けに各種KPIを提供している他、KG SDKのKPIレポートシステムを通じて、パートナー向けにシステムを提供しています。 今回は、先日re:Invent 2016で発表されたばかりのAWSの新サービスAthenaを試してみました。KLabの分析基盤システムでは、すでにRedshiftやEMRを使用していますが、Athenaには、これらを補うような役割(低コストで導入し、アドホックな分析や定型的なレポートの作成をサポートするといった用途)を期待しています。 Athenaとは? ひとことで言えば、Athenaとは、S3上に置いてあるデータを高速にSQLで集計・分析できるサービスです。内部はPrestoをベースとしつつ、独自の改修をくわえて使用しているようです。Athena

    AWS Athenaを使ってみよう
  • AWS Athena雑感 - Go ahead!

    Amazon Athena — Serverless Interactive Query Service - AWS Prestoのフォースを感じたので,知り合いが試した情報も含めて,今思っている所を書いてみる. 実装 Athenaのページにあるように,実行エンジンは独自実装ではなくて,Facebookが公開しているPrestoを使っている.FacebookのみならずTreasure Data,Airbnb,Netflixなどクエリがガンガン飛ぶ環境で元気に動いている実績もあるので,拡張性,パフォーマンス,安定性で選ばれたのだろうと思われる.あとAWS的にJavaの方が相性は良さそう. パフォーマンス いくつかの記事で言及されている. Analyzing Data in S3 using Amazon Athena Amazon AthenaをBigQueryと比較してみた Amazon

  • Presto on EMR AMI4.x - Qiita

    EMRサンドボックス Amazon EMR Sandbox Applications いままではPrestoをEMR上にインストールする場合は、 カスタムブートストラップを利用して、Java8をインストールしたり Prestoのセットアップを行っていました 4.0からEMRサンドボックスが利用できるようになり カスタムブートストラップを利用しなくてもセットアップできるようになり さらに簡単にPrestoが触れます 現在3.x系awslabs/emr-bootstrap-actionsはそのまま利用しても動作しなそうです インストールされるjava8のバージョン起因でエラーが発生すると思います Setup 起動方法は2通りAwsConsole or AWSCLIのどちらかです Consoleは直感的ですごくよくわかるのでCLIの方だけ CLIによるクラスタ起動 AWS CLI Command

    Presto on EMR AMI4.x - Qiita
  • Amazon Elastic MapReduce with Hive/Presto ハンズオン(講義)

    12. 12 Amazon  Elastic  MapReduceとは? •  1クリックでHadoopクラスタが⼿手に⼊入る –  使い終わったらまとめて捨てるのも簡単 –  スポットインスタンスを使ったコストカットも •  設定済のアプリケーションがすぐ使える –  Application:  Hive,  Hue,  Impalaなど –  Bootstrap  Action:  Presto,  Sparkなど •  ⾏行行うべき処理理を簡単に設定できる –  ジョブが終わったらクラスタを消すところまで⾃自動化 13. 13 Task Node Task Instance Group Amazon  EMRのアーキテクチャ security group security group Master Node Master Instance Group Amazon S3 Dynamo

    Amazon Elastic MapReduce with Hive/Presto ハンズオン(講義)
  • AWS EMRでPrestoを動かしてshibからクエリ流してみる

    Spark, SQL on Hadoop etc. Advent Calendar 2014の最終日です。 書くこと AWS EMR/S3 + Hive + Presto + Hue + Shibの環境を構築し、簡単にトライアルしてみる。 Prestoについて Facebookがオープンソースで開発しているMPP(Massively Parallel Processing)クエリエンジン。 家: Presto - Distributed SQL Query Engine for Big Data TDさんのわかりやすい解説: 『Prestoとは何か,Prestoで何ができるか』 同じ系統のクエリエンジン括りだとImpalaやApache DrillがOSSとして開発されている。MPPクエリエンジン/データベースの大まかな流れや種類、それぞれの使いドコロについてははコチラの記事が最高にまと

  • MPP on Hadoop, Redshift, BigQuery - Go ahead!

    Twitterで「早く今流行のMPPの大まかな使い方の違い書けよ!」というプレッシャーが半端ないのでてきとうに書きます.この記事は俺の経験と勉強会などでユーザから聞いた話をもとに書いているので,すべてが俺の経験ではありません(特にBigQuery).各社のSAの人とかに聞けば,もっと良いアプローチとか詳細を教えてくれるかもしれません. オンプレミスの商用MPPは使ったことないのでノーコメントです. MPP on HadoopでPrestoがメインなのは今一番使っているからで,Impalaなど他のMPP on Hadoop的なものも似たような感じかなと思っています. もちろん実装の違いなどがあるので,その辺は適宜自分で補間してください. 前提 アプリケーションを開発していて,そのための解析基盤を一から作る. 簡単なまとめ データを貯める所が作れるのであれば,そこに直接クエリを投げられるPre

  • Netflix running Presto in the AWS Cloud

    Netflix runs Presto in its AWS cloud environment to enable low-latency ad-hoc queries on petabyte-scale data stored in S3. Some key things Netflix did include optimizing Presto to read from and write directly to S3, fixing bugs, integrating Presto with its EMR and Ganglia monitoring, and deploying a 100+ node Presto cluster that handles over 1000 queries per day. Performance testing showed Presto

    Netflix running Presto in the AWS Cloud
  • 1