Lessons learned while taking Presto from alpha to production at Twitter. Presented at the Presto meetup at Facebook on 2015.03.22. Video: https://www.facebook.com/prestodb/videos/531276353732033/Read less
2015.12.22 スケールアウト可能なSQLエンジンのベンチマークテスト:Presto vs Spark SQL vs Hive on Tez 1、初めに 次世代システム研究室のL.G.Wです。最近リリースした関連記事推薦システム:TAXEL byGMOに携わっております。 このシステムは多様なデータソースからの集計・解析・ETLが重要になるので、性能とビジネス要件を満たすSQLエンジンを選定するため、主要なSQLエンジンのベンチマークテストを実施しました。 “Small Start, Scale Fast” – 最初のハードウェアコストをなるべく低く抑え、ビジネスが拡大したらシステムも拡張できることが前提です。主にバッチ処理用途で、ある程度のリアルタイム性も要求されます(数分間~1時間内)。データの規模は数十GBから数TBくらいの想定です。 主要なSQLエンジンとして、スケーラビリテ
Presto is an open source distributed SQL query engine for running interactive analytic queries against data sources of all sizes ranging from gigabytes to petabytes. It is written in Java and uses a pluggable backend. Presto is fast due to code generation and runtime compilation techniques. It provides a library and framework for building distributed services and fast Java collections. Plugins all
トレジャーデータはクラウドでデータマネージメントサービスを提供しています。 3月11日と12日の二日間で、Treasure Dataのエンジニアによるイベント Treasure Data Tech Talk 〜クラウドサービスを支える技術〜を開催いたしました。 Treasure Data Tech Talk 〜クラウドサービスを支える技術〜 http://eventdots.jp/event/373902 Treasure Data Tech Talk 〜クラウドサービスを支える技術〜 “The Deep Day” http://eventdots.jp/event/387738 二日間で200名以上の方に参加していただき、私たちも非常に貴重な時間を過ごすことができました。 参加者の皆様、会場を提供をしてくださったフリークアウトさんとDeNAさん、またイベント開催にご協力頂きましたdots
This document summarizes a presentation about Presto, an open source distributed SQL query engine. It discusses Presto's distributed and plug-in architecture, query planning process, and cluster configuration options. For architecture, it explains that Presto uses coordinators, workers, and connectors to distribute queries across data sources. For query planning, it shows how SQL queries are conve
Presto is a distributed SQL query engine that allows for interactive analysis of large datasets across various data sources. It was created at Facebook to enable interactive querying of data in HDFS and Hive, which were too slow for interactive use. Presto addresses problems with existing solutions like Hive being too slow, the need to copy data for analysis, and high costs of commercial databases
(この記事は、Hadoop Advent Calender 2013 の12日目の記事です) こんにちは、Amebaのログ解析基盤Patriotの運用をしている、鈴木(@brfrn169)と柿島大貴です。 Patriotについては以下をご覧ください。 http://ameblo.jp/principia-ca/entry-10635727790.html http://www.slideshare.net/cyberagent/cloudera-world-tokyo-2013 今回、Amebaのログ解析基盤PatriotにCloudera ImpalaとPrestoを導入しました。 Cloudera ImpalaとPrestoのインストール方法や詳細ついては、下記URLをご覧ください。 Cloudera Impala http://www.cloudera.com/content/clo
Calling our Presto community speakers – we want to hear from you! Fill out out community call for papers to speak at upcoming meetups and conferences. What is Presto?Presto is an open source SQL query engine that’s fast, reliable, and efficient at scale. Use Presto to run interactive/ad hoc queries at sub-second performance for your high volume apps.
https://www.facebook.com/notes/facebook-engineering/presto-interacting-with-petabytes-of-data-at-facebook/10151786197628920 Facebookがエンジニアブログで、ペタバイト級のデータを効率よくクエリするエンジンPrestoを紹介しています。 1) Background Facebookは世界有数の300ペタバイトのデータウェアハウスをもち、そのデータはバッチ処理、ソーシャルグラフ分析、機械学習、リアルタイムインタラクティブ分析など様々な用途に使われている。 そのデータは、いくつかの大きなHadoop/HDFSベースのクラスターにある。Hadoop/MapReduce/Hiveは、大規模で信頼性の高い計算処理、全体システムスループット最適化という特性がある。しかし、ペタ