[B! presto] yassan0627のブックマーク

Project Tardigrade delivers ETL at Trino speeds to early users

yassan0627 2022/05/07

リンク

高性能分散SQLエンジン「Trino」最速ガイド - NTT Communications Engineers' Blog

こんにちは。なんの因果かNTTコミュニケーションズのエバンジェリストをやっている西塚です。この記事は、NTT Communications Advent Calendar 2021 22日目の記事です。 5分でわかる「Trino」「Trino」は、異なるデータソースに対しても高速でインタラクティブに分析ができる高性能分散SQLエンジンです。以下の特徴を持っており、ビッグデータ分析を支える重要なOSS(オープンソースソフトウェア)の1つです。 SQL-on-Anything: Hadoopだけでなく従来のRDBMS(リレーショナルデータベース)やNoSQLまで、標準SQL(ANSI SQL)に準拠したアクセスをワンストップに提供並列処理でビッグデータに対して容易にスケールアップしかも高速(hiveの数十倍) Netflix, LinkedIn, Salesforce, Shopif

yassan0627 2021/12/24

リンク

Impala 4.0 とPresto 350によるSQLレシピ本の検証（１）

Distributed computing (Apache Spark, Hadoop, Kafka, …) Advent Calendar 2021 23日目です。今年も Hue について書こうかと考えていましたが、最近 SQL(Presto)やEmbulk,Digdagを使う機会が増えているので趣向を変えてみます。 Hueについて興味がある方は[公式ブログ（日本語）](http://https://jp.gethue.com//posts/ “公式ブログ（日本語）”)をご覧ください。翻訳サボってます・・・ ———— SQL レシピ本とは？ビッグデータ系の良書の一冊でもある「ビッグデータ分析のためのSQL レシピ本」、出版から4年経過しても色あせることはありません。この書籍では、SQLの記述方法から分析手法まで広く扱われおり、写経するだけでも大きな知見が得られるでしょう。一方、扱われ

yassan0627 2021/12/24

リンク

Trino/Prestoの互換性調査補助ツールを作った - たけぞう瀕死ブログ

Trino/Prestoをバージョンアップする際には事前に動作の互換性検証などを行なっているのですが、検証作業自体は以前Presto Conference Tokyo 2020でも紹介させていただいたquery-simulatorという内製のツールを使って自動化されているものの、実際に非互換の挙動を発見した後の原因調査（原因のコミットを特定してバグかどうかの判断をする）については引き続き地道な作業が必要な状態でした。 Trino/Pretsoは開発が非常にアクティブで、1回のリリースに数百のコミットが含まれます。1年程度バージョンアップを怠っているだけでも変更が巨大すぎてコードの変更履歴から原因を特定するのは非常に困難になります。そこで、まずは複数バージョンのTrino/Prestoでクエリの実行結果を比較することで変更が導入されたバージョンを特定し、その後、そのバージョンのコミットの中か

yassan0627 2021/09/21

presto
trino

リンク

Testing Distributed Query Engine as a Service

Naoki Takezoe from Treasure Data discussed testing their distributed query engine Presto as a service. They developed a tool called presto-query-simulator to test using production data and queries in a safe manner. The tool reduces testing time by grouping similar queries and narrowing data scans. It also helps analyze results and find probl ematic queries. Future work includes running tests more f

yassan0627 2020/11/23

リンク

Hadoop利用者ならきっと知ってる、Hive/Prestoクエリ関数の挙動の違い - Qiita

HiveQLではスピードに難を感じていたため、私もPrestoを使い始めました。 MySQLやHiveで使っていたクエリを置き換える時にハマったTipsをまとめていきます。 AWS AthenaでPrestoを使っている方も増えてると思うので、Presto標準関数での記述例も拡充していきます。 Prestoとは Prestoはオンメモリで動く分散SQLエンジンで、その進化は目を見張る物です。発表された当時は色々な成約があり使うことを躊躇していましたが、2015年頃からはもう使わない理由はなくなりました。アドホックに使えるとても高速なSQLエンジンですので、バッチ向けのHiveのように実行結果を待つ時間はほとんどありません。 Hiveですと1つ1つの実行に時間が掛かるので、クエリに慣れていない新参者には辛い物がありました。しかしPrestoではインタラクティブに実行できますので、トライ

yassan0627 2020/04/24

これは良記事。知らない使い方が色々あって参考になった。

リンク

Presto with Kubernetes and S3 — Deployment

I have been working in the big data arena for more than ten years. If you ask me what is the most popular use case in this area I have seen so far, my answer is definitely SQL for big data. Everyone likes SQL. There are so many SQL for big data solutions, including Apache Hive, SparkSQL, Impala and Presto, just to name a few. Among these solutions, Presto is becoming my favorite, not only for its

yassan0627 2020/04/17

リンク

Cloud-Nativeなデータ分析基盤におけるPrestoの活用 / Cloud-Native Data Infrastructure with Presto

Hadoop / Spark Conference Japan 2019で話した資料です。 http://hadoop.apache.jp/hcj2019-program/

yassan0627 2019/03/22

リンク

Hive , Presto , Drill のプッシュダウンの考察 - 沼津暮らし

最近は大きなデータを扱うクエリエンジンがたくさん増えてきました。一昔前はデータをフルスキャンして処理するパターンが多かったのですが、やはりこの方法では処理コストが大きくなるのが課題となりました。そこでデータの読み込みでの処理コストを削減するために最近ではデータベースのように必要なカラムだけを読み込んだり、不要な行・ページをスキップするプッシュダウンの機能を持ったビッグデータ向けのクエリエンジンが増えてきました。今日は Hive , Presto , Drill のプッシュダウンについて見ていきたいと思います。プッシュダウンの種類テキストや行でデータを変換しているフォーマットの場合にはすべてのフィールドを全て読み込むことになります。 ORCやParquetなどのカラムナーフォーマットの場合には列毎にデータを保持しているため、特定のカラムや列での統計情報（MaxやMin）などを持って

yassan0627 2018/12/18

HDFSから要らない行や列を取り出すpushdownの話

リンク

How to growth the delish kitchen team to data-driven team

DatabricksとSparkではじめる [ビッグデータETL処理/データ可視化] 実践入門 / Databricks and Spark with ETL and Visualization

yassan0627 2018/02/20

リンク

DMM.comのビッグデータ基盤を支える技術

TECH PLAY Conference 2017 の発表資料となりますビッグデータを活用したWebサービスの技術 #techplayconf2017 #techplayjp https://techplay.jp/event/628968 株式会社DMM.comラボ鈴木翔太 / 吉田龍馬 === 弊社ビッグデータ部では、オンプレミス環境で Hadoop をベースとしたデータ基盤の保守運用を行っており、それに加えアドホック分析には Presto、エンジニア・アナリストが利用するBIツールとして Zeppelin / Re:dash、ETLにワークフローエンジン Digdag など様々なOSSを積極的に採用し、より快適な分析基盤の構築に努めています。当セッションでは、ビッグデータ部発足時の分析基盤の課題を解決するためにこれまでにどのような取り組みを行ってきたかをご紹介します。

yassan0627 2017/08/27

リンク

Hive (SQL-style) Query Language | Treasure Data

{"serverDuration": 35, "requestCorrelationId": "b45a8231fbaabbfb"}

yassan0627 2017/06/16

presto

リンク

『Prestoとは何か，Prestoで何ができるか』 - トレジャーデータ（Treasure Data）ブログ

トレジャーデータはクラウドでデータマネージメントサービスを提供しています。 Hadoop Conference Japan 2014 以前に告知したHadoop Conference Japan 2014で，弊社Software Architectの古橋が発表しました。テーマは，Facebookが公開した新しい分散処理基盤，Presto。実はFacebookが彼らの超大規模なデータセットに対してインタラクティブに結果を返せるようにと開発されたものです。開発が始まってまだ2年も経っておりませんが，今ではトレジャーデータを初めとして多くのハッカー達がコミッターとして参加する活発的なプロジェクトに成長しています。 PrestoはHiveやImpalaと同じ「SQL Query Engine」であり，特に数百GBを超える大規模データに対してもインタラクティブなレスポンスを（コンマ0秒以下，遅くて

yassan0627 2016/02/03

リンク

はてなブックマーク

タグ

関連タグで絞り込む (18)

prestoに関するyassan0627のブックマーク (13)

お知らせ

今週のはてなブックマーク数ランキング（2024年10月第2週）

今週のはてなブックマーク数ランキング（2024年10月第1週）

月間はてなブックマーク数ランキング（2024年9月）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス