タグ

prestoとhadoopに関するhohoho_ho2005のブックマーク (9)

  • Amazon Elastic MapReduce (EMR) ではじめる Presto/Trino 入門

    Presto/Trino 1は日語の入門書がなく、「Presto/Trino を運用することになったけど何から勉強すれば良いかわからない><」という人も多いのではないかと思います。そこで、Presto/Trino を運用する時にこの辺の内容を知っていれば、よりスムーズにキャッチアップできたかなぁと思うことをまとめてみました。 Hive connector を使いたいので、Hive と Presto の環境構築をサクッと行える Amazon Elastic MapReduce (以降 EMR) で実際に手を動かせればと思います。 以降 Presto/Trino ではなく Presto と表記しますが、Trino は元々同じソフトウェアであるため、Trino でも当てはまる内容がほとんどのはずです。 なお、Presto のバージョンは 2019-03-13 時点で最新の EMR 5.21.0

    Amazon Elastic MapReduce (EMR) ではじめる Presto/Trino 入門
  • AWS Athenaを使ってみよう

    KLab Advent Calendar 10日目の記事です。KLab分析基盤チームの高田です。 分析基盤チームでは、社内向けに各種KPIを提供している他、KG SDKのKPIレポートシステムを通じて、パートナー向けにシステムを提供しています。 今回は、先日re:Invent 2016で発表されたばかりのAWSの新サービスAthenaを試してみました。KLabの分析基盤システムでは、すでにRedshiftやEMRを使用していますが、Athenaには、これらを補うような役割(低コストで導入し、アドホックな分析や定型的なレポートの作成をサポートするといった用途)を期待しています。 Athenaとは? ひとことで言えば、Athenaとは、S3上に置いてあるデータを高速にSQLで集計・分析できるサービスです。内部はPrestoをベースとしつつ、独自の改修をくわえて使用しているようです。Athena

    AWS Athenaを使ってみよう
  • 2種類のログ解析基盤 - wyukawa's diary

    僕は仕事では2種類のログ解析基盤を見ています。 1つ目はどちらかというとエンジニアよりの解析基盤でサービス側のエンジニアがShib, ShibUIを通して好きにクエリを投げることができます。ただしtableをcreateしたりdropしたりinsertしたりはできません。selectのみです。データの更新作業は別途cronのhive batchで行います。データはFluentd経由で各サービスのサーバーから収集します。こっちのシステムは古くからあって僕は引き継いだだけなので見ているとはいってもそんなにやることは無いですし、語れることも少ないです。 2つ目は約1年前に僕が一から構築したシステムでプランナーよりのシステムになってます。僕のチーム内のエンジニアだけがrawデータを触ったり更新したりすることができて、プランナーはレポートを通して加工されたデータを見る形になります。なので1つ目のシス

    2種類のログ解析基盤 - wyukawa's diary
  • Hadoop利用者ならきっと知ってる、Hive/Prestoクエリ関数の挙動の違い - Qiita

    HiveQLではスピードに難を感じていたため、私もPrestoを使い始めました。 MySQLやHiveで使っていたクエリを置き換える時にハマったTipsをまとめていきます。 執筆時点で最新版であった、Hive4 (Hive 2023.1)と、Presto 350を想定しています。 AWS AthenaでPrestoを使っている方も増えてると思うので、Presto標準関数での記述例も拡充していきます。 Prestoとは Prestoはオンメモリで動く分散SQLエンジンで、その進化は目を見張る物です。 発表された当時は色々な成約があり使うことを躊躇していましたが、2015年頃からはもう使わない理由はなくなりました。 アドホックに使えるとても高速なSQLエンジンですので、バッチ向けのHiveのように実行結果を待つ時間はほとんどありません。 Hiveですと1つ1つの実行に時間が掛かるので、クエリに

    Hadoop利用者ならきっと知ってる、Hive/Prestoクエリ関数の挙動の違い - Qiita
  • GREEを支えるテキスト情報可視化ツールのご紹介 | GREE Engineering

    こんにちは、マーケティング部の戸井田明俊と情報システム部の亀井利光です。 Advent Calendarの7日目(今日でグリー創立10周年!)は、ユーザーの皆様から頂いたご意見・ご感想などのテキスト情報を可視化するツール、UserText Dashboard(以下UTD)を開発した話です。 背景・目的 グリーでは、ユーザーの皆様から頂いたお問い合わせなどのテキスト情報を管理しています。 それらは今までデータの種類によって別々のストレージで管理されており、管理ツールも様々なものが混在していました。 またテキスト情報とユーザー様の属性情報が紐付けられていなかったため、ユーザーセグメントごとの分析が不十分でした。 そこでユーザーの皆様のご意見・ご感想をもれなくくみとり、より多くの方に安心してご利用していただけるサービス運用の実現をめざし、テキスト情報を一括で管理できる社内BIツールを開発しました

    GREEを支えるテキスト情報可視化ツールのご紹介 | GREE Engineering
  • SQL on Hadoop 比較検証 【2014月11日における検証レポート】

    Impala Meetup 2014/10/31 @Tokyo 講演資料 【注意事項】 資料で紹介している検証結果は2014年当時のものです。当該ソフトウェアは成長や改善が早く、現時点のバージョンでは大きく異なる機能や性能となっています。 SQL on Hadoopの最新情報に基づくサービスやシステムインテグレーションにご興味をお持ちの方は、NTTデータ 基盤システム事業部 OSSプロフェッショナルサービス(電子メール: hadoop [AT] kits.nttdata.co.jp) にご相談ください。Read less

    SQL on Hadoop 比較検証 【2014月11日における検証レポート】
  • MPP on Hadoop, Redshift, BigQuery - Go ahead!

    Twitterで「早く今流行のMPPの大まかな使い方の違い書けよ!」というプレッシャーが半端ないのでてきとうに書きます.この記事は俺の経験と勉強会などでユーザから聞いた話をもとに書いているので,すべてが俺の経験ではありません(特にBigQuery).各社のSAの人とかに聞けば,もっと良いアプローチとか詳細を教えてくれるかもしれません. オンプレミスの商用MPPは使ったことないのでノーコメントです. MPP on HadoopでPrestoがメインなのは今一番使っているからで,Impalaなど他のMPP on Hadoop的なものも似たような感じかなと思っています. もちろん実装の違いなどがあるので,その辺は適宜自分で補間してください. 前提 アプリケーションを開発していて,そのための解析基盤を一から作る. 簡単なまとめ データを貯める所が作れるのであれば,そこに直接クエリを投げられるPre

  • #hcj2014 並列SQLエンジンPresto - 大規模データセットを高速にグラフ化する方法のメモ。 - #garagekidztweetz

    http://pixabay.com/en/elephant-babies-elephant-family-278524/ Hadoop Confence Japan 2014 参加レポートエントリ、参加セッションのメモはこれで最後。 最後に参加してきたセッションは @frsyuki さんの「並列SQLエンジン Presto 」に参加してきました。 セッションに関して言うと Presto 云々より @frsyuki さんにひたすら脱帽(資料きれいだし、説明わかりやすいし、、、、)していました。 ちなみに今回、わたしが参加した中では、このセッション含め以下 2 つのセッションが魅力的でした*1。 LINELambda Architecture 実装紹介とでもいう内容だった #hcj2014 SQLによるバッチ処理とストリーム処理のメモ - #garagekidztweetz 法被を脱

    #hcj2014 並列SQLエンジンPresto - 大規模データセットを高速にグラフ化する方法のメモ。 - #garagekidztweetz
  • Blog | Cloudera

    ClouderaNOW  Learn about the latest innovations in data, analytics, and AI Watch now

    Blog | Cloudera
  • 1