タグ

prestoに関するfumikonyのブックマーク (6)

  • Docker のログを columnify で Athena (Presto) に特化した Parquet にする

    先日 columnify という、入力データを Parquet フォーマットに変換するツールがリリースされました。 cf. 軽量な Go 製カラムナフォーマット変換ツール columnify を作った話 - Repro Tech Blog また、fluent-plugin-s3 で compressor として columnify をサポートする話が出ています。1 cf. Add parquet compressor using columnify by okkez · Pull Request #338 · fluent/fluent-plugin-s3 個人的に前々から Docker のログを Parquet フォーマットで S3 に put して Athena で検索できると素敵だなと思っていたので喜ばしいことですね!そんなわけで、Docker のログを fluentd log dr

    Docker のログを columnify で Athena (Presto) に特化した Parquet にする
  • Amazon EMR での Presto | AWS

    Presto は、オープンソースの分散 SQL クエリエンジンで、低レイテンシーでアドホックなデータ分析用に最適化されています。ANSI SQL 標準をサポートしており、複雑なクエリ、集計、結合、ウィンドウ関数を実行できます。Presto を使用して、Hadoop Distributed File System (HDFS) や Amazon S3 など、複数のデータソースのデータを処理できます。Presto には 2 つのコミュニティプロジェクトがあります – PrestoDB と PrestoSQL です。Amazon EMR では、これらのプロジェクトの両方がサポートされています。PrestoDB の詳細については、こちらをご覧ください。 マネージド型 Presto クラスターは、AWS マネジメントコンソール、AWS CLI、または Amazon EMR API からすばやく簡単に

    Amazon EMR での Presto | AWS
  • 楽しいビッグデータ分析入門~Presto編~

  • Prestoを試してみた - すだちっこのOrdinary Days

    Prestoを試してみたのでまとめておきます。 Prestoとは Presto Facebookが開発したSQLクエリエンジンです。 HDFS上のデータに対してSQLで処理が出来ます。 HiveでもSQLライクに処理は出来るのですがHiveはMapReduceで動作する為、処理が遅く PrestoはMapRedcueを使わない為、高速に処理できます(ImpalaもPrestoと同様) Prestoアーキテクチャ こちら にあるとおりCoodinatorとWorkerで動作します。 HiveのMetadataを参照してHDFS上のデータを読み込みます。 検証構成 サンプルデータはこちらを使用しました。 HDFSとHiveの構築はCloudera-managerからサクッと行いました。 今回はCoordinator1台+Worker2台構成です。 Prestoインストール こちらを参考にインス

    Prestoを試してみた - すだちっこのOrdinary Days
  • AWS Athenaを使ってみよう

    KLab Advent Calendar 10日目の記事です。KLab分析基盤チームの高田です。 分析基盤チームでは、社内向けに各種KPIを提供している他、KG SDKのKPIレポートシステムを通じて、パートナー向けにシステムを提供しています。 今回は、先日re:Invent 2016で発表されたばかりのAWSの新サービスAthenaを試してみました。KLabの分析基盤システムでは、すでにRedshiftやEMRを使用していますが、Athenaには、これらを補うような役割(低コストで導入し、アドホックな分析や定型的なレポートの作成をサポートするといった用途)を期待しています。 Athenaとは? ひとことで言えば、Athenaとは、S3上に置いてあるデータを高速にSQLで集計・分析できるサービスです。内部はPrestoをベースとしつつ、独自の改修をくわえて使用しているようです。Athena

    AWS Athenaを使ってみよう
  • 『Prestoとは何か,Prestoで何ができるか』 - トレジャーデータ(Treasure Data)ブログ

    トレジャーデータはクラウドでデータマネージメントサービスを提供しています。 Hadoop Conference Japan 2014 以前に告知したHadoop Conference Japan 2014で,弊社Software Architectの古橋が発表しました。 テーマは,Facebookが公開した新しい分散処理基盤,Presto。実はFacebookが彼らの超大規模なデータセットに対してインタラクティブに結果を返せるようにと開発されたものです。開発が始まってまだ2年も経っておりませんが,今ではトレジャーデータを初めとして多くのハッカー達がコミッターとして参加する活発的なプロジェクトに成長しています。 PrestoはHiveやImpalaと同じ「SQL Query Engine」であり,特に数百GBを超える大規模データに対してもインタラクティブなレスポンスを(コンマ0秒以下,遅くて

    『Prestoとは何か,Prestoで何ができるか』 - トレジャーデータ(Treasure Data)ブログ
  • 1