[B! presto] fumikonyのブックマーク

Docker のログを columnify で Athena (Presto) に特化した Parquet にする

先日 columnify という、入力データを Parquet フォーマットに変換するツールがリリースされました。 cf. 軽量な Go 製カラムナフォーマット変換ツール columnify を作った話 - Repro Tech Blog また、fluent-plugin-s3 で compressor として columnify をサポートする話が出ています。1 cf. Add parquet compressor using columnify by okkez · Pull Request #338 · fluent/fluent-plugin-s3 個人的に前々から Docker のログを Parquet フォーマットで S3 に put して Athena で検索できると素敵だなと思っていたので喜ばしいことですね！そんなわけで、Docker のログを fluentd log dr

fumikony 2020/08/26

リンク

Amazon EMR での Presto | AWS

Presto は、オープンソースの分散 SQL クエリエンジンで、低レイテンシーでアドホックなデータ分析用に最適化されています。ANSI SQL 標準をサポートしており、複雑なクエリ、集計、結合、ウィンドウ関数を実行できます。Presto を使用して、Hadoop Distributed File System (HDFS) や Amazon S3 など、複数のデータソースのデータを処理できます。Presto には 2 つのコミュニティプロジェクトがあります – PrestoDB と PrestoSQL です。Amazon EMR では、これらのプロジェクトの両方がサポートされています。PrestoDB の詳細については、こちらをご覧ください。マネージド型 Presto クラスターは、AWS マネジメントコンソール、AWS CLI、または Amazon EMR API からすばやく簡単に

fumikony 2018/06/27

presto

リンク

楽しいビッグデータ分析入門~Presto編~

fumikony 2018/06/27

presto

リンク

Prestoを試してみた - すだちっこのOrdinary Days

Prestoを試してみたのでまとめておきます。 Prestoとは Presto Facebookが開発したSQLクエリエンジンです。 HDFS上のデータに対してSQLで処理が出来ます。 HiveでもSQLライクに処理は出来るのですがHiveはMapReduceで動作する為、処理が遅く PrestoはMapRedcueを使わない為、高速に処理できます（ImpalaもPrestoと同様） PrestoアーキテクチャこちらにあるとおりCoodinatorとWorkerで動作します。 HiveのMetadataを参照してHDFS上のデータを読み込みます。検証構成サンプルデータはこちらを使用しました。 HDFSとHiveの構築はCloudera-managerからサクッと行いました。今回はCoordinator1台+Worker2台構成です。 Prestoインストールこちらを参考にインス

fumikony 2018/06/27

presto

リンク

AWS Athenaを使ってみよう

KLab Advent Calendar 10日目の記事です。KLab分析基盤チームの高田です。分析基盤チームでは、社内向けに各種KPIを提供している他、KG SDKのKPIレポートシステムを通じて、パートナー向けにシステムを提供しています。今回は、先日re:Invent 2016で発表されたばかりのAWSの新サービスAthenaを試してみました。KLabの分析基盤システムでは、すでにRedshiftやEMRを使用していますが、Athenaには、これらを補うような役割(低コストで導入し、アドホックな分析や定型的なレポートの作成をサポートするといった用途)を期待しています。 Athenaとは? ひとことで言えば、Athenaとは、S3上に置いてあるデータを高速にSQLで集計・分析できるサービスです。内部はPrestoをベースとしつつ、独自の改修をくわえて使用しているようです。Athena

fumikony 2018/06/25

リンク

『Prestoとは何か，Prestoで何ができるか』 - トレジャーデータ（Treasure Data）ブログ

トレジャーデータはクラウドでデータマネージメントサービスを提供しています。 Hadoop Conference Japan 2014 以前に告知したHadoop Conference Japan 2014で，弊社Software Architectの古橋が発表しました。テーマは，Facebookが公開した新しい分散処理基盤，Presto。実はFacebookが彼らの超大規模なデータセットに対してインタラクティブに結果を返せるようにと開発されたものです。開発が始まってまだ2年も経っておりませんが，今ではトレジャーデータを初めとして多くのハッカー達がコミッターとして参加する活発的なプロジェクトに成長しています。 PrestoはHiveやImpalaと同じ「SQL Query Engine」であり，特に数百GBを超える大規模データに対してもインタラクティブなレスポンスを（コンマ0秒以下，遅くて

fumikony 2016/12/01

リンク

はてなブックマーク

タグ

関連タグで絞り込む (4)

prestoに関するfumikonyのブックマーク (6)

お知らせ

今週のはてなブックマーク数ランキング（2024年6月第3週）

今週のはてなブックマーク数ランキング（2024年6月第2週）

月間はてなブックマーク数ランキング（2024年5月）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス