タグ

2017年6月3日のブックマーク (3件)

  • Treasure Data Service と Redshift のハイブリッドアーキテクチャ - トレジャーデータ(Treasure Data)ブログ

    *トレジャーデータはデータ収集、保存、分析のためのエンドツーエンドでサポートされたクラウドサービスです。 Treasure Data Service はそれ自身がデータの収集から可視化までの一気通貫したサービスですが,他の様々なサービスと連携することによって各々の分析ニーズにマッチしたアーキテクチャを構成することができます。今回は Amazon Redshift とのハイブリッドアーキテクチャ等の具体的なケースを見て,視野を広めていきましょう。 バッチ処理 Treasure Data Service は標準ではHiveQLによってクラウドストレージに集計処理を実行することができるのですがこれはいわゆる「バッチ処理」という分類で,スケジューリングされたクエリが定時的にバックエンドで集計されるものです。 以前紹介したダッシュボード(上図):MetricInsights などでは独立したウィジェ

    Treasure Data Service と Redshift のハイブリッドアーキテクチャ - トレジャーデータ(Treasure Data)ブログ
  • AWS EMRでPrestoを動かしてshibからクエリ流してみる

    Spark, SQL on Hadoop etc. Advent Calendar 2014の最終日です。 書くこと AWS EMR/S3 + Hive + Presto + Hue + Shibの環境を構築し、簡単にトライアルしてみる。 Prestoについて Facebookがオープンソースで開発しているMPP(Massively Parallel Processing)クエリエンジン。 家: Presto - Distributed SQL Query Engine for Big Data TDさんのわかりやすい解説: 『Prestoとは何か,Prestoで何ができるか』 同じ系統のクエリエンジン括りだとImpalaやApache DrillがOSSとして開発されている。MPPクエリエンジン/データベースの大まかな流れや種類、それぞれの使いドコロについてははコチラの記事が最高にまと

  • MPP on Hadoop, Redshift, BigQuery - Go ahead!

    Twitterで「早く今流行のMPPの大まかな使い方の違い書けよ!」というプレッシャーが半端ないのでてきとうに書きます.この記事は俺の経験と勉強会などでユーザから聞いた話をもとに書いているので,すべてが俺の経験ではありません(特にBigQuery).各社のSAの人とかに聞けば,もっと良いアプローチとか詳細を教えてくれるかもしれません. オンプレミスの商用MPPは使ったことないのでノーコメントです. MPP on HadoopでPrestoがメインなのは今一番使っているからで,Impalaなど他のMPP on Hadoop的なものも似たような感じかなと思っています. もちろん実装の違いなどがあるので,その辺は適宜自分で補間してください. 前提 アプリケーションを開発していて,そのための解析基盤を一から作る. 簡単なまとめ データを貯める所が作れるのであれば,そこに直接クエリを投げられるPre