shunmatsuのブックマーク / 2017年6月3日

shunmatsu id:shunmatsu

2017年6月3日のブックマーク (3件)

Treasure Data Service と Redshift のハイブリッドアーキテクチャ - トレジャーデータ（Treasure Data）ブログ
*トレジャーデータはデータ収集、保存、分析のためのエンドツーエンドでサポートされたクラウドサービスです。 Treasure Data Service はそれ自身がデータの収集から可視化までの一気通貫したサービスですが，他の様々なサービスと連携することによって各々の分析ニーズにマッチしたアーキテクチャを構成することができます。今回は Amazon Redshift とのハイブリッドアーキテクチャ等の具体的なケースを見て，視野を広めていきましょう。バッチ処理 Treasure Data Service は標準ではHiveQLによってクラウドストレージに集計処理を実行することができるのですがこれはいわゆる「バッチ処理」という分類で，スケジューリングされたクエリが定時的にバックエンドで集計されるものです。以前紹介したダッシュボード（上図）：MetricInsights などでは独立したウィジェ
shunmatsu 2017/06/03
バッチ処理

Redshift

treasuredata

TD

Bigdata
リンク
AWS EMRでPrestoを動かしてshibからクエリ流してみる
Spark, SQL on Hadoop etc. Advent Calendar 2014の最終日です。書くこと AWS EMR/S3 + Hive + Presto + Hue + Shibの環境を構築し、簡単にトライアルしてみる。 Prestoについて Facebookがオープンソースで開発しているMPP(Massively Parallel Processing)クエリエンジン。本家: Presto - Distributed SQL Query Engine for Big Data TDさんのわかりやすい解説: 『Prestoとは何か，Prestoで何ができるか』同じ系統のクエリエンジン括りだとImpalaやApache DrillがOSSとして開発されている。MPPクエリエンジン/データベースの大まかな流れや種類、それぞれの使いドコロについてははコチラの記事が最高にまと
shunmatsu 2017/06/03
Hive

Presto

hadoop

mpp

SQL

AWS
リンク
MPP on Hadoop, Redshift, BigQuery - Go ahead!
Twitterで「早く今流行のMPPの大まかな使い方の違い書けよ！」というプレッシャーが半端ないのでてきとうに書きます．この記事は俺の経験と勉強会などでユーザから聞いた話をもとに書いているので，すべてが俺の経験ではありません(特にBigQuery)．各社のSAの人とかに聞けば，もっと良いアプローチとか詳細を教えてくれるかもしれません．オンプレミスの商用MPPは使ったことないのでノーコメントです． MPP on HadoopでPrestoがメインなのは今一番使っているからで，Impalaなど他のMPP on Hadoop的なものも似たような感じかなと思っています．もちろん実装の違いなどがあるので，その辺は適宜自分で補間してください．前提アプリケーションを開発していて，そのための解析基盤を一から作る．簡単なまとめデータを貯める所が作れるのであれば，そこに直接クエリを投げられるPre
shunmatsu 2017/06/03
BigQuery

Presto

Redshift

hadoop

AWS

impala

mpp
リンク
- 2017年6月5日
- 2017年6月3日
- 2017年6月1日