タグ

hadoopに関するmichael-unltdのブックマーク (5)

  • 「Hadoopの時代は終わった」の意味を正しく理解する - 科学と非科学の迷宮

    Hadoopの時代は終わった、という言説をたまに見かけるようになりました。 もちろん終わってなどいません。しかし、Hadoopとその取り巻く環境が変化したのは事実です。 記事では、この変化が何なのかを明らかにし、その上で、なぜHadoopの時代は終わったという主張が実態を正しく表していないのかを説明していきます。 DISCLAIMER 私はHadoopを中心としたデータ基盤を取り扱うベンダー、Clouderaの社員です。 中立的に書くよう努めますが、所属組織によって発生するバイアスの完全な排除を保証することはできません。 以上をご了承の上、読み進めてください。 要約 データ基盤は、Hadoopの登場により非常に安価となり、今まででは不可能だった大量のデータを取り扱えるようになりました。 Hadoopは、NoSQLブームの中、処理エンジンであるMapReduceとストレージであるHDFSが

    「Hadoopの時代は終わった」の意味を正しく理解する - 科学と非科学の迷宮
    michael-unltd
    michael-unltd 2017/07/10
    “処理エンジンに重きを置く人はまずSparkやBigQueryを前提にストレージエンジンを探すでしょうし、ストレージに重きを置く人はまずHDFSやS3というストレージ選定から始めて処理エンジンを探すでしょう。”
  • A year of using Presto in production | GREE Engineering

    I'm Yuyang Lan @ Data Infrastructure team. Here is the 14th entry of GREE Advent Calendar 2014. Please enjoy it! Presto (distributed SQL query engine for Big Data open sourced by Facebook) has already been used in GREE's production environment for more than 1 year, and is now an indispensable part to our Big Data toolbox. In this article, I will present you how we use presto and hope that would be

    A year of using Presto in production | GREE Engineering
  • AWS EMRでPrestoを動かしてshibからクエリ流してみる

    Spark, SQL on Hadoop etc. Advent Calendar 2014の最終日です。 書くこと AWS EMR/S3 + Hive + Presto + Hue + Shibの環境を構築し、簡単にトライアルしてみる。 Prestoについて Facebookがオープンソースで開発しているMPP(Massively Parallel Processing)クエリエンジン。 家: Presto - Distributed SQL Query Engine for Big Data TDさんのわかりやすい解説: 『Prestoとは何か,Prestoで何ができるか』 同じ系統のクエリエンジン括りだとImpalaやApache DrillがOSSとして開発されている。MPPクエリエンジン/データベースの大まかな流れや種類、それぞれの使いドコロについてははコチラの記事が最高にまと

    michael-unltd
    michael-unltd 2015/04/27
    “「商用DWHを置き換えっぞ」っていう気合の入った目標に見合うパフォーマンス, SQL分析関数を早々に実装しANSI SQLを完コピしつつJSONも華麗に扱る上、既存Hadoopエコシステムや、RDBMSとのつなぎ込み部分...”
  • 最弱のHadoopクラスタをRaspberry Piで構築する - もょもとの技術ノート

    はじめに HadoopのHA勉強したいなーと思い、Hadoopクラスタ組んでみました。 で、環境をどうするかが問題です。 次のパターンでHadoopクラスタ組めないか、考えました。 AWS サーバー自作で仮想化 インテルのNUC Raspberry Pi AWSって最高じゃないですか。でも、手元に物理的な筐体がないと物足りないんですよね。なんだろ、これ。 サーバー自作は最後まで考えました。CPU何にするかまで考えました。でも、物理的に大きなものが、我が家に存在すると、いろいろ問題があるのですよ。奥様的に。で、却下。 インテルのNUC欲しかったです。でもSSDとか電源とか別途購入する必要があり、結果的にコストオーバー。 んで、消去法で、Raspberry PiでHadoopクラスタ組んでみることになりました。 ゴールはNameNode、DataNode、ResourceManager、Nod

    最弱のHadoopクラスタをRaspberry Piで構築する - もょもとの技術ノート
    michael-unltd
    michael-unltd 2014/12/23
    minimum turtorial
  • 「tagomorisが騙る はじめてのHadoop」 - たごもりすメモ

    深夜に「はじめてのHadoop」が出版されるとしたら欲しいネタの一覧をなんとなく考えてた。Hadoopクラスタのセットアップを新規にやるのが予定にあるので、それも含めてトピックだけ書き出しておこうかなと思った次第。 「初めてのHadoop」ちょっと考えてたが、例えば最初に考えるべきHDFSのblock sizeとかで、でもそれノード数とMR処理データ量の最大/平均サイズと、データ投入時の圧縮、そういうことをちゃんと考えないと決まらないんだよね、そういうことを書いてるがないよね、みたいな 2012-05-08 01:13:11 via TweetDeck 設計 HDFS総容量と処理対象のデータ量について ファイルの形式について (TextFile/SequenceFile/RCFile) データの圧縮について ノードあたりのHDD台数、ディスクの選択 CPUおよびメモリの選択 ノード数 H

  • 1