タグ

分散とhbaseに関するkana321のブックマーク (2)

  • 第5回 大規模データを扱うためのHBaseとCassandra | gihyo.jp

    どんなところに使える? HBaseやCassandraはどちらもRDBMSで扱いきれないような大規模なデータの扱いに力を発揮します。強力なスケーラビリティも備えているため、データが増えても処理速度はそれほど低下しません。また、列指向データベースの強みを活かして、大量のデータを更新するようなバッチ処理のストレージとして利用しても有用でしょう。 具体的な利用シーン 大規模なデータをスケーラブルに処理する必要がある場合 大量データをバッチ処理する際のストレージとしての利用 HBaseのインストール 稿では、実際にHBaseを使ってみましょう[1]⁠。 まずは1台のサーバ上で環境を整えます。わかりにくかもしれないので、以下の手順を参考にしてください。JDK6およびHadoopのインストールが必要です。 プロンプト1 HBaseのインストール&起動の手順 # http://java.sun.com

    第5回 大規模データを扱うためのHBaseとCassandra | gihyo.jp
    kana321
    kana321 2014/12/07
    大規模データを扱うためのHBaseとCassandra
  • 今更CAP定理で分散データストアの勉強を始めてみた - As a Futurist...

    長くなったので三行でまとめると CAP 定理を素人なりに調べてみた 分散データストアを CAP 定理で俯瞰してみた どのデータストア使うかの決定因子は CAP 定理的な視点の方がインタフェースとかより先 異論は認めるというか、専門知識ゼロなのでもっと正しい理解があればぜひ教えてくださいませ。 はじめに 僕は MySQL 厨なんですが、最近はやれ「MongoDB がいい」だの「HBase 最高」だのとよく聞きます。これら多種多様なデータストアを語る上で、「RDBMS VS NoSQL」みたいに問い合わせ言語の方式やデータ保存形式の違いで語るのは宗教論かなぁと僕は思ってます。単体プロセスのデータストアとしての特徴とか性能とかは正直なんでもいいかなぁと。 思うに、質的に重要なのは MySQL の master-slave&sharding という Web で今までスタンダードに使われてきた分散

    今更CAP定理で分散データストアの勉強を始めてみた - As a Futurist...
  • 1