管理が困難―分散処理の常識はZooKeeperで変わる:ビッグデータ処理の常識をJavaで身につける(8)(1/3 ページ) Hadoopをはじめ、Java言語を使って構築されることが多い「ビッグデータ」処理のためのフレームワーク/ライブラリを紹介しながら、大量データを活用するための技術の常識を身に付けていく連載 分散処理の課題が「管理」なのは常識 複数の計算機上で動作(分散)するアプリケーション、ソフトウェアが多く存在します。分散ソフトウェアは複数の計算機で動作することで大量のデータを扱えたり、高負荷な状況に対処します。本稿では、複数の計算機(クラスタ)で動作する各サーバを「インスタンス」と呼びます。 本連載で紹介した分散Key-Valueデータベースである「HBase」は複数の計算機で動作する代表的なソフトウェアです。両ソフトウェアはともに「Apache ZooKeeper」(以下、Z
こんにちは。ようやく1ページ全てまとめ終わったので、 最後にまとめ投稿として投稿しておきます。 尚、ページは下記です。 http://kafka.apache.org/07/design.html ========== 1.何故Kafkaは作られたのか? 元々はLinkedInのActivity StreamとData Processingをパイプライン式に繋ぐために開発されたプロダクト。 最近はTumblr、DataSiftといった企業でも使用されている。 → SNSや、複数のサービスの情報を統合するようなシステムで使われているようです。 ここでいうActivity Streamとは Webページで閲覧、検索、リンク設定などを行う活動全般を指す。 これらのデータは通常のシステムならば、ログファイルとして出力し、後で別途解析に用いられる。 もう一つ言葉を定義する。 Operational
ZooKeeper ZooKeeperとは、CoreOSのetcd や Hashicorpのconsul等とよく並び称される、 いわゆるCordination Serviceツールです。 詳しく知りたい方は、公式ドキュメントを、とりあえずおおまかな特徴を抑えたいという方は こちらの記事が非常によくまとまっていて わかりやすかったので、ご参照頂ければと思います。 尚、本エントリーではZooKeeperの説明は(ほとんど)行いません。 予めご了承下さい。 Service Discovery 従来、Service Discovery といえば service discovery protocol (SDP)や、DNS-SD など、 インフラ、ネットワーク周りのプロトコルやそれらが提供する機能を指すことが多かったかと思います。 昨今は Micoservices という、サービスを細かく分け、それぞ
年末年始、まとまった時間が取れるので、zookeeper お勉強を進めようと思う 勉強したことをここにメモしておく 間違っていたら指摘してほしい まずはここから http://zookeeper.apache.org/doc/trunk/zookeeperOver.html Zookeeper とは 分散アプリケーション向けの高パフォーマンスな協調サービスである. なんのこっちゃ. もう少し噛み砕くと,,, Zookeeper は分散アプリケーションを構築する上で必要となる, 同期, 設定管理, グルーピング, 名前管理, などの機能を提供するサービスである. 分散アプリケーションを作成する上では, 上記で述べた, 同期, 設定管理, ... 等の機能は必須となる. 上記で述べた機能を実装することは難しい...というか真面目に作ろうとすれば死ぬほど面倒くさい. Zookeeper は, こ
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く