[B! apache][hadoop] teddy-gのブックマーク

teddy-g id:teddy-g

apacheとhadoopに関するteddy-gのブックマーク (4)

An introduction to Apache Hadoop for big data
teddy-g 2016/12/08
Hadoop Ecosystemの絵だけ欲しくて見つけた記事だけど、Hadoopの基本的な内容について色々説明してある。

hadoop

HDFS

yarn

apache

MapReduce
リンク
Apache Kafka について | ギャップロ
Kafka と ZooKeeper ZooKeeper の詳細 ZooKeeper は、分散アプリケーションのためのオープンソースの分散コーディネーションサービスです。ZooKeeper は Java で動作し、Java と C のためのバインディングが用意されています。クラスタ (マルチサーバー) セットアップ ZooKeeper は奇数単位でアンサンブルと呼ぶクラスタを組みます。アンサンブルの過半数が動作している必要があるので、奇数台のマシンを使うのがベストです。たとえば 4 台のマシンを使う場合、ZooKeeper が対応できるのはマシン 1 台の障害までです。2 台のマシンに障害が発生すると、残りの 2 台では過半数にならないためです。5 台のマシンを使えば、ZooKeeper はマシン 2 台までの障害に対応できます。その中の 1 台がリーダー選挙を通して全ての書き込みを調停
teddy-g 2016/11/13
こっちはKafkaのBroker管理で使われているZookeeperのことにも触れてある。

apache

kafka

distributed

architecture

hadoop

realtime

streaming
リンク
Apache Kafkaに入門した
Apache kafka 最近仕事でApache Kafkaの導入を進めている．Kafkaとは何か? どこで使われているのか? どのような理由で作られたのか? どのように動作するのか（特にメッセージの読み出しについて）? を簡単にまとめておく（メッセージングはまだまだ勉強中なのでおかしなところがあればツッコミをいただければ幸いです）．バージョンは 0.8.2 を対象に書いている． Apache Kafkaとは? 2011年にLinkedInから公開されたオープンソースの分散メッセージングシステムである．Kafkaはウェブサービスなどから発せられる大容量のデータ（e.g., ログやイベント）を高スループット/低レイテンシに収集/配信することを目的に開発されている．公式のトップページに掲載されているセールスポイントは以下の4つ． Fast とにかく大量のメッセージを扱うことができる Scal
teddy-g 2016/11/13
結局、ググってトップにくるこの記事がKafkaの説明で一番分かりやすかった。実装しない身なら、高速メッセージング処理用のPub/Sub型システムと覚えとくくらいでいいかしら。

apache

kafka

distributed

architecture

hadoop

realtime

streaming
リンク
IBM SPSS Modeler - ODBC Configuration Best Practices and Troubleshooting
IBM Developer is your one-stop location for getting hands-on training and learning in-demand skills on relevant techno logies such as generative AI, data science, AI, and open source.
teddy-g 2015/07/06
YARNの説明。言葉の定義が変わってるので原理主義的には分かりにくくなったように思う。内容は前と変わってない。

hadoop

apache

yarn

bigdata
リンク
1

お知らせ

もっと読む

公式Twitter

@HatenaBookmark
リリース、障害情報などのサービスのお知らせ
@hatebu
最新の人気エントリーの配信

キーボードショートカット一覧

j次のブックマーク

k前のブックマーク

lあとで読む

eコメント一覧を開く

oページを開く

設定を変更しましたx