タグ

apacheとhadoopに関するteddy-gのブックマーク (4)

  • An introduction to Apache Hadoop for big data

    teddy-g
    teddy-g 2016/12/08
    Hadoop Ecosystemの絵だけ欲しくて見つけた記事だけど、Hadoopの基本的な内容について色々説明してある。
  • Apache Kafka について | ギャップロ

    Kafka と ZooKeeper ZooKeeper の詳細 ZooKeeper は、分散アプリケーションのためのオープンソースの分散コーディネーションサービスです。ZooKeeper は Java で動作し、Java と C のためのバインディングが用意されています。 クラスタ (マルチサーバー) セットアップ ZooKeeper は奇数単位でアンサンブルと呼ぶクラスタを組みます。アンサンブルの過半数が動作している必要があるので、奇数台のマシンを使うのがベストです。たとえば 4 台のマシンを使う場合、ZooKeeper が対応できるのはマシン 1 台の障害までです。2 台のマシンに障害が発生すると、残りの 2 台では過半数にならないためです。5 台のマシンを使えば、ZooKeeper はマシン 2 台までの障害に対応できます。 その中の 1 台がリーダー選挙を通して全ての書き込みを調停

    Apache Kafka について | ギャップロ
    teddy-g
    teddy-g 2016/11/13
    こっちはKafkaのBroker管理で使われているZookeeperのことにも触れてある。
  • Apache Kafkaに入門した

    Apache kafka 最近仕事でApache Kafkaの導入を進めている.Kafkaとは何か? どこで使われているのか? どのような理由で作られたのか? どのように動作するのか(特にメッセージの読み出しについて)? を簡単にまとめておく(メッセージングはまだまだ勉強中なのでおかしなところがあればツッコミをいただければ幸いです). バージョンは 0.8.2 を対象に書いている. Apache Kafkaとは? 2011年にLinkedInから公開されたオープンソースの分散メッセージングシステムである.Kafkaはウェブサービスなどから発せられる大容量のデータ(e.g., ログやイベント)を高スループット/低レイテンシに収集/配信することを目的に開発されている.公式のトップページに掲載されているセールスポイントは以下の4つ. Fast とにかく大量のメッセージを扱うことができる Scal

    teddy-g
    teddy-g 2016/11/13
    結局、ググってトップにくるこの記事がKafkaの説明で一番分かりやすかった。実装しない身なら、高速メッセージング処理用のPub/Sub型システムと覚えとくくらいでいいかしら。
  • IBM SPSS Modeler - ODBC Configuration Best Practices and Troubleshooting

    IBM Developer is your one-stop location for getting hands-on training and learning in-demand skills on relevant technologies such as generative AI, data science, AI, and open source.

    IBM SPSS Modeler - ODBC Configuration Best Practices and Troubleshooting
    teddy-g
    teddy-g 2015/07/06
    YARNの説明。言葉の定義が変わってるので原理主義的には分かりにくくなったように思う。内容は前と変わってない。
  • 1