walk77のブックマーク - はてなブックマーク

Apache Kafka 概要（Design）和訳まとめ - 夢とガラクタの集積場

こんにちは。ようやく１ページ全てまとめ終わったので、最後にまとめ投稿として投稿しておきます。尚、ページは下記です。 http://kafka.apache.org/07/design.html ＝＝＝＝＝＝＝＝＝＝ 1.何故Kafkaは作られたのか？元々はLinkedInのActivity StreamとData Processingをパイプライン式に繋ぐために開発されたプロダクト。最近はTumblr、DataSiftといった企業でも使用されている。 →　SNSや、複数のサービスの情報を統合するようなシステムで使われているようです。ここでいうActivity Streamとは Webページで閲覧、検索、リンク設定などを行う活動全般を指す。これらのデータは通常のシステムならば、ログファイルとして出力し、後で別途解析に用いられる。もう一つ言葉を定義する。 Operational

walk77 2013/09/06

Kafka

リンク

Apache Kafka 0.8.0の新機能／変更点 - 夢とガラクタの集積場

こんにちは。最近Clojureのお勉強投稿ばかりでしたが、Kafkaについて肝心なことを見落としていたので記述しておきます。 Kafkaは現在0.8.0が最新バージョンで開発が進められています。かつ、0.8.0で大きく信頼性が向上しているようなので、実際何が新しくなったかをまとめておきます。パーティションのレプリカ機能の追加 Kafkaは今まではKafka Brokerプロセスが落ちると該当のBrokerが保持していたパーティションは消滅していた。だが、0.8.0系以降は「設定でレプリカ数を１にしない限りレプリカを確保する」という動作となる。＝＝＝＝＝尚、Kafkaのレプリカ機能はCAP定理で言えばなんとCP型。「ネットワーク分断」という障害はほぼ発生しないとして割り切るアプローチを取っています。＝＝＝＝＝ ProducerとConsumerプロセスのレプリカへの対応 Kaf

walk77 2013/09/06

Kafka

リンク

Apache Sparkってどんなものか見てみる（その１ - 夢とガラクタの集積場

こんにちは。 Kafkaを試している最中で微妙ですが、最近使えるのかなぁ、と情報を集めているのが「Apache Spark」です。 MapReduceと同じく分散並行処理を行う基盤なのですが、MapReduceよりも数十倍速いとかの情報があります。・・・んな阿呆な、とも思ったのですが、内部で保持しているRDDという仕組みが面白いこともあり、とりあえず資料や論文を読んでみることにしました。まず見てみた資料は「Overview of Spark」（http://spark.incubator.apache.org/talks/overview.pdf）です。というわけで、読んだ結果をまとめてみます。 Sparkとは？高速でインタラクティブな言語統合クラスタコンピューティング基盤 Sparkプロジェクトのゴールは？以下の2つの解析ユースケースにより適合するようMapReduceを拡張

walk77 2013/09/06

Spark
Apache

リンク

Apache Spark Streaming＝大規模準リアルタイムストリーム処理？ - 夢とガラクタの集積場

こんにちは。 Sparkについて調べてみよう企画第２段（？）です。１回目はまずSparkとは何かの概要資料を確認してみました。その先はRDDの構造を説明している論文と、後Spark Streamingというストリーム処理基盤の資料がありました。とりあえず、そんなわけで（？）お手軽に概要がわかりそうなSpark Streamingの方を調べてみました。まず見てみた資料は「Overview of Spark Streaming」（http://spark.incubator.apache.org/talks/strata_spark_streaming.pdf）です。というわけで、読んだ結果をまとめてみます。 Spark Streamingとは何か？大規模ストリーム処理フレームワーク・100オーダーのノードにスケールする・秒単位のレイテンシで処理を実行可能・Sparkのバッチ

walk77 2013/09/06

リンク

Apache Kafkaってそもそも何か確認してみます（その１ - 夢とガラクタの集積場

こんばんは。最近Stormを調べていると、データ取得の手段としてApache Kafkaとの連携が記述されています。そのため、とりあえず何ができるか、の概要を調べてみました。最初はFlumeを使おうかとも思ったんですが、下記のようなモデルの祖語もあり、とりあえずApache Kafkaについて調べてみようという。 FlumeはCollectorSinkからデータソースに投入するPush型 StormはSpoutに対して自分からデータを取得しに行くPull型 →　上記の関係上、Flumeが取得したデータを一時的に蓄えるものが必要になります。・・・Listener仕掛けてキューに入れるとかですね。それをKafkaを使えば不要かなぁ、と思って確認しています。 1.何故Kafkaは作られたのか？元々はLinkedInのActivity StreamとData Processingを

walk77 2013/09/06

リンク

はてなブックマーク

タグ

ブックマーク / kimutansk.hatenablog.com (5)

お知らせ

今週のはてなブックマーク数ランキング（2024年11月第1週）

月間はてなブックマーク数ランキング（2024年10月）

今週のはてなブックマーク数ランキング（2024年10月第4週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス