タグ

ブックマーク / kimutansk.hatenablog.com (5)

  • Apache Kafka 概要(Design)和訳まとめ - 夢とガラクタの集積場

    こんにちは。ようやく1ページ全てまとめ終わったので、 最後にまとめ投稿として投稿しておきます。 尚、ページは下記です。 http://kafka.apache.org/07/design.html ========== 1.何故Kafkaは作られたのか? 元々はLinkedInのActivity StreamとData Processingをパイプライン式に繋ぐために開発されたプロダクト。 最近はTumblr、DataSiftといった企業でも使用されている。 → SNSや、複数のサービスの情報を統合するようなシステムで使われているようです。 ここでいうActivity Streamとは Webページで閲覧、検索、リンク設定などを行う活動全般を指す。 これらのデータは通常のシステムならば、ログファイルとして出力し、後で別途解析に用いられる。 もう一つ言葉を定義する。 Operational

    Apache Kafka 概要(Design)和訳まとめ - 夢とガラクタの集積場
    walk77
    walk77 2013/09/06
  • Apache Kafka 0.8.0の新機能/変更点 - 夢とガラクタの集積場

    こんにちは。最近Clojureのお勉強投稿ばかりでしたが、Kafkaについて肝心なことを見落としていたので記述しておきます。 Kafkaは現在0.8.0が最新バージョンで開発が進められています。 かつ、0.8.0で大きく信頼性が向上しているようなので、実際何が新しくなったかをまとめておきます。 パーティションのレプリカ機能の追加 Kafkaは今まではKafka Brokerプロセスが落ちると該当のBrokerが保持していたパーティションは消滅していた。 だが、0.8.0系以降は「設定でレプリカ数を1にしない限りレプリカを確保する」という動作となる。 ===== 尚、Kafkaのレプリカ機能はCAP定理で言えばなんとCP型。 「ネットワーク分断」という障害はほぼ発生しないとして割り切るアプローチを取っています。 ===== ProducerとConsumerプロセスのレプリカへの対応 Kaf

    Apache Kafka 0.8.0の新機能/変更点 - 夢とガラクタの集積場
    walk77
    walk77 2013/09/06
  • Apache Sparkってどんなものか見てみる(その1 - 夢とガラクタの集積場

    こんにちは。 Kafkaを試している最中で微妙ですが、最近使えるのかなぁ、と情報を集めているのが「Apache Spark」です。 MapReduceと同じく分散並行処理を行う基盤なのですが、MapReduceよりも数十倍速いとかの情報があります。 ・・・んな阿呆な、とも思ったのですが、内部で保持しているRDDという仕組みが面白いこともあり、 とりあえず資料や論文を読んでみることにしました。 まず見てみた資料は「Overview of Spark」(http://spark.incubator.apache.org/talks/overview.pdf)です。 というわけで、読んだ結果をまとめてみます。 Sparkとは? 高速でインタラクティブな言語統合クラスタコンピューティング基盤 Sparkプロジェクトのゴールは? 以下の2つの解析ユースケースにより適合するようMapReduceを拡張

    Apache Sparkってどんなものか見てみる(その1 - 夢とガラクタの集積場
  • Apache Spark Streaming=大規模準リアルタイムストリーム処理? - 夢とガラクタの集積場

    こんにちは。 Sparkについて調べてみよう企画第2段(?)です。 1回目はまずSparkとは何かの概要資料を確認してみました。 その先はRDDの構造を説明している論文と、後Spark Streamingというストリーム処理基盤の資料がありました。 とりあえず、そんなわけで(?)お手軽に概要がわかりそうなSpark Streamingの方を調べてみました。 まず見てみた資料は「Overview of Spark Streaming」(http://spark.incubator.apache.org/talks/strata_spark_streaming.pdf)です。 というわけで、読んだ結果をまとめてみます。 Spark Streamingとは何か? 大規模ストリーム処理フレームワーク ・100オーダーのノードにスケールする ・秒単位のレイテンシで処理を実行可能 ・Sparkのバッチ

    Apache Spark Streaming=大規模準リアルタイムストリーム処理? - 夢とガラクタの集積場
  • Apache Kafkaってそもそも何か確認してみます(その1 - 夢とガラクタの集積場

    こんばんは。 最近Stormを調べていると、 データ取得の手段としてApache Kafkaとの連携が記述されています。 そのため、とりあえず何ができるか、の概要を調べてみました。 最初はFlumeを使おうかとも思ったんですが、 下記のようなモデルの祖語もあり、とりあえずApache Kafkaについて調べてみようという。 FlumeはCollectorSinkからデータソースに投入するPush型 StormはSpoutに対して自分からデータを取得しに行くPull型 → 上記の関係上、Flumeが取得したデータを一時的に蓄えるものが必要になります。 ・・・Listener仕掛けてキューに入れるとかですね。 それをKafkaを使えば不要かなぁ、と思って確認しています。 1.何故Kafkaは作られたのか? 元々はLinkedInのActivity StreamとData Processingを

    Apache Kafkaってそもそも何か確認してみます(その1 - 夢とガラクタの集積場
  • 1