タグ

ブックマーク / kimutansk.hatenablog.com (4)

  • Apache Kafkaってそもそも何か確認してみます(その1 - 夢とガラクタの集積場

    こんばんは。 最近Stormを調べていると、 データ取得の手段としてApache Kafkaとの連携が記述されています。 そのため、とりあえず何ができるか、の概要を調べてみました。 最初はFlumeを使おうかとも思ったんですが、 下記のようなモデルの祖語もあり、とりあえずApache Kafkaについて調べてみようという。 FlumeはCollectorSinkからデータソースに投入するPush型 StormはSpoutに対して自分からデータを取得しに行くPull型 → 上記の関係上、Flumeが取得したデータを一時的に蓄えるものが必要になります。 ・・・Listener仕掛けてキューに入れるとかですね。 それをKafkaを使えば不要かなぁ、と思って確認しています。 1.何故Kafkaは作られたのか? 元々はLinkedInのActivity StreamとData Processingを

    Apache Kafkaってそもそも何か確認してみます(その1 - 夢とガラクタの集積場
  • Resilient Distributed Datasetsに関する論文まとめ(1章〜5章 - 夢とガラクタの集積場

    こんにちは。 Resilient Distributed Datasetsに関する論文 「Resilient Distributed Datasets: A Fault-Tolerant Abstraction for In-Memory Cluster Computing」 (http://www.cs.berkeley.edu/~matei/papers/2012/nsdi_spark.pdf) について、概念と動作概要が書かれた1章〜5章を読んだので、1投稿にまとめます。 基的には以前見たスライドの詳細化版なんですが、一部スライド見ているだけだとわからない情報もあり、参考になりました。 Sparkが対象とするような「基的には全データに対して同じ演算を行う」アプリケーションにおいては 読み取り専用というRDDの性質がマイナスにならないこと、読み取り専用であることで 一貫性考慮が簡略

    Resilient Distributed Datasetsに関する論文まとめ(1章〜5章 - 夢とガラクタの集積場
  • Apache Spark Streamingの論文まとめ(1章〜5章 - 夢とガラクタの集積場

    こんにちは。 Apache Spark Streamingに関する論文 「Discretized Streams: A Fault-Tolerant Model for Scalable Stream Processing」 (http://www.eecs.berkeley.edu/Pubs/TechRpts/2012/EECS-2012-259.pdf) について、概念と動作概要が書かれた1章〜5章を読んだので、1投稿にまとめます。 こちらも以前見たスライドの詳細化版なんですが、一部スライド見ているだけだとわからない情報もあり、参考になりました。 ストリーム処理を1秒の間に受信したイベント群に対するバッチ処理の連鎖として バッチ処理の性質を保ったまま実行してしまうというのがSpark Streamingの肝でした。 こうすることで遅延は0.5〜2.0秒程発生してしまうため純粋なストリー

    Apache Spark Streamingの論文まとめ(1章〜5章 - 夢とガラクタの集積場
  • Apache Sparkってどんなものか見てみる(その1 - 夢とガラクタの集積場

    こんにちは。 Kafkaを試している最中で微妙ですが、最近使えるのかなぁ、と情報を集めているのが「Apache Spark」です。 MapReduceと同じく分散並行処理を行う基盤なのですが、MapReduceよりも数十倍速いとかの情報があります。 ・・・んな阿呆な、とも思ったのですが、内部で保持しているRDDという仕組みが面白いこともあり、 とりあえず資料や論文を読んでみることにしました。 まず見てみた資料は「Overview of Spark」(http://spark.incubator.apache.org/talks/overview.pdf)です。 というわけで、読んだ結果をまとめてみます。 Sparkとは? 高速でインタラクティブな言語統合クラスタコンピューティング基盤 Sparkプロジェクトのゴールは? 以下の2つの解析ユースケースにより適合するようMapReduceを拡張

    Apache Sparkってどんなものか見てみる(その1 - 夢とガラクタの集積場
  • 1