タグ

ブックマーク / kimutansk.hatenablog.com (2)

  • Apache Sparkってどんなものか見てみる(その1 - 夢とガラクタの集積場

    こんにちは。 Kafkaを試している最中で微妙ですが、最近使えるのかなぁ、と情報を集めているのが「Apache Spark」です。 MapReduceと同じく分散並行処理を行う基盤なのですが、MapReduceよりも数十倍速いとかの情報があります。 ・・・んな阿呆な、とも思ったのですが、内部で保持しているRDDという仕組みが面白いこともあり、 とりあえず資料や論文を読んでみることにしました。 まず見てみた資料は「Overview of Spark」(http://spark.incubator.apache.org/talks/overview.pdf)です。 というわけで、読んだ結果をまとめてみます。 Sparkとは? 高速でインタラクティブな言語統合クラスタコンピューティング基盤 Sparkプロジェクトのゴールは? 以下の2つの解析ユースケースにより適合するようMapReduceを拡張

    Apache Sparkってどんなものか見てみる(その1 - 夢とガラクタの集積場
  • Apache Kafkaってそもそも何か確認してみます(その4 - 夢とガラクタの集積場

    1年位間があいてしまっていますが、ベースデザインの章の続きを読んでみました。 あと、個々の言葉を訳しても時間がかかるので、要点のみ抽出してとりあえず最後まで読み切ります。 尚、ページ自体は下記の場所に移動していました。 http://kafka.apache.org/07/design.html 6.メッセージの永続化/保持 一定の時間内に満たせるよう収める メッセージング·システムのメタデータに使用される永続的なデータ構造は、多くの場合、Btreeである。 Btree構成は最も汎用性の高いデータ構造が利用可能であり、 メッセージングシステムにおけるトランザクションと非トランザクションの処理を幅広くサポートすることが可能。 但し、BtreeのアクセスにはO(logn)のコストがかかる。 通常であればO(logn)の時間は定数として扱われるが、ディスクを使用するというアクセス形態の場合これは

    Apache Kafkaってそもそも何か確認してみます(その4 - 夢とガラクタの集積場
  • 1