タグ

ブックマーク / kimutansk.hatenablog.com (2)

  • Spark Summit Sched & Perf1 「Spark Performance」 - 夢とガラクタの集積場

    こんにちは。 間が空いてしまっていますが、 Spark Summitの資料をとりあえず読んでみよう、の第2弾です。 今回は「Spark Performance」を見てみました。 概要の次にいきなり性能の資料に入ってしまうあたり趣味を反映している気もしますが^^; では、見てみます。 あと、この情報はSpark0.8.1準拠だそうです。現状の最新版ですね。 Spark deep dive まず、下記のRDDの記述によって性能が変わることを理解いただきたい。 ■RDD (patrick, $24), (matei, $30), (patrick, $1), (aaron, $23), (aaron, $2), (reynold, $10), (aaron, $10)….. ■パターン1(groupByKey) このパターンの場合、groupByKeyオペレーションを実行したタイミングで全データ

    Spark Summit Sched & Perf1 「Spark Performance」 - 夢とガラクタの集積場
    phji
    phji 2015/02/25
  • SparkのサンプルをMesosの上で動作させる(REPL) → 動作せず・・・(汗 - 夢とガラクタの集積場

    こんにちは。 ここまででSparkのローカルアプリケーションとMesosの環境構築が完了したため、 ついに実際にSparkのクラスタをMesosの上で動作させてみます。 まずはHDFSは使わず、ローカルのファイルを読み込ませる形で動作させます。 尚、分散クラスタ上で動作させる必要が出た段階で、 「Sparkの分散配置用アーカイブを生成して、HDFS等の上に配置する」ということが必要になってきます。 で、分散配置用アーカイブを生成するためにはsparkのソースコードをダウンロードした配下にある 「make-distribution.sh」が必要です。 というわけで、今回からビルドも含めて仮想マシン上で行う形になります。 そのため、改めてビルド環境から再構築します。 1.Apache Sparkの配置用アーカイブ作成 1-1.Gitインストール 「spark-0.8.0-incubating-

    SparkのサンプルをMesosの上で動作させる(REPL) → 動作せず・・・(汗 - 夢とガラクタの集積場
    phji
    phji 2014/12/26
  • 1