タグ

sparkに関するnullpobugのブックマーク (3)

  • Hadoop YARNとApache Mesosの違いって何? - 夢とガラクタの集積場

    こんにちは。 CDH上でSparkがサポートされるという発表もあり、ニッチな領域をちょこちょこ調べていたはずが、 いきなりSparkがメジャーなステージに飛び出すのかなぁ・・と楽しみにしている今日この頃です。 ただ、CDH上でのSparkはリソースマネージャとしてHadoop YARNを使う模様。 Apache Mesosは使われないようです。 とはいえ、それ以前の問題として、Hadoop YARNとApache Mesosの違いがそもそもよくわかっていないという現状があります。 そのため、いい情報が無いかなぁ・・・と調べていたところ、丁度以下のスレッドが見つかりました。 How does YARN compare to Mesos? http://www.quora.com/How-does-YARN-compare-to-Mesos とりあえず、このスレッドに書かれている「差分」を訳し

    Hadoop YARNとApache Mesosの違いって何? - 夢とガラクタの集積場
  • Apache Spark をPythonで操作する(pyspark)

    Sparkのインストールフォルダ(例えば/opt/spark-0.8.1-incubating)に移動します。 ./pysparkで、SparkをPythonで操作できるコンソールが起動します。 # cd /opt/spark-0.8.1-incubating # ./pyspark Python 2.7.3 (default, Jan 2 2013, 13:56:14) [GCC 4.7.2] on linux2 Type "help", "copyright", "credits" or "license" for more information. SLF4J: Class path contains multiple SLF4J bindings. SLF4J: Found binding in [jar:file:/opt/spark-0.8.1-incubating/tools

    Apache Spark をPythonで操作する(pyspark)
  • Apache Sparkってどんなものか見てみる(その1 - 夢とガラクタの集積場

    こんにちは。 Kafkaを試している最中で微妙ですが、最近使えるのかなぁ、と情報を集めているのが「Apache Spark」です。 MapReduceと同じく分散並行処理を行う基盤なのですが、MapReduceよりも数十倍速いとかの情報があります。 ・・・んな阿呆な、とも思ったのですが、内部で保持しているRDDという仕組みが面白いこともあり、 とりあえず資料や論文を読んでみることにしました。 まず見てみた資料は「Overview of Spark」(http://spark.incubator.apache.org/talks/overview.pdf)です。 というわけで、読んだ結果をまとめてみます。 Sparkとは? 高速でインタラクティブな言語統合クラスタコンピューティング基盤 Sparkプロジェクトのゴールは? 以下の2つの解析ユースケースにより適合するようMapReduceを拡張

    Apache Sparkってどんなものか見てみる(その1 - 夢とガラクタの集積場
  • 1