タグ

ブックマーク / open-groove.net (3)

  • しつこいがSpark & YARNの補足 – OpenGroove

    しばらく前から気になっていたタイトルの問題、以下ブログに詳細が書かれており、やっと点が線につながってきた… Apache Spark Resource Management and YARN App Models 寝かせておくといつになるか分からない、かつ、読む気と書く気が失せるので、個人的に気になった点だけ今ここで要約しておく。意訳/誤訳/勝手に追記したりしてるので参考はほどほどに。 以下… MapReduceモデルでは最も上位の計算ユニットはJobだが、Sparkはその上にapplicationというレベルが存在する。applicatinsはJobをシーケンシャルに、もしくはパラレルに実行することができる。 Applicationはexecutorsと呼ばれるプロセスを持つ。executorはジョブが走っていない時でも起動している(データをメモリに保持し、タスクに対して素早く対応するこ

  • Spark & YARNを試してみる(後半) – OpenGroove

    前回からの続き。 以下に沿って、Spark & YARNモードでサンプルプログラムSparkPi を実行してみた。環境はAWSのm1.mideumマシン + CentOS6.5、CDH5のHadoop疑似分散環境にSparkも同居。Sparkのバージョンはまだ0.9.0。 Running Spark Applications (CDH5) jarファイルをHDFSにコピー。 $ hadoop fs -mkdir -p /user/spark/share/lib $ hadoop fs -put /usr/lib/spark/assembly/lib/spark-assembly_2.10-0.9.0-cdh5.0.0-hadoop2.3.0-cdh5.0.0.jar \ /user/spark/share/lib/spark-assembly.jar spark-env.shは、以下プロパ

  • Spark & YARNを試してみる(前半) – OpenGroove

    Spark 1.0が、5/30にようやくリリースされた…! Announcing Spark 1.0 The Apache Software Foundation Announces Apache™ Spark™ v1.0 さておきYARNモードにてSparkサンプルプログラムを動かしてみたのだが、そもそもの前提とか、書くと長くなるので前半/後半に分ける。前半は、YARNに関わらない部分もあるが、周辺用語の覚え書き。 Sparkの動作モード周辺の概念や用語が分かりにくいので、まとめてみた。まず、Sparkの起動モードには以下3種類がある。(Mesos使う場合は、調べてないので不明) Spark Stand Aloneモード Spark yarn-clientモード Spark yarn-clusterモード 最後のyarn-clusterモードは、Clouderaのドキュメントに書かれてい

  • 1