タグ

YARNに関するiga-ninjaのブックマーク (2)

  • しつこいがSpark & YARNの補足 – OpenGroove

    しばらく前から気になっていたタイトルの問題、以下ブログに詳細が書かれており、やっと点が線につながってきた… Apache Spark Resource Management and YARN App Models 寝かせておくといつになるか分からない、かつ、読む気と書く気が失せるので、個人的に気になった点だけ今ここで要約しておく。意訳/誤訳/勝手に追記したりしてるので参考はほどほどに。 以下… MapReduceモデルでは最も上位の計算ユニットはJobだが、Sparkはその上にapplicationというレベルが存在する。applicatinsはJobをシーケンシャルに、もしくはパラレルに実行することができる。 Applicationはexecutorsと呼ばれるプロセスを持つ。executorはジョブが走っていない時でも起動している(データをメモリに保持し、タスクに対して素早く対応するこ

  • Spark on YARN のアーキテクチャ

    前回も触れましたが、Spark のクラスタマネージャには、Standalone とMesos とYARN が存在します。ここではYARN 上でのSpark アプリケーションがどのように実行されるかを、HDInsight Spark の物理環境(リンクはこちら)に合わせて説明してみたいと思います。その前にまずYARN について軽く触れたいと思います。 YARNとは MapReduce v1 時代は、専用のJobTracker やTaskTracker と言われるプロセスでMRのジョブ制御やスケジューリングやモニタリングを行っていました。ただスケーリングに問題があり、MapReduce v2からそれを解決する目的で、YARNというMapReduce 以外でも汎用的に使えるプラットフォームが開発されました。YARNは汎用的に使用できるため、MapReduce以外にもSpark やStorm とい

    Spark on YARN のアーキテクチャ
  • 1