タグ

YARNに関するnobusueのブックマーク (13)

  • Installing Node.js dependencies with Yarn via s2i builds and OpenShift | Red Hat Developer

  • Apache Sliderを使ってStormもYARNに乗せる - Qiita

    日は、Hadoopと良く一緒に語られるApache Stormと、そのStormを真の意味でのHadoopファミリーとする上でのキーとなるミドルウェアである Apache Sliderについてちょこっとだけ書きたいと思います。 Apache Sliderとは? YARNの登場により、様々な分散アプリケーションが1つのクラスタを総合的なリソース管理のもとに使いまわすことができるようになりました。 ただし、YARNを利用したい分散アプリケーションにはいくつかの制約が発生します。 その中でもとりわけ大きいものとして、 YARNに対してのリソースの要求や開放等のコードを書かなくてはならない。 ジョブ1つにつきリソースの確保やデーモン等の立ち上げという仕事が発生するため、スタンドアローンに比べてジョブの立ち上がりが遅い。 (ここで言うスタンドアローンとは、YARNを使わずにその分散アプリケーション

    Apache Sliderを使ってStormもYARNに乗せる - Qiita
  • YARN 上における分散処理基盤のリソース管理について - Qiita

    稿では,YARN 上における分散処理基盤のリソース管理の仕組みと,問題となる状況,および Spark の解決方法について,Spark の例をまじえて説明します. YARN の基礎 MapReduce v1 では,TaskTracker が MapSlot/ReduceSlot という単位でリソースを管理していましたが,YARN では,"コンテナ"という単位でリソースを確保し,その中で処理を行います. コンテナには,CPU/メモリ/ディスク帯域幅/ネットワーク帯域幅などを割り当てることが可能です.2014/12時点では,CPU/メモリのリソース管理サポートが入っています.ディスクIO/ネットワークIOの制御も来年には入るかもしれません. Spark on YARN におけるリソース管理の例 Apache Spark は,オンメモリ用上のデータ処理を容易に行うことができる分散処理フレームワー

    YARN 上における分散処理基盤のリソース管理について - Qiita
  • Hadoop YARN覚え書き | OpenGroove

    Hadoop YARNの仕様とか設計について過去記事に書いたことがあるんだけど、も一回まとめ、というか覚え書き。 YARNではスロット数を制御するプロパティがなくなった、とドキュメントや参考書にある。これはMRv1でのmapred.tasktracker.map.tasks.maximum ,mapred.tasktracker.reduce.tasks.maximum のことだろう。実際にはMRv2に対応するmapreduce.tasktracker.map.tasks.maximum ,mapreduce.tasktracker.reduce.tasks.maximumというプロパティが存在しているが書いても無視されるらしく、何故これらが残っているのか謎。ともあれYARNではスロットの概念が消滅した代わりにコンテナという概念が採用され、ジョブのプロセスはコンテナ内で実行される。コンテナ

  • HugeDomains.com

    nobusue
    nobusue 2014/12/02
    JavaコードからYARN ClientモードでSparkアプリケーションを実行する
  • Cloudera Blog

    The ongoing progress in Artificial Intelligence is constantly expanding the realms of possibility, revolutionizing industries and societies on a global scale. The release of LLMs surged by 136% in 2023 compared to 2022, and this upward trend is projected to continue in 2024. Today, 44% of organizations are experimenting with generative AI, with 10% having […] Read blog post

    Cloudera Blog
    nobusue
    nobusue 2014/11/12
    YARN-clusterとYARN-clientの違いについての図解
  • Taming YARN @ Hadoop Conference Japan 2014

    The document discusses YARN (Yet Another Resource Negotiator), a resource management framework for Hadoop. It describes YARN components like the ResourceManager, NodeManager, and ApplicationMaster. It covers YARN configuration, capacity planning, health checks, thread tuning, and enabling high availability of the ResourceManager through ZooKeeper.Read less

    Taming YARN @ Hadoop Conference Japan 2014
  • IBM SPSS Modeler - ODBC Configuration Best Practices and Troubleshooting

    IBM Developer is your one-stop location for getting hands-on training and learning in-demand skills on relevant technologies such as generative AI, data science, AI, and open source.

    IBM SPSS Modeler - ODBC Configuration Best Practices and Troubleshooting
  • DockerでUID分離が実現したらHadoop運用は効率化する――米Altiscaleが開発中

    Hadoop環境もDockerを使えば管理が効率化する? AltiscaleがYARNへの適用を進めている。 Hadoopサービスを手掛ける米Altiscaleは、2014年6月3~5日に開催された「Hadoop Summit」に合わせ、DockerをYARN(Yet-Another Resource Negotiator)に対応させるために同社が進めているプロジェクトをブログで紹介した。 YARNはHadoop 2.0で登場した「次世代Map/Reduce」とも言われるフレームワークで、データ処理とクラスタリソース管理の機能を分離する実装になっている。Map/Reduce以外のアプリケーションの動作に門戸を開くものとして注目を集めている。 「Dockerは、現在のハイパーバイザーモデルでは達成できないレベルの効率性で次世代の仮想化を実現できる可能性がある。Hadoop YARNをDock

    DockerでUID分離が実現したらHadoop運用は効率化する――米Altiscaleが開発中
  • Spark & YARNを試してみる(前半) – OpenGroove

    Spark 1.0が、5/30にようやくリリースされた…! Announcing Spark 1.0 The Apache Software Foundation Announces Apache™ Spark™ v1.0 さておきYARNモードにてSparkサンプルプログラムを動かしてみたのだが、そもそもの前提とか、書くと長くなるので前半/後半に分ける。前半は、YARNに関わらない部分もあるが、周辺用語の覚え書き。 Sparkの動作モード周辺の概念や用語が分かりにくいので、まとめてみた。まず、Sparkの起動モードには以下3種類がある。(Mesos使う場合は、調べてないので不明) Spark Stand Aloneモード Spark yarn-clientモード Spark yarn-clusterモード 最後のyarn-clusterモードは、Clouderaのドキュメントに書かれてい

  • しつこいがSpark & YARNの補足 – OpenGroove

    しばらく前から気になっていたタイトルの問題、以下ブログに詳細が書かれており、やっと点が線につながってきた… Apache Spark Resource Management and YARN App Models 寝かせておくといつになるか分からない、かつ、読む気と書く気が失せるので、個人的に気になった点だけ今ここで要約しておく。意訳/誤訳/勝手に追記したりしてるので参考はほどほどに。 以下… MapReduceモデルでは最も上位の計算ユニットはJobだが、Sparkはその上にapplicationというレベルが存在する。applicatinsはJobをシーケンシャルに、もしくはパラレルに実行することができる。 Applicationはexecutorsと呼ばれるプロセスを持つ。executorはジョブが走っていない時でも起動している(データをメモリに保持し、タスクに対して素早く対応するこ

  • Spark & YARNを試してみる(後半) – OpenGroove

    前回からの続き。 以下に沿って、Spark & YARNモードでサンプルプログラムSparkPi を実行してみた。環境はAWSのm1.mideumマシン + CentOS6.5、CDH5のHadoop疑似分散環境にSparkも同居。Sparkのバージョンはまだ0.9.0。 Running Spark Applications (CDH5) jarファイルをHDFSにコピー。 $ hadoop fs -mkdir -p /user/spark/share/lib $ hadoop fs -put /usr/lib/spark/assembly/lib/spark-assembly_2.10-0.9.0-cdh5.0.0-hadoop2.3.0-cdh5.0.0.jar \ /user/spark/share/lib/spark-assembly.jar spark-env.shは、以下プロパ

  • Hadoop YARNとApache Mesosの違いって何? - 夢とガラクタの集積場

    こんにちは。 CDH上でSparkがサポートされるという発表もあり、ニッチな領域をちょこちょこ調べていたはずが、 いきなりSparkがメジャーなステージに飛び出すのかなぁ・・と楽しみにしている今日この頃です。 ただ、CDH上でのSparkはリソースマネージャとしてHadoop YARNを使う模様。 Apache Mesosは使われないようです。 とはいえ、それ以前の問題として、Hadoop YARNとApache Mesosの違いがそもそもよくわかっていないという現状があります。 そのため、いい情報が無いかなぁ・・・と調べていたところ、丁度以下のスレッドが見つかりました。 How does YARN compare to Mesos? http://www.quora.com/How-does-YARN-compare-to-Mesos とりあえず、このスレッドに書かれている「差分」を訳し

    Hadoop YARNとApache Mesosの違いって何? - 夢とガラクタの集積場
  • 1