[B! YARN] nobusueのブックマーク

Installing Node.js dependencies with Yarn via s2i builds and OpenShift | Red Hat Developer

nobusue 2017/06/29

リンク

Apache Sliderを使ってStormもYARNに乗せる - Qiita

本日は、Hadoopと良く一緒に語られるApache Stormと、そのStormを真の意味でのHadoopファミリーとする上でのキーとなるミドルウェアである Apache Sliderについてちょこっとだけ書きたいと思います。 Apache Sliderとは？ YARNの登場により、様々な分散アプリケーションが1つのクラスタを総合的なリソース管理のもとに使いまわすことができるようになりました。ただし、YARNを利用したい分散アプリケーションにはいくつかの制約が発生します。その中でもとりわけ大きいものとして、 YARNに対してのリソースの要求や開放等のコードを書かなくてはならない。ジョブ1つにつきリソースの確保やデーモン等の立ち上げという仕事が発生するため、スタンドアローンに比べてジョブの立ち上がりが遅い。 (ここで言うスタンドアローンとは、YARNを使わずにその分散アプリケーション

nobusue 2014/12/23

Slider
YARN

リンク

YARN 上における分散処理基盤のリソース管理について - Qiita

本稿では，YARN 上における分散処理基盤のリソース管理の仕組みと，問題となる状況，および Spark の解決方法について，Spark の例をまじえて説明します． YARN の基礎 MapReduce v1 では，TaskTracker が MapSlot/ReduceSlot という単位でリソースを管理していましたが，YARN では，"コンテナ"という単位でリソースを確保し，その中で処理を行います．コンテナには，CPU/メモリ/ディスク帯域幅/ネットワーク帯域幅などを割り当てることが可能です．2014/12時点では，CPU/メモリのリソース管理サポートが入っています．ディスクIO/ネットワークIOの制御も来年には入るかもしれません． Spark on YARN におけるリソース管理の例 Apache Spark は，オンメモリ用上のデータ処理を容易に行うことができる分散処理フレームワー

nobusue 2014/12/23

YARN
Spark

リンク

Hadoop YARN覚え書き | OpenGroove

Hadoop YARNの仕様とか設計について過去記事に書いたことがあるんだけど、も一回まとめ、というか覚え書き。 YARNではスロット数を制御するプロパティがなくなった、とドキュメントや参考書にある。これはMRv1でのmapred.tasktracker.map.tasks.maximum ,mapred.tasktracker.reduce.tasks.maximum のことだろう。実際にはMRv2に対応するmapreduce.tasktracker.map.tasks.maximum ,mapreduce.tasktracker.reduce.tasks.maximumというプロパティが存在しているが書いても無視されるらしく、何故これらが残っているのか謎。ともあれYARNではスロットの概念が消滅した代わりにコンテナという概念が採用され、ジョブのプロセスはコンテナ内で実行される。コンテナ

nobusue 2014/12/22

YARN
hadoop

リンク

HugeDomains.com

nobusue 2014/12/02

JavaコードからYARN ClientモードでSparkアプリケーションを実行する

Spark
YARN

リンク

Cloudera Blog

The ongoing progress in Artificial Intelligence is constantly expanding the realms of possibility, revolutionizing industries and societies on a global scale. The release of LLMs surged by 136% in 2023 compared to 2022, and this upward trend is projected to continue in 2024. Today, 44% of organizations are experimenting with generative AI, with 10% having […] Read blog post

nobusue 2014/11/12

YARN-clusterとYARN-clientの違いについての図解

Spark
YARN

リンク

Taming YARN @ Hadoop Conference Japan 2014

The document discusses YARN (Yet Another Resource Negotiator), a resource management framework for Hadoop. It describes YARN components like the ResourceManager, NodeManager, and ApplicationMaster. It covers YARN configuration, capacity planning, health checks, thread tuning, and enabling high availability of the ResourceManager through ZooKeeper.Read less

nobusue 2014/07/09

YARN
hadoop

リンク

IBM SPSS Modeler - ODBC Configuration Best Practices and Troubleshooting

IBM Developer is your one-stop location for getting hands-on training and learning in-demand skills on relevant techno logies such as generative AI, data science, AI, and open source.

nobusue 2014/06/28

YARN
hadoop

リンク

DockerでUID分離が実現したらHadoop運用は効率化する――米Altiscaleが開発中

Hadoop環境もDockerを使えば管理が効率化する？ AltiscaleがYARNへの適用を進めている。 Hadoopサービスを手掛ける米Altiscaleは、2014年6月3～5日に開催された「Hadoop Summit」に合わせ、DockerをYARN（Yet-Another Resource Negotiator）に対応させるために同社が進めているプロジェクトをブログで紹介した。 YARNはHadoop 2.0で登場した「次世代Map/Reduce」とも言われるフレームワークで、データ処理とクラスタリソース管理の機能を分離する実装になっている。Map/Reduce以外のアプリケーションの動作に門戸を開くものとして注目を集めている。「Dockerは、現在のハイパーバイザーモデルでは達成できないレベルの効率性で次世代の仮想化を実現できる可能性がある。Hadoop YARNをDock

nobusue 2014/06/24

docker
YARN

リンク

Spark & YARNを試してみる（前半） – OpenGroove

Spark 1.0が、5/30にようやくリリースされた…！ Announcing Spark 1.0 The Apache Software Foundation Announces Apache™ Spark™ v1.0 さておきYARNモードにてSparkサンプルプログラムを動かしてみたのだが、そもそもの前提とか、書くと長くなるので前半／後半に分ける。前半は、YARNに関わらない部分もあるが、周辺用語の覚え書き。 Sparkの動作モード周辺の概念や用語が分かりにくいので、まとめてみた。まず、Sparkの起動モードには以下3種類がある。(Mesos使う場合は、調べてないので不明） Spark Stand Aloneモード Spark yarn-clientモード Spark yarn-clusterモード最後のyarn-clusterモードは、Clouderaのドキュメントに書かれてい

nobusue 2014/06/23

Spark
YARN

リンク

しつこいがSpark & YARNの補足 – OpenGroove

しばらく前から気になっていたタイトルの問題、以下ブログに詳細が書かれており、やっと点が線につながってきた… Apache Spark Resource Management and YARN App Models 寝かせておくといつになるか分からない、かつ、読む気と書く気が失せるので、個人的に気になった点だけ今ここで要約しておく。意訳／誤訳／勝手に追記したりしてるので参考はほどほどに。以下… MapReduceモデルでは最も上位の計算ユニットはJobだが、Sparkはその上にapplicationというレベルが存在する。applicatinsはJobをシーケンシャルに、もしくはパラレルに実行することができる。 Applicationはexecutorsと呼ばれるプロセスを持つ。executorはジョブが走っていない時でも起動している（データをメモリに保持し、タスクに対して素早く対応するこ

nobusue 2014/06/11

Spark
YARN

リンク

Spark & YARNを試してみる（後半） – OpenGroove

前回からの続き。以下に沿って、Spark & YARNモードでサンプルプログラムSparkPi を実行してみた。環境はAWSのm1.mideumマシン + CentOS6.5、CDH5のHadoop疑似分散環境にSparkも同居。Sparkのバージョンはまだ0.9.0。 Running Spark Applications (CDH5) jarファイルをHDFSにコピー。 $ hadoop fs -mkdir -p /user/spark/share/lib $ hadoop fs -put /usr/lib/spark/assem bly/lib/spark-assem bly_2.10-0.9.0-cdh5.0.0-hadoop2.3.0-cdh5.0.0.jar \ /user/spark/share/lib/spark-assem bly.jar spark-env.shは、以下プロパ

nobusue 2014/06/11

Spark
YARN

リンク

Hadoop YARNとApache Mesosの違いって何？ - 夢とガラクタの集積場

こんにちは。 CDH上でSparkがサポートされるという発表もあり、ニッチな領域をちょこちょこ調べていたはずが、いきなりSparkがメジャーなステージに飛び出すのかなぁ・・と楽しみにしている今日この頃です。ただ、CDH上でのSparkはリソースマネージャとしてHadoop YARNを使う模様。 Apache Mesosは使われないようです。とはいえ、それ以前の問題として、Hadoop YARNとApache Mesosの違いがそもそもよくわかっていないという現状があります。そのため、いい情報が無いかなぁ・・・と調べていたところ、丁度以下のスレッドが見つかりました。 How does YARN compare to Mesos? http://www.quora.com/How-does-YARN-compare-to-Mesos とりあえず、このスレッドに書かれている「差分」を訳し