[B! yarn][spark] kimutanskのブックマーク

kimutansk id:kimutansk

yarnとsparkに関するkimutanskのブックマーク (12)

Spark on Yarn: Where Have All the Memory Gone? | Wei Dong's Blog
kimutansk 2015/04/03
基本的にSpark on YARNを行う場合はメモリをオーバーコミットしろという話。後はどうメモリを使うことになるか、という計算式もわかりやすい。

spark

yarn
リンク
https://hadoop.apache.org/docs/r2.3.0/hadoop-yarn/hadoop-yarn-common/yarn-default.xml
kimutansk 2015/04/02
yarn.nodemanager.env-whitelist に値設定すればJAVA_TOOLSとかもExecutorプロセスに渡せるんですかね。

yarn

spark
リンク
spark/ClientBase.scala at master · cloudera/spark
kimutansk 2015/04/02
実際にSparkJobをSubmitするコード部分自体はここにありますか。

spark

yarn
リンク
Tips for Spark on Cloud Big Data - Data Services - Solutions & Questions - The Rackspace Community
kimutansk 2015/04/02
YARN上でSparkを実際に実行する際のパラメータ例がわかるのはいいですね。

spark

yarn
リンク
Yarn - why doesn't task go out of heap space but container gets killed?
kimutansk 2015/04/02
YARNに実際に渡される実メモリ量指定値はexecutor.memory＋overheadとなるあたりが注意点ですか。上乗せして渡されるので、よく溢れる。

spark

yarn
リンク
Hortonworksのイベントに行ってきた - wyukawa's diary
Hadoop and the Modern Data Architecture に行ってきました。立派なホテルで良いイベントでした。ありがとうございました。＞ Hortonworksのみなさまセッションや会場にいた人との会話について少し書きます。まず僕が使っているAmbariに関して発表がありました。それによると、Hueみたいなクエリをsubmitする機能が入る模様。どうもHadoopクラスタへのアクセスをすべてAmbari経由にしたいようだ。うーん、それはどうなんだろ。。。Prestoあるし。個人的にはそれよりもっとクラスタ管理に注力してほしいと思ったり。。。例えばエラー通知をメールじゃなくてHipChatとかSlackにとばせるようにするとか。 Ambariで使っているNagios, Gangilaはdeprecatedになり、メトリクスをHBaseにためてPhenioxでクエ
kimutansk 2015/03/13
Spark on YARNはどこでも悩みの種なんですかね。メインの仕事でない中クラスタ管理で困った点をどうするか、というのもやはり悩みどころです

spark

hadoop

yarn
リンク
Apache Hadoop YARN: Avoiding 6 Time-Consuming "Gotchas" | Cloudera Developer Blog
The ongoing progress in Artificial Intelligence is constantly expanding the realms of possibility, revolutionizing industries and societies on a global scale. The release of LLMs surged by 136% in 2023 compared to 2022, and this upward trend is projected to continue in 2024. Today, 44% of organizations are experimenting with generative AI, with 10% having […] Read blog post
kimutansk 2015/03/06
YARNのNodeManagerのメモリチェックを無効化すれば、Container Killerによってkillされるのは回避可能なんですかね。

yarn

hadoop

spark
リンク
Cloudera Blog
The ongoing progress in Artificial Intelligence is constantly expanding the realms of possibility, revolutionizing industries and societies on a global scale. The release of LLMs surged by 136% in 2023 compared to 2022, and this upward trend is projected to continue in 2024. Today, 44% of organizations are experimenting with generative AI, with 10% having […] Read blog post
kimutansk 2015/02/03
DriverとApplication Masterは別物ですよ、というのはRDD>DAG・・という解釈の流れを見ないとちとわかりにくいですか。

spark

yarn
リンク
しつこいがSpark & YARNの補足 – OpenGroove
しばらく前から気になっていたタイトルの問題、以下ブログに詳細が書かれており、やっと点が線につながってきた… Apache Spark Resource Management and YARN App Models 寝かせておくといつになるか分からない、かつ、読む気と書く気が失せるので、個人的に気になった点だけ今ここで要約しておく。意訳／誤訳／勝手に追記したりしてるので参考はほどほどに。以下… MapReduceモデルでは最も上位の計算ユニットはJobだが、Sparkはその上にapplicationというレベルが存在する。applicatinsはJobをシーケンシャルに、もしくはパラレルに実行することができる。 Applicationはexecutorsと呼ばれるプロセスを持つ。executorはジョブが走っていない時でも起動している（データをメモリに保持し、タスクに対して素早く対応するこ
kimutansk 2015/01/27
「YARN clientモード」「YARN clusterモード」の違いは確かにわかりにくいですね。Driver部の位置が変わるだけではありますので。

yarn

cluster

spark
リンク
YARN 上における分散処理基盤のリソース管理について - Qiita
本稿では，YARN 上における分散処理基盤のリソース管理の仕組みと，問題となる状況，および Spark の解決方法について，Spark の例をまじえて説明します． YARN の基礎 MapReduce v1 では，TaskTracker が MapSlot/ReduceSlot という単位でリソースを管理していましたが，YARN では，"コンテナ"という単位でリソースを確保し，その中で処理を行います．コンテナには，CPU/メモリ/ディスク帯域幅/ネットワーク帯域幅などを割り当てることが可能です．2014/12時点では，CPU/メモリのリソース管理サポートが入っています．ディスクIO/ネットワークIOの制御も来年には入るかもしれません． Spark on YARN におけるリソース管理の例 Apache Spark は，オンメモリ用上のデータ処理を容易に行うことができる分散処理フレームワー
kimutansk 2015/01/08
YARN上でSpark動作させる場合にExecutor数をリソース利用状況に応じて増減させられるようになりましたか。減る予定のExecutorが保持するRDDはどうなるか調べてみますか。

yarn

spark

hadoop
リンク
Cloudera Blog
In an era where artificial intelligence (AI) is reshaping enterprises across the globe—be it in healthcare, finance, or manufacturing—it’s hard to overstate the transf ormation that AI has had on businesses, regardless of industry or size. At Cloudera, we recognize the urgent need for bold steps to harness this potential and dramatically accelerate the time to […] Read blog post
kimutansk 2014/10/24
SparkとTezの比較の質問が面白い。Sparkは開始すると終了するまでリソースを取得可能なMaxまで確保し続けるが、Tezは都度解放すると。Sparkの方が予測しやすいというのはある？

yarn

spark

Tez
リンク
Spark Summit 2013の内容一覧 - 夢とガラクタの集積場
こんにちは。思いっきり見逃していた話なのですが、2013/12にSpark Summit 2013が開催されていました。幸い、資料はほとんど公開されているようなので、内容を確認してみようと思うのですが、まずは概要を確認しておこう、ということで内容一覧と概要をまとめてみました。尚、概要については概要ページが用意されている発表についてはそれを訳し、存在しないものについては資料の中身をざっと確認して概要を書いています。先進的な企業に加えて、Yahooのような大きなHadoopクラスタを有する企業でもSparkを取り込み、既存のデータ解析基盤と統合させようとする動きが出ているのが面白いですね。加えて、YARN／Mesosの存在によってSparkの導入は「既存機能の置き換え」ではなく、「既存機能との統合」という流れで発生しているのも興味深いところです。というわけで、各セッションに
kimutansk 2014/01/22
YARN/Mesosの存在のおかげか、 #ApacheSpark は「既存の基盤(主にHadoop)と統合」という形で取り込まれる流れだったのが印象的でした

spark

yarn

Mesos
リンク
1