タグ

yarnとsparkに関するkimutanskのブックマーク (12)

  • Spark on Yarn: Where Have All the Memory Gone? | Wei Dong's Blog

    kimutansk
    kimutansk 2015/04/03
    基本的にSpark on YARNを行う場合はメモリをオーバーコミットしろという話。後はどうメモリを使うことになるか、という計算式もわかりやすい。
  • https://hadoop.apache.org/docs/r2.3.0/hadoop-yarn/hadoop-yarn-common/yarn-default.xml

    kimutansk
    kimutansk 2015/04/02
    yarn.nodemanager.env-whitelist に値設定すればJAVA_TOOLSとかもExecutorプロセスに渡せるんですかね。
  • spark/ClientBase.scala at master · cloudera/spark

    kimutansk
    kimutansk 2015/04/02
    実際にSparkJobをSubmitするコード部分自体はここにありますか。
  • Tips for Spark on Cloud Big Data - Data Services - Solutions & Questions - The Rackspace Community

    kimutansk
    kimutansk 2015/04/02
    YARN上でSparkを実際に実行する際のパラメータ例がわかるのはいいですね。
  • Yarn - why doesn't task go out of heap space but container gets killed?

    kimutansk
    kimutansk 2015/04/02
    YARNに実際に渡される実メモリ量指定値はexecutor.memory+overheadとなるあたりが注意点ですか。上乗せして渡されるので、よく溢れる。
  • Hortonworksのイベントに行ってきた - wyukawa's diary

    Hadoop and the Modern Data Architecture に行ってきました。 立派なホテルで良いイベントでした。ありがとうございました。> Hortonworksのみなさま セッションや会場にいた人との会話について少し書きます。 まず僕が使っているAmbariに関して発表がありました。 それによると、Hueみたいなクエリをsubmitする機能が入る模様。どうもHadoopクラスタへのアクセスをすべてAmbari経由にしたいようだ。うーん、それはどうなんだろ。。。Prestoあるし。個人的にはそれよりもっとクラスタ管理に注力してほしいと思ったり。。。例えばエラー通知をメールじゃなくてHipChatとかSlackにとばせるようにするとか。 Ambariで使っているNagios, Gangilaはdeprecatedになり、メトリクスをHBaseにためてPhenioxでクエ

    Hortonworksのイベントに行ってきた - wyukawa's diary
    kimutansk
    kimutansk 2015/03/13
    Spark on YARNはどこでも悩みの種なんですかね。メインの仕事でない中クラスタ管理で困った点をどうするか、というのもやはり悩みどころです
  • Apache Hadoop YARN: Avoiding 6 Time-Consuming "Gotchas" | Cloudera Developer Blog

    The ongoing progress in Artificial Intelligence is constantly expanding the realms of possibility, revolutionizing industries and societies on a global scale. The release of LLMs surged by 136% in 2023 compared to 2022, and this upward trend is projected to continue in 2024. Today, 44% of organizations are experimenting with generative AI, with 10% having […] Read blog post

    Apache Hadoop YARN: Avoiding 6 Time-Consuming "Gotchas" | Cloudera Developer Blog
    kimutansk
    kimutansk 2015/03/06
    YARNのNodeManagerのメモリチェックを無効化すれば、Container Killerによってkillされるのは回避可能なんですかね。
  • Cloudera Blog

    The ongoing progress in Artificial Intelligence is constantly expanding the realms of possibility, revolutionizing industries and societies on a global scale. The release of LLMs surged by 136% in 2023 compared to 2022, and this upward trend is projected to continue in 2024. Today, 44% of organizations are experimenting with generative AI, with 10% having […] Read blog post

    Cloudera Blog
    kimutansk
    kimutansk 2015/02/03
    DriverとApplication Masterは別物ですよ、というのはRDD>DAG・・という解釈の流れを見ないとちとわかりにくいですか。
  • しつこいがSpark & YARNの補足 – OpenGroove

    しばらく前から気になっていたタイトルの問題、以下ブログに詳細が書かれており、やっと点が線につながってきた… Apache Spark Resource Management and YARN App Models 寝かせておくといつになるか分からない、かつ、読む気と書く気が失せるので、個人的に気になった点だけ今ここで要約しておく。意訳/誤訳/勝手に追記したりしてるので参考はほどほどに。 以下… MapReduceモデルでは最も上位の計算ユニットはJobだが、Sparkはその上にapplicationというレベルが存在する。applicatinsはJobをシーケンシャルに、もしくはパラレルに実行することができる。 Applicationはexecutorsと呼ばれるプロセスを持つ。executorはジョブが走っていない時でも起動している(データをメモリに保持し、タスクに対して素早く対応するこ

    kimutansk
    kimutansk 2015/01/27
    「YARN clientモード」「YARN clusterモード」の違いは確かにわかりにくいですね。Driver部の位置が変わるだけではありますので。
  • YARN 上における分散処理基盤のリソース管理について - Qiita

    稿では,YARN 上における分散処理基盤のリソース管理の仕組みと,問題となる状況,および Spark の解決方法について,Spark の例をまじえて説明します. YARN の基礎 MapReduce v1 では,TaskTracker が MapSlot/ReduceSlot という単位でリソースを管理していましたが,YARN では,"コンテナ"という単位でリソースを確保し,その中で処理を行います. コンテナには,CPU/メモリ/ディスク帯域幅/ネットワーク帯域幅などを割り当てることが可能です.2014/12時点では,CPU/メモリのリソース管理サポートが入っています.ディスクIO/ネットワークIOの制御も来年には入るかもしれません. Spark on YARN におけるリソース管理の例 Apache Spark は,オンメモリ用上のデータ処理を容易に行うことができる分散処理フレームワー

    YARN 上における分散処理基盤のリソース管理について - Qiita
    kimutansk
    kimutansk 2015/01/08
    YARN上でSpark動作させる場合にExecutor数をリソース利用状況に応じて増減させられるようになりましたか。減る予定のExecutorが保持するRDDはどうなるか調べてみますか。
  • Cloudera Blog

    In an era where artificial intelligence (AI) is reshaping enterprises across the globe—be it in healthcare, finance, or manufacturingit’s hard to overstate the transformation that AI has had on businesses, regardless of industry or size. At Cloudera, we recognize the urgent need for bold steps to harness this potential and dramatically accelerate the time to […] Read blog post

    Cloudera Blog
    kimutansk
    kimutansk 2014/10/24
    SparkとTezの比較の質問が面白い。Sparkは開始すると終了するまでリソースを取得可能なMaxまで確保し続けるが、Tezは都度解放すると。Sparkの方が予測しやすいというのはある?
  • Spark Summit 2013の内容一覧 - 夢とガラクタの集積場

    こんにちは。 思いっきり見逃していた話なのですが、2013/12にSpark Summit 2013が開催されていました。 幸い、資料はほとんど公開されているようなので、 内容を確認してみようと思うのですが、まずは概要を確認しておこう、ということで内容一覧と概要をまとめてみました。 尚、概要については概要ページが用意されている発表についてはそれを訳し、 存在しないものについては資料の中身をざっと確認して概要を書いています。 先進的な企業に加えて、Yahooのような大きなHadoopクラスタを有する企業でもSparkを取り込み、 既存のデータ解析基盤と統合させようとする動きが出ているのが面白いですね。 加えて、YARN/Mesosの存在によってSparkの導入は「既存機能の置き換え」ではなく、 「既存機能との統合」という流れで発生しているのも興味深いところです。 というわけで、各セッションに

    Spark Summit 2013の内容一覧 - 夢とガラクタの集積場
    kimutansk
    kimutansk 2014/01/22
    YARN/Mesosの存在のおかげか、 #ApacheSpark は「既存の基盤(主にHadoop)と統合」という形で取り込まれる流れだったのが印象的でした
  • 1