[B! yarn] kimutanskのブックマーク

Spring Cloud Data Flow for Apache YARN

kimutansk 2016/06/10

おお。きちんとYARN用のアーカイブもある。素晴らしい。YARNをAmbariで入れてますが、まぁcdhでも問題ないでしょう・・

spring
YARN

リンク

Apache Apex as a YARN Apllication

kimutansk 2016/05/29

YARN上でApexを動作させる場合の保存方式や初期化、終了方式について。他のと大きく変わるわけではないですが、流れがあるのはうれしい所。

apex
yarn

リンク

Introduction to Apache Apex

kimutansk 2016/05/29

やはり、YARNに最適化された動作、HDFSに状態保存可能という意味で、Hadoopクラスタで運用する利点が大きいですね。Apexは。

リンク

Can't create directory /yarn/nm/usercache/urika/appcache/application_1 - Permission denied

Try to run a simple test and get permissioned denied errors; tried as both root and urika user. Just enabled kerberos... [root@skipper4 cloudera-scm-server]# hadoop jar /opt/cloudera/parcels/CDH/lib/hadoop-mapreduce/hadoop-mapreduce-examples.jar pi 10 100 Number of Maps = 10 Samples per Map = 100 Wrote input for Map #0 Wrote input for Map #1 Wrote input for Map #2 Wrote input for Map #3 Wrote inpu

kimutansk 2015/12/03

yarnに対してジョブ投入した際にディレクトリができなくなる事象、解決方法はわかっても何故解決するかが不明ですし、ClouderaのQAにも書いていませんか。。。

hadoop
yarn

リンク

Spark on Yarn: Where Have All the Memory Gone? | Wei Dong's Blog

kimutansk 2015/04/03

基本的にSpark on YARNを行う場合はメモリをオーバーコミットしろという話。後はどうメモリを使うことになるか、という計算式もわかりやすい。

spark
yarn

リンク

https://hadoop.apache.org/docs/r2.3.0/hadoop-yarn/hadoop-yarn-common/yarn-default.xml

kimutansk 2015/04/02

yarn.nodemanager.env-whitelist に値設定すればJAVA_TOOLSとかもExecutorプロセスに渡せるんですかね。

yarn
spark

リンク

spark/ClientBase.scala at master · cloudera/spark

kimutansk 2015/04/02

実際にSparkJobをSubmitするコード部分自体はここにありますか。

spark
yarn

リンク

Tips for Spark on Cloud Big Data - Data Services - Solutions & Questions - The Rackspace Community

kimutansk 2015/04/02

YARN上でSparkを実際に実行する際のパラメータ例がわかるのはいいですね。

spark
yarn

リンク

Yarn - why doesn't task go out of heap space but container gets killed?

kimutansk 2015/04/02

YARNに実際に渡される実メモリ量指定値はexecutor.memory＋overheadとなるあたりが注意点ですか。上乗せして渡されるので、よく溢れる。

spark
yarn

リンク

YARN Container Launch Details

kimutansk 2015/03/30

YARNではdefault_container_executor.sh等の関連ファイルは全てその場で生成されて実行されるので、後で何か仕込むというのがやりにくい、と。個々のファイルの機能はこうなりますか。

yarn
Hadoop

リンク

Running TeraSort MapReduce Benchmark – All Help & Support

Please be advised our License Portal will be undergoing maintenance between March 15 10:30pm PST - March 16th 9:00am PST during which time users may experience intermittent performance issues. We apologize for the inconvenience. Please be advised that the Broadcom ERP system will be undergoing maintenance between March 28 7pm PST - Apr 1 7pm PST which will impact all new customer accounts created

kimutansk 2015/03/30

YARNの生成ファイルの出力先はnm系のディレクトリ配下と。後で情報追うには必要ですか。

リンク

Apache Sliderを使ってStormもYARNに乗せる - Qiita

本日は、Hadoopと良く一緒に語られるApache Stormと、そのStormを真の意味でのHadoopファミリーとする上でのキーとなるミドルウェアである Apache Sliderについてちょこっとだけ書きたいと思います。 Apache Sliderとは？ YARNの登場により、様々な分散アプリケーションが1つのクラスタを総合的なリソース管理のもとに使いまわすことができるようになりました。ただし、YARNを利用したい分散アプリケーションにはいくつかの制約が発生します。その中でもとりわけ大きいものとして、 YARNに対してのリソースの要求や開放等のコードを書かなくてはならない。ジョブ1つにつきリソースの確保やデーモン等の立ち上げという仕事が発生するため、スタンドアローンに比べてジョブの立ち上がりが遅い。 (ここで言うスタンドアローンとは、YARNを使わずにその分散アプリケーション

kimutansk 2015/03/30

ディレクトリが固定のものを使わないのは何かと厄介なので、Stormをこの手のリソースマネージャと一緒に使うのはコンテナ型仮想化とペアにした方がいいんですかねぇ

Storm
yarn

リンク

Treasure Data Tech Talk #1 開催報告 - トレジャーデータ（Treasure Data）ブログ

トレジャーデータはクラウドでデータマネージメントサービスを提供しています。 3月11日と12日の二日間で、Treasure Dataのエンジニアによるイベント Treasure Data Tech Talk 〜クラウドサービスを支える技術〜を開催いたしました。 Treasure Data Tech Talk 〜クラウドサービスを支える技術〜 http://eventdots.jp/event/373902 Treasure Data Tech Talk 〜クラウドサービスを支える技術〜 “The Deep Day” http://eventdots.jp/event/387738 二日間で200名以上の方に参加していただき、私たちも非常に貴重な時間を過ごすことができました。参加者の皆様、会場を提供をしてくださったフリークアウトさんとDeNAさん、またイベント開催にご協力頂きましたdots

kimutansk 2015/03/16

Tech Talkの内容出ましたか。Plazmaも面白かったですが、Prestoの最適化やYARNの注意点についても非常に参考になります。

リンク

Hortonworksのイベントに行ってきた - wyukawa's diary

Hadoop and the Modern Data Architecture に行ってきました。立派なホテルで良いイベントでした。ありがとうございました。＞ Hortonworksのみなさまセッションや会場にいた人との会話について少し書きます。まず僕が使っているAmbariに関して発表がありました。それによると、Hueみたいなクエリをsubmitする機能が入る模様。どうもHadoopクラスタへのアクセスをすべてAmbari経由にしたいようだ。うーん、それはどうなんだろ。。。Prestoあるし。個人的にはそれよりもっとクラスタ管理に注力してほしいと思ったり。。。例えばエラー通知をメールじゃなくてHipChatとかSlackにとばせるようにするとか。 Ambariで使っているNagios, Gangilaはdeprecatedになり、メトリクスをHBaseにためてPhenioxでクエ

kimutansk 2015/03/13

Spark on YARNはどこでも悩みの種なんですかね。メインの仕事でない中クラスタ管理で困った点をどうするか、というのもやはり悩みどころです

リンク

Apache Hadoop YARN: Avoiding 6 Time-Consuming "Gotchas" | Cloudera Developer Blog

The ongoing progress in Artificial Intelligence is constantly expanding the realms of possibility, revolutionizing industries and societies on a global scale. The release of LLMs surged by 136% in 2023 compared to 2022, and this upward trend is projected to continue in 2024. Today, 44% of organizations are experimenting with generative AI, with 10% having […] Read blog post

kimutansk 2015/03/06

YARNのNodeManagerのメモリチェックを無効化すれば、Container Killerによってkillされるのは回避可能なんですかね。

リンク

Taming YARN @ Hadoop conference Japan 2014

The document discusses Resource Manager high availability in YARN. It describes how the active and standby Resource Managers store state information in ZooKeeper, and how the standby automatically fails over to become active if it detects a failure of the active. Key configurations include enabling HA, specifying the ZooKeeper addresses, and setting timeouts.Read less

kimutansk 2015/03/02

Container Killerによるkillはいきなり発動するのでかなり厄介ではありますね・・・　事前にそこまできちんと予測できるわけでもありませんので。

yarn
hadoop

リンク

Meet Myriad, a new project for running Hadoop on Mesos – Old GigaOm

Hadoop vendor MapR and data center automation startup Mesosphere have created an open source techno logy called Myriad, which is supposed to make it easier to run Hadoop workloads on top of the popular Mesos cluster-management software. More specifically, Myriad allows the YARN resource scheduler — the linchpin of Hadoop 2.0 that lets the platform run processing frameworks other than MapReduce — to

kimutansk 2015/02/12

Mesos上でYARNまで動作させてそちらにリソース管理させるMyriadと。確かにMesosの方が汎用的ではありますが・・出来るんですね。そして名前がどうしてもDryadを連想しますがｗ

リンク

Cloudera Blog

The ongoing progress in Artificial Intelligence is constantly expanding the realms of possibility, revolutionizing industries and societies on a global scale. The release of LLMs surged by 136% in 2023 compared to 2022, and this upward trend is projected to continue in 2024. Today, 44% of organizations are experimenting with generative AI, with 10% having […] Read blog post

kimutansk 2015/02/03

DriverとApplication Masterは別物ですよ、というのはRDD>DAG・・という解釈の流れを見ないとちとわかりにくいですか。

spark
yarn

リンク

しつこいがSpark & YARNの補足 – OpenGroove

しばらく前から気になっていたタイトルの問題、以下ブログに詳細が書かれており、やっと点が線につながってきた… Apache Spark Resource Management and YARN App Models 寝かせておくといつになるか分からない、かつ、読む気と書く気が失せるので、個人的に気になった点だけ今ここで要約しておく。意訳／誤訳／勝手に追記したりしてるので参考はほどほどに。以下… MapReduceモデルでは最も上位の計算ユニットはJobだが、Sparkはその上にapplicationというレベルが存在する。applicatinsはJobをシーケンシャルに、もしくはパラレルに実行することができる。 Applicationはexecutorsと呼ばれるプロセスを持つ。executorはジョブが走っていない時でも起動している（データをメモリに保持し、タスクに対して素早く対応するこ

kimutansk 2015/01/27

「YARN clientモード」「YARN clusterモード」の違いは確かにわかりにくいですね。Driver部の位置が変わるだけではありますので。

リンク

YARN 上における分散処理基盤のリソース管理について - Qiita

本稿では，YARN 上における分散処理基盤のリソース管理の仕組みと，問題となる状況，および Spark の解決方法について，Spark の例をまじえて説明します． YARN の基礎 MapReduce v1 では，TaskTracker が MapSlot/ReduceSlot という単位でリソースを管理していましたが，YARN では，"コンテナ"という単位でリソースを確保し，その中で処理を行います．コンテナには，CPU/メモリ/ディスク帯域幅/ネットワーク帯域幅などを割り当てることが可能です．2014/12時点では，CPU/メモリのリソース管理サポートが入っています．ディスクIO/ネットワークIOの制御も来年には入るかもしれません． Spark on YARN におけるリソース管理の例 Apache Spark は，オンメモリ用上のデータ処理を容易に行うことができる分散処理フレームワー

kimutansk 2015/01/08

YARN上でSpark動作させる場合にExecutor数をリソース利用状況に応じて増減させられるようになりましたか。減る予定のExecutorが保持するRDDはどうなるか調べてみますか。

リンク

はてなブックマーク

タグ

関連タグで絞り込む (22)

yarnに関するkimutanskのブックマーク (34)

お知らせ

今週のはてなブックマーク数ランキング（2024年6月第5週）

今週のはてなブックマーク数ランキング（2024年6月第4週）

今週のはてなブックマーク数ランキング（2024年6月第3週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス