[B! hdd][decommission] yassのブックマーク

Previous Versions

yass 2014/05/25

" If a disk fails due to a hardware problem, you will need to remove the disk. You can replace it, and then add that disk back to MapR-FS along with the other disks that were automatically removed at the same time. "

リンク

Hadoopのバランサー実行中にdfs.datanode.balance.bandwidthPerSecを変える - wyukawa's diary

Hadoopにはバランサーというものがあります。象本10.1.4.4 バランサー参照。 Hadoopでは時間の経過とともにDataNode間でのブロックの分散度合いのバランスが悪くなっていきます。これを是正するためのプログラムがバランサーで実態はstart-balancer.shというシェルです。 start-balancer.shは利用度の高すぎるDataNodeから利用度の低すぎるDataNodeへブロックを移動するプログラムです。 -threshold引数はバランス度合いを決めるパーセンテージでデフォルトは10です。各DataNodeの利用率とクラスタの利用率の差を意味しています。 start-balancer.shをcronでたたくという運用もあるようですが、僕が見た範囲だと何もしなくても10%以内の隔たりに収まる気がします。ただ今回僕が遭遇したのはディスク使用率が高いという警告

yass 2014/05/25

" 最初は1G移動するのにも20分程度かかってたのが帯域変えたら10G移動するのに2分程度です。"

リンク

デコミッションが遅いときに見直す設定 - Yet Another HDIF?

Disclaimer: The opinions expressed here are my own and do not necessarily represent those of current or past employers.Twitter / Photos Disclaimer: The opinions expressed here are my own and do not necessarily represent those of current or past employers. Twitter / Photos @kernel023がすごい勢いでひとりアドベントカレンダーを更新中で、こちらのHadoopアドベントカレンダー2013はすっかり裏扱いされつつある今日このごろですが、せっかくなので6日目としてデータノードのデコミッションが遅いときにどうしますかという地

yass 2014/05/25

" ネームノードはこのとき、以下の計算にもとづいて一度に転送指示を出すブロック数を決定します / 生存しているデータノードの数 × dfs.namenode.replication.work.multiplier.per.iteration / デフォルトで2 "

リンク

Hadoopサーバーの増やし方、減らし方

すべての地雷を踏む男leonです。 Hadoopカスタマイズをネタにブログを始めさせていただきました。前回、Hadoopセットアップ手順を紹介させていただいたので、今回からカスタマイズ話をしたいと思います。 Hadoopのincludeファイル、excludeファイルにハマった・・・。今日はそのお話をさせていただきます。話を始める前にincludeファイル、excludeファイルとはなんですかを説明しないとですね。このincludeファイルとexcludeファイルはサーバーのslave接続を終了させる際に、ノードからデータを退避して脱退させる為に使用します。 includeファイルはデータノードへの接続を許可されるデータノード、JobTrackerに接続可能なTaskTrackerのホスト名を記述するファイルです。includeファイルはdfs.hostsプロパティとmapred.

yass 2014/04/28

" 脱退中のデータノードからデータが退避されるのをひたすら(弊社の規模では１?２日)待ちます。"

リンク

HDD障害時のHadoop datanodeの対応について - wyukawa's diary

ここ最近毎日のようにHDD障害が発生しててお祓いに行った方が良いのかなと思い始めているwyukawaです。こんばんは。 HadoopのdatanodeにHDD障害が発生した場合、普通はdecommissionすると思います。ただdecommissionってやたら時間かかるんですよね。まる１日とかね。まあデータ量が多いからだとは思います。例えばTBいかないならdecommissionしてもそんなに時間かからないのかなと思います。完全に想像ですが。なので僕は下記のようにdatanodeを止めちゃってます。 hadoop-daemon.sh stop datanodeこの辺は以前下記にも書きました。 dfs.datanode.failed.volumes.toleratedとdatanodeのdecommission - wyukawa’s blog こうすると一時期にレプリカ数が足りないブ

yass 2014/02/22

" HadoopのdatanodeにHDD障害が発生した場合、普通はdecommissionすると思います。ただdecommissionってやたら時間かかるんですよね。まる１日とかね。/ なので僕は下記のようにdatanodeを止めちゃってます。"

リンク

dfs.datanode.failed.volumes.toleratedとdatanodeのdecommission - wyukawa's diary

HDFSにはdfs.datanode.failed.volumes.toleratedという設定項目があります。defaultは0。 <property> <name>dfs.datanode.failed.volumes.tolerated</name> <value>0</value> <description>The number of volumes that are allowed to fail before a datanode stops offering service. By default any volume failure will cause a datanode to shutdown. </description> </property>内容は下記に詳しいです。 By default, the failure of a single dfs.data.dir