タグ

hddとdecommissionに関するyassのブックマーク (7)

  • Previous Versions

    yass
    yass 2014/05/25
    " If a disk fails due to a hardware problem, you will need to remove the disk. You can replace it, and then add that disk back to MapR-FS along with the other disks that were automatically removed at the same time. "
  • Hadoopのバランサー実行中にdfs.datanode.balance.bandwidthPerSecを変える - wyukawa's diary

    Hadoopにはバランサーというものがあります。象10.1.4.4 バランサー参照。 Hadoopでは時間の経過とともにDataNode間でのブロックの分散度合いのバランスが悪くなっていきます。これを是正するためのプログラムがバランサーで実態はstart-balancer.shというシェルです。 start-balancer.shは利用度の高すぎるDataNodeから利用度の低すぎるDataNodeへブロックを移動するプログラムです。 -threshold引数はバランス度合いを決めるパーセンテージでデフォルトは10です。各DataNodeの利用率とクラスタの利用率の差を意味しています。 start-balancer.shをcronでたたくという運用もあるようですが、僕が見た範囲だと何もしなくても10%以内の隔たりに収まる気がします。 ただ今回僕が遭遇したのはディスク使用率が高いという警告

    Hadoopのバランサー実行中にdfs.datanode.balance.bandwidthPerSecを変える - wyukawa's diary
    yass
    yass 2014/05/25
    " 最初は1G移動するのにも20分程度かかってたのが帯域変えたら10G移動するのに2分程度です。"
  • デコミッションが遅いときに見直す設定 - Yet Another HDIF?

    Disclaimer: The opinions expressed here are my own and do not necessarily represent those of current or past employers.Twitter / Photos Disclaimer: The opinions expressed here are my own and do not necessarily represent those of current or past employers. Twitter / Photos @kernel023がすごい勢いでひとりアドベントカレンダーを更新中で、こちらのHadoopアドベントカレンダー2013はすっかり裏扱いされつつある今日このごろですが、せっかくなので6日目としてデータノードのデコミッションが遅いときにどうしますかという地

    デコミッションが遅いときに見直す設定 - Yet Another HDIF?
    yass
    yass 2014/05/25
    " ネームノードはこのとき、以下の計算にもとづいて一度に転送指示を出すブロック数を決定します / 生存しているデータノードの数 × dfs.namenode.replication.work.multiplier.per.iteration / デフォルトで2 "
  • Hadoopサーバーの増やし方、減らし方

    すべての地雷を踏む男leonです。 Hadoopカスタマイズをネタにブログを始めさせていただきました。 前回、Hadoopセットアップ手順を紹介させていただいたので、今回からカスタマイズ話をしたいと思います。 Hadoopのincludeファイル、excludeファイルにハマった・・・。 今日はそのお話をさせていただきます。 話を始める前にincludeファイル、excludeファイルとはなんですかを説明しないとですね。 このincludeファイルとexcludeファイルはサーバーのslave接続を終了させる際に、ノードからデータを退避して脱退させる為に使用します。 includeファイルはデータノードへの接続を許可されるデータノード、JobTrackerに接続可能なTaskTrackerのホスト名を記述するファイルです。includeファイルはdfs.hostsプロパティとmapred.

    yass
    yass 2014/04/28
    " 脱退中のデータノードからデータが退避されるのをひたすら(弊社の規模では1?2日)待ちます。"
  • HDD障害時のHadoop datanodeの対応について - wyukawa's diary

    ここ最近毎日のようにHDD障害が発生しててお祓いに行った方が良いのかなと思い始めているwyukawaです。こんばんは。 HadoopのdatanodeにHDD障害が発生した場合、普通はdecommissionすると思います。 ただdecommissionってやたら時間かかるんですよね。まる1日とかね。まあデータ量が多いからだとは思います。例えばTBいかないならdecommissionしてもそんなに時間かからないのかなと思います。完全に想像ですが。 なので僕は下記のようにdatanodeを止めちゃってます。 hadoop-daemon.sh stop datanodeこの辺は以前下記にも書きました。 dfs.datanode.failed.volumes.toleratedとdatanodeのdecommission - wyukawa’s blog こうすると一時期にレプリカ数が足りないブ

    HDD障害時のHadoop datanodeの対応について - wyukawa's diary
    yass
    yass 2014/02/22
    " HadoopのdatanodeにHDD障害が発生した場合、普通はdecommissionすると思います。ただdecommissionってやたら時間かかるんですよね。まる1日とかね。/ なので僕は下記のようにdatanodeを止めちゃってます。"
  • dfs.datanode.failed.volumes.toleratedとdatanodeのdecommission - wyukawa's diary

    HDFSにはdfs.datanode.failed.volumes.toleratedという設定項目があります。defaultは0。 <property> <name>dfs.datanode.failed.volumes.tolerated</name> <value>0</value> <description>The number of volumes that are allowed to fail before a datanode stops offering service. By default any volume failure will cause a datanode to shutdown. </description> </property>内容は下記に詳しいです。 By default, the failure of a single dfs.data.dir

    dfs.datanode.failed.volumes.toleratedとdatanodeのdecommission - wyukawa's diary
    yass
    yass 2014/02/22
    "dfs.data.dirに複数のディレクトリを指定 / dfs.datanode.failed.volumes.toleratedに1を設定すると2つ以上のディレクトリに障害が発生しない限りはdatanodeは動き続け / 復旧した場合に再度そこに書き込むようにするにはdatanodeを再起動"
  • http://infra-engineer.com/hadoop/hadoop%E8%B1%A1%E6%9C%AC%E7%AC%AC2%E7%89%88-9%E7%AB%A0-%E3%80%8Chadoop%E3%82%AF%E3%83%A9%E3%82%B9%E3%82%BF%E6%A7%8B%E7%AF%89%E3%80%8D%E3%81%AE%E3%81%BE%E3%81%A8%E3%82%81/

    yass
    yass 2014/02/21
    " HDFSのJBOD構成では、すべてのディスク間でHDFSブロックをラウンドロビンで配置 / JOBD構成においてディスクの障害が発生した場合でも、HDFSは障害の発生したディスクを除外して動作を続けることができる"
  • 1