[B! hadoop][インフラ] wasaiのブックマーク

wasai id:wasai

hadoopとインフラに関するwasaiのブックマーク (2)

インフラエンジニアのためのHadoop情報ログの切捨て：So-net Developer Blog：So-netブログ
Hadoopはlog4jを使って、大量のログを生成しています。連日ジョブを走らせているような環境では、NameNodeのログ領域はGバイト単位で肥大化してディスクを圧迫します。ログの出力ディレクトリをシステム領域と共有している場合などは、ディスク残容量不足でシステムトラブルの原因にもなりえます。見落としがちですが、ログの管理もやっておきましょう。ローテーションについては、Hadoopがやってくれているので、不要なログを抑制して不要になった古いログは削除するようにします。ログの抑制についてですが、CDHを使う限りHDFSへのアクセスにパーミッションを設定してはいないので、HDFSへの監査ログは不要と思われます。しかも、この監査ログがHDFSへのアクセスの度に記録されるので、肥大化の原因になってます。 log4j.properties中に定義されている「SNamesyste
wasai 2010/12/21
メモ

So-net

Hadoop

インフラ
リンク
インフラエンジニアのためのHadoop情報　Gangliaその１：So-net Developer Blog：So-netブログ
これまではHadoopの死活監視が目的のNagios設定を見てきましたが、HadoopはJMX を通してメモリ使用状況、ジョブ（MapReduce)の進行状況を詳細に見ることができます。このJMXの値を、Gangliaというグラフ表示の監視ツールを使って可視化しましょう。ジョブの投入状況に合わせて、メモリやCPUの利用率が各ノード毎にグラフ化されて見えるので、ボトルネックの発見に役立つはずです。 Gangliaのインストールは終わっているものとして・・・としたいところですが Nagiosと違って、Hadoopの各ノード側全てにインストールしなければいけないのでちょっと面倒。 rpmパッケージを作って、各ノードに配布しちゃいましょう。まずは、Ganglia監視サーバ側を作成。 rpm化にはcheckinstallを使います。あらかじめインストールしておきます。ビルドに必要なものを
wasai 2010/11/01
この手の話が一番使うような気がするのでメモ

hadoop

監視

インフラ
リンク
1

お知らせ

もっと読む

公式Twitter

@HatenaBookmark
リリース、障害情報などのサービスのお知らせ
@hatebu
最新の人気エントリーの配信

キーボードショートカット一覧

j次のブックマーク

k前のブックマーク

lあとで読む

eコメント一覧を開く

oページを開く

設定を変更しましたx