タグ

ブックマーク / shun0102.net (3)

  • 3Dクラスタ監視ツール

    最近クラスタの負荷状況を3Dで表示するようなツールを作ってます。 クラスタ監視ツールって既存のものもあるのに、なぜ今更?と思うかもしれませんが、 既存のもので足りないと思っているのは、 1. 十数台くらいまでなら良いがそれ以上になるとグラフを見るのがつらい 2. CPU毎、ディスク毎に見れない 自分の目的としては数百台とかの規模でHadoopを実行し、負荷状況を見れること、 後からも実行時の状況を調べてボトルネック等を分析出来るようにすることです。 そこでこんな感じのものを作りました。 構成はこんな感じです。使用技術は、 fluentd + node.js + websocket + webgl (Three.js) といった感じでかなり流行りの技術を使ってる感じです。 各サーバーの負荷状況をfluentdで集めています。自作プラグインfluent-plugin-statでC

  • fluent-plugin-dstatの紹介

    ウィークリーFluentdユースケースに参加して、fluent-plugin-dstatの紹介記事を書きたいと思います。 dstatはnetstatやiostatなどをまとめたようなツールで、こんな感じで同じタイムフレームでのマシンのリソース情報がとれます。 どんなオプションがあるかについては公式を見てください。 yumとかで入れると古いバージョンが入ったりしますが、最新版は7.2で、使えるプラグインが増えてたりします。 主に top-xxx-adv 系が増えています。 どういうものかというと、例えば古いバージョンでもある top-cpu はこのようにCPU利用率の高いプロセスを表示してくれますが、 top-cpu-advだとさらに細かい情報がとれるのと、ちゃんとプロセス名、利用率など項目がわかれているので、fluentのプラグインとしてjsonの形式にしやすいのです。 dst

  • [Hadoop]複数ディスクを使って効率の良い処理

    Hadoop では一つのノードあたり複数ディスクを使うことができますが,ディスクを増やすことによってどれくらい性能が向上するか調べました. HDFSで使用するディスクをdfs.data.dirにコンマ区切りで記入することで複数使えます. <property> <name>dfs.data.dir</name> <value>/data/local/${user.name}/hadoop/dfs/data, /data/local2/${user.name}/hadoop/dfs/data</value> </property> しかし,これだけではまだダメで,mapタスク,reduceタスクが中間データを書き込むディスクも複数指定しなしとHadoopのジョブで複数ディスクを効率良く使えません.mapred.local.dir で設定可能です. <property> <name>mapre

    yuiseki
    yuiseki 2010/03/07
  • 1