タグ

ブックマーク / shun0102.net (2)

  • Hadoopのジョブのパフォーマンスチューニング

    Hadoop 0.21ではCounterでGCに使っている時間が見れるようになりました。 こんな感じです。 この例では5秒程度ですが、ジョブによってはもっとGCに時間を使っている場合があり、 もっと詳細を調べてチューニング出来ないかという話です。 まずはGCのログを取ります。 <name>mapred.child.java.opts</name> <value>-Xloggc:/tmp/hadoop-mikami/@taskid@.gc -Xmx1024m</value> このように-Xloggc で指定した場所にログを取れます。 @taskid@ には attempt_201010311624_0037_m_000000_0 みたいな感じでattempt_id が入ります。 以下が先程のジョブのあるMapタスクでのGCログです 0.164: [GC 3072K->416K(889

  • Hadoop 0.21でのHDFSの変更点

    8/23にリリースされた0.21ですが、多くの変更点があり、特徴的な部分がclouderaのブログで紹介されています。 What’s New in Apache Hadoop 0.21 その中でもHDFSの変更点を紹介していきます。リリースノートはこちら support appends append は0.19.0 で導入された後に安定性の問題で0.19.1からは無効になっていましたが、0.21.0で新しい実装(HDFS-265)が導入されました。HDFS-265にはappendDesign3.pdfというファイルにappendやHfulshのデザインの詳細がドキュメント化されているので、合わせて読んでおきたい所です。 new filesystem API FileContextと呼ばれる新しいAPIが導入されました。これの説明はこのスライドがわかりやすいと思います。 HDFS以

  • 1