※本記事ではうるう秒によるjavaの異常と、それに伴って生じたHadoop 0.21.0 HDFSのメタデータ破損からの復旧手順を説明します。なお、本復旧手順は私の環境で上手くいっただけであり、他の環境で同様の手順を行ったとしても復旧できる保証はありませんので、ご注意ください。 昨日(2012/7/1)Hadoopクラスタの一部マシンでCPU負荷が突然MAXに張り付いていることに気付きました。 今日になってこの現象はうるう秒のあとにjavaに生じた不具合であることが分かりました(参考:http://d.hatena.ne.jp/sh2/20120702、このブログの記述と同様にjavaとksoftirqdプログラムが大きなCPU負荷を占め続けていました)。 この障害が起きていたのはOSがfedora10, 13のマシン群で、他のマシンはCentOSであり不具合無く動作していました。 試行錯