まず以前の私の記事でLustreを推していたが、これは撤回すべきだと思う。 日本でLustreを本気で使っている組織のひとつに東工大がある。東工大はTsubameクラスタでLustreを使っているのだが、TSUBAMEグリッドクラスタのページを見てほしい。/work, /work2の障害のお知らせが定期的に載っているのがわかるだろうか。この/work, /work2というのがLustreで提供されているボリュームで、見てわかるように、とても頻繁に障害が起きている。 障害の主な原因のひとつは、LustreがノードをRAID0でまとめていることと、メタデータサーバが頻繁に止まってしまうことに起因しているようだ。RAID0の場合、ディスクが1台でも止まると、ボリューム全体にアクセスできなくなる。これと同じことがLustreではノードで発生し、ストレージノードが一台止まると、クラスタごと止まってし