つい先日、ファーストサーバというホスティング企業が多数の顧客の全データを喪失するという前代未聞の事故が起こりました。 twitterやfacebookでは技術者や弁護士など、様々な方々が色んな観点からの議論を始めています。 私としても、今回の事故から得られた教訓と、弊社でのデータ保全の取り組みについてお話ししたいと思います。 大規模障害の概要と原因について(中間報告) ファーストサーバ サポートWEB こちらに中間報告があがっていますが、オペレーションミスによりサーバの削除タスクをバックアップ環境を含めた全サーバに対して適応してしまったという前代未聞の事故です。 動的にサーバのプロビジョニング(構成管理)を行う場合には、バグやオペミスによりデータを誤って消してしまうということは考えられますので、その点では作業手順やプログラムの安全品質については厳重な管理が必要と考えられます。 本質的な原因