現在、Hadoop 2.x系では HDFSのスナップショット機能が含まれています [1]。CDH5からこの機能がサポートされました。 HDFSスナップショットとは? HDFSでのスナップショットとは、HDFSサービスを停止せず、特定の時点での「状態」を保持するための機能です。従来のHDFSには、 削除したファイルの復旧ができない(HDFSにゴミ箱機能はありますが、、) ある時点でのリカバリができない 定期的なスナップショットを取る仕組みがない という課題がありました。 たとえば、ある時点でHDFSの一貫性があるバックアップを取りたい場合、厳密に一貫性を確保するためにはネームノードを一旦セーフモードにするなどの操作の必要がありました。が、この際にダウンタイムが生じてしまいます。HDFSスナップショットにより、HDFSを停止せずに、特定の時点でのバックアップを取得することが可能になります。 H