MapReduceでジョブの実行時に生成される中間データは、ジョブの終了時に削除されます。これにより不要なデータは削除され、ディスク容量が圧迫されることがなくなります。 しかし、デバッグのために中間データを保持しておきたいと言うこともあるでしょう。今回はCDH3を使用した2つのやり方を紹介します。 1. 失敗時のみファイルを残す keep.failed.task.files このパラメータをtrueにすることにより、失敗したジョブの中間データは削除されないようになります。 2. 条件に基づいてファイルを残す keep.task.files.pattern このパラメータを”.*_m_0000.*”のように指定します。条件に一致したファイルは削除されません。 なお、CDH4からはパラメータ名が以下のように変更となりますのでご注意下さい。 keep.failed.task.files -> m