RDDの不変とは RDDの不変(イミュータブル)とは、“依存RDD(系譜)”と“処理内容”が変わらないという意味であり、「“処理した結果のデータ(値)”が常に変わらない」という意味ではない。[2014-09-08] 「一度出来上がったデータ(値)は、正常な手段では変更されない」という意味では、データが不変と言えなくもないが。 Sparkでは、障害が起きてRDDの一部が消失すると、入力元の(依存している)RDDを使って再処理してデータを作り直す。 基本的には、依存RDDのデータ(値)が障害前と同じであれば、再処理した結果のデータも障害前と同じになる。 しかし、障害前と同じにならないケースもある。 破損していない入力データが見つかるまで再帰的に依存RDDを辿っていくことになるが、一番先頭まで辿り着いてしまうと、HDFS等の外部システムからデータを再度読み込むことになる。 もしそのデータの内容が