Sparkにおける主要な概念にRDD (Resilient Distributed Dataset)というものがある。 すごく平たく言えば「データセットを抽象化したもの」ということになるか。 ドキュメントより一部訳してみると。 Sparkの基本抽象要素。パラレルに処理が行われる、イミュータブルで分割された要素のコレクションを表す。(略) 各RDDは以下5つの主なプロパティにより特徴づけられる。 パーティションのリスト 各分割のコンピューティング用のファンクション 他のRDDsに対する依存関係のリスト オプションとして、key-value RDDs用のパーティショナー オプションとして、各スプリットにとっての好ましいロケーションのリスト (つまり、HDFSファイルのブロックロケーション) ….って言われてもうーむ、だよな。RDDsの英論文があり、そこに詳しい話ががっつり書いてあるのだが、これ