Apache Spark 1.6から新しく追加されたDataset APIを試してみる。 2015/12/14現在まだリリースされてないが、年内中にはリリースされるはず。 背景 RDDはLow Level APIで、としてフレキシブルだが、最適化が難しい (Spark 1.3から登場した)DataFrameはHigh Level APIでオプティマイザーが最適化してくれるが、フレキシブルさがない。特にUDFの使い勝手が不便なところや型チェックに弱い Dataset API 登場 上記の問題を解決するためにSpark 1.6から実験的(Experimental)に登場したのがDataset APIである RDDとDataFrameの良いところを併せ持つAPIとして開発されています。つまり、早くて使い勝手のよいAPIだと言えます。 画像はhttp://technicaltidbit.blogs