はじめに:Spark Dataframeとは Spark Ver 1.3からSpark Dataframeという機能が追加されました。特徴として以下の様な物があります。 Spark RDDにSchema設定を加えると、Spark DataframeのObjectを作成できる Dataframeの利点は、 SQL風の文法で、条件に該当する行を抽出したり、Dataframe同士のJoinができる filter, selectというmethodで、条件に該当する行、列を抽出できる groupBy → aggというmethodで、Logの様々な集計ができる UDF(User Defined Function)で独自関数で列に処理ができる SQLで言うPivotもサポート (Spark v1.6からの機能) つまり、RDDのmapやfilterでシコシコ記述するよりもSimple Codeで、且つ高