こんにちは、小澤です。 この記事はHadoop Advent Calendar 16日目のものとなります。 1人でHadoopの話をする Advent Calendar 2016 - Qiita Hadoop Advent Calendar 2016 | シリーズ | Developers.IO 前回はSparkでWord Countの実装して動かす方法を紹介しました。 今回はSpark SQLとDataFrame APIについて書かせていただきます。 Spark SQLとDataFrame API SparkはRDDに対して何かしらの処理を行った新しいRDDの生成を繰り返していくことで全体の処理フローを定義するものでした。 これに対してDataFrameというものはデータをテーブル構造で定義して、それに対する操作を記述していくものになります。 これはRやPythonなどデータ分析によく使