Spark SQLではDataFrameと呼ばれる抽象的なデータ構造(RDBのテーブルのように行と名前とデータ型が付与された列の概念を持つデータ構造)を用いる。DataFrameはRDD、HIVEテーブル、他のデータソース(ファイルなど)から生成できる。 -DataFrameによる操作 -テーブル形式のデータセットに対してクエリを発行 http://spark.apache.org/docs/latest/sql-programming-guide.html https://spark.apache.org/docs/1.5.2/api/python/pyspark.sql.html SparkSQLサンプルアプリの実行 Spark入門の6章に記載されているプログラムをScalaではなくPython3を使って書き直す。 csv形式のデザートメニュー(メニューID、メニューの名前、値段、カロ