Apache Spark Advent Calendar 2015 20日目の記事です。(大遅刻ですみません。。。)この記事では、DataFrame APIを通してカスタムDataSourceへ接続する方法を解説します。 0. 新たなDataSourceを書き始める前に 既に実装済みのDataSourceではないか確認するのが良いでしょう。Spark組み込みのDataSourceとして下記の4つがあります。 JSON Parquet JDBC/ODBC Hive(今回の解説とは異なる実装) http://spark.apache.org/docs/latest/sql-programming-guide.html#data-sources また、spark-packages.orgにはSparkユーザーコミュニティで開発されたパッケージが登録されています。cassandraやredshif
