Apache Sparkで、HDFS上のファイルに対して読み書きをしてみます。 といっても、SparkContext#textFileやRDD#saveAsTextFileへ渡すパスを、「hdfs://」から始まるものにすればよさそうです。 なお、HDFSとSparkですが、今回はCDH 5.4.4で構築してみました。なので、Apache Sparkは最新版の1.4系ではなく、1.3系になっています。 プログラム LuceneのStanardAnalyzerを使い、SparkのREADME.mdのWord Countをするプログラムを書いてみます。 とりあえず、ビルド定義から。 build.sbt name := "word-count-lucene-analyzer-cdh-hdfs" version := "0.0.1-SNAPSHOT" scalaVersion := "2.10.4