はじめに この記事はSpark, SQL on Hadoop etc. Advent Calendar 2014の16日目の記事です。 Spark Programming Guideによると、RDD.persist(StorageLevel.OFF_HEAP)はTachyonが使われるとあります。 experimentalと書いてあるだけあって、いざ使おうとするとエラーが発生します。この機能を使うためにはTachyonを事前にインストールしなければなりません。 日本語のドキュメントがほとんど見つからなかったので、この機会にTachyonのことを書こうと思います。 今回は次の3つにチャレンジしました。 (1) Tachyonのインストール (2) spark-shellからTachyonにデータを保存する (3) SparkのサンプルアプリであるSparkTachyonPi(SparkPiが