本日は Hive on Tez の話をしようと思いましたが,昨日の記事 の中でも触れられている Spark かつ SQL on Hadoop である SparkSQL on YARN の話に話題を変更してお届けします. SparkSQL とは 名前通り,Spark をランタイムとした SQL インタフェースです.デザインの特徴として,SparkDSL との親和性と,Hive の Metastore, SerDe, UDF 互換性が保たれているという点があげられます.SparkSQL のドキュメントとしては,以下のものがあります: SparkSQL Spark SQL Programming Guide Spark on YARN での HiveQL 互換クエリの動かし方 ここからは,Hadoop 2 クラスタを既に持っている方のために,Spark on YARN における Spark の動