米Databricksは、分散処理フレームワーク「Apache Spark 2.0」のテクニカルプレビュー版を、5月11日(現地時間)に、同社が運営するクラウドプラットフォーム「Databricks」のユーザーに公開した。「Apache Spark 2.0」正式版の公開はまだ先だが、今回のテクニカルプレビュー版によって、いち早く新機能を試せる。 「Apache Spark 2.0」では、標準的なSQLのサポートをはじめ、Scala/Javaにおけるデータフレームとデータセットの統合、SQLコンテクストとHiveコンテクストの後継となるSparkSessionの導入、よりシンプルで強力なアキュムレータAPIやデータフレームベースの機械学習APIの採用など、使いやすさを重視する。 パフォーマンス面でも、フィルタや加算、ハッシュ統合、ソートなど、あらゆる面で「Spark 1.6」を上回っている。