米Databricksは、分散処理フレームワーク「Apache Spark 2.0」のテクニカルプレビュー版を、5月11日(現地時間)に、同社が運営するクラウドプラットフォーム「Databricks」のユーザーに公開した。「Apache Spark 2.0」正式版の公開はまだ先だが、今回のテクニカルプレビュー版によって、いち早く新機能を試せる。 「Apache Spark 2.0」では、標準的なSQLのサポートをはじめ、Scala/Javaにおけるデータフレームとデータセットの統合、SQLコンテクストとHiveコンテクストの後継となるSparkSessionの導入、よりシンプルで強力なアキュムレータAPIやデータフレームベースの機械学習APIの採用など、使いやすさを重視する。 パフォーマンス面でも、フィルタや加算、ハッシュ統合、ソートなど、あらゆる面で「Spark 1.6」を上回っている。
![Databricks、分散処理フレームワーク「Spark 2.0」のテクニカルプレビュー版を限定公開](https://cdn-ak-scissors.b.st-hatena.com/image/square/106c7e478be88bc515873fc79870c7b92dd94618/height=288;version=1;width=512/https%3A%2F%2Fcodezine.jp%2Fstatic%2Fcommon%2Fimages%2Fczlogo4fb_ogp.png)