こんにちは、データアナリストの青木とエンジニアの樋口です。 引き続き、Spark Summit 2017 San Fransiscoの記事です。Keynoteやセッションで特に興味深かったものを紹介していきます。 Keynote Coming in Spark 2.2 まずは、Spark2.2に関する情報がきました。注目点は以下。 コストベースSQLの最適化 structured streamingがproduction-readyとなった pip install pyspark が可能となる すでにgitではv.2.2.0-rc4のtagが打たれていることから、リリース間近なようですね。 続いて大きな発表がありました。 Two new open source from Databricks おそらくこの発表がSummitの目玉だったようです。 今後Databricksは以下2つについて、