オープンソースフレームワークであるApache Spark、およびそのエコシステム(周辺ソフトウエア)であるMLlibを活用することで、高速かつ柔軟な機械学習処理を実現できる。本稿では、Apache Sparkを用いた機械学習の特徴や歴史を紹介する。 Apache Sparkとは? 本稿では、「ポストHadoop」の最右翼と言われているApache Sparkのエコシステムである、MLlibライブラリを用いた機械学習システムについて説明する。 オープンソースソフトウエアであるApache Sparkは、2014年2月にApacheのトップレベルプロジェクトに昇格したほか、ビッグデータ分野のリーディングカンパニーである米クラウデラがサポートを行うなど、安定的な発展が見込まれている。 Apache SparkはHadoopと同じく、計算処理を分散環境で並列実行するための基盤である。RDD(Re

