オープンソースフレームワークであるApache Spark、およびそのエコシステム(周辺ソフトウエア)であるMLlibを活用することで、高速かつ柔軟な機械学習処理を実現できる。本稿では、Apache Sparkを用いた機械学習の特徴や歴史を紹介する。 Apache Sparkとは? 本稿では、「ポストHadoop」の最右翼と言われているApache Sparkのエコシステムである、MLlibライブラリを用いた機械学習システムについて説明する。 オープンソースソフトウエアであるApache Sparkは、2014年2月にApacheのトップレベルプロジェクトに昇格したほか、ビッグデータ分野のリーディングカンパニーである米クラウデラがサポートを行うなど、安定的な発展が見込まれている。 Apache SparkはHadoopと同じく、計算処理を分散環境で並列実行するための基盤である。RDD(Re
![[4]Apache Spark/MLlibの歴史と特徴を学ぶ](https://cdn-ak-scissors.b.st-hatena.com/image/square/2f240235addf9a91f4ec80e76e18a1cfeec16899/height=288;version=1;width=512/https%3A%2F%2Fxtech.nikkei.com%2Fit%2Fatcl%2Fcolumn%2F15%2F091600220%2F091700004%2Fzu1.jpg%3F20220512)