Apache Sparkと機械学習 当社のコラムでも既に何度か取り上げてきたが、Apache Sparkがいよいよ本格的な流行の様子を見せている。Apache Sparkは下図のようなエコシステムを持っているが、特にその中でも、Spark Streamingによるリアルタイム処理とともに、MLlibによる機械学習処理が人気を博している。日本ではHiveを用いてのバッチ処理高速化にてHadoopが広く使われるようになったが、Apache Sparkの場合は、リアルタイム処理・機械学習処理を糸口にパラダイムシフトが行われていると言っても過言ではないだろう。 (出典:Apache Spark公式サイト ) 本コラムではMLlibを用いての機械学習処理について簡単な使い方を説明するものとする。 Apache Sparkは分散メモリRDDを活用することで、特定のデータに対する繰り返し処理に向くアーキ