こんにちは、小澤です。 今回は、Sparkの機械学習ライブラリであるMLlibがどのように実装されているのかを見てみましょう。 MLlibには、mllibパッケージとmlパッケージの2つがあります。 mlのほうが新しいパッケージとなりますので、こちらに含まれるものを見ていくことにしましょう。 はじめに 今回は、Apache Sparkのソースコードを多数掲載しています。 これらのライセンスに関しては省略していますが、すべてApache License 2.0となっています。 Apache Sparkのライセンス表記に関しては、LICENSEをご覧ください。 また、今回は個々の処理の細かい実装を追っていくことを目的とするわけではなく、Pipelienを利用したMLlibの処理の流れとしてどのようになっているのかを見ていくことを目的としています。 そのため、すべてのソースの解説をするわけではあ