元ネタ Spark MLlib の K-means を Java から利用してみる - ALBERT Engineering Blog のScala移植版です。 とても丁寧な解説付きなので、まずはそちらをご覧ください。 Scalaコード 変数名やデータ構造および出力フォーマットは、元ネタに合わせています。 言語以外に変更した点は、下記の通りです。 "iris.txt"が見当たらなかったので、"iris.data"を使いました。 ヘッダ行ではなく空行を取り除いています。 http://archive.ics.uci.edu/ml/machine-learning-databases/iris/ Sparkのバージョンを上げているため、特徴ベクトルの型がMLib独自のものになっています。 Java 8 & 機械学習の視点でみる Spark 1.0 リリース - ALBERT Engineeri