この記事は、Machine Learning Advent Calendar 2016 8日目の記事です。 spark mlの分類器をお試しする上でのTipsを4つご紹介します! 1. お試しに便利なlibsvmデータセット 機械学習を試す上で、データセットを用意する必要があります。 よく知られているものとして、 UCI http://archive.ics.uci.edu/ml/index.html kaggle https://www.kaggle.com/datasets MovieLens http://grouplens.org/datasets/movielens/ などを利用することが多いと思います。 ただ、クラス数、特徴量の数、データ量など、適切なものを探すのは大変です。 LIBSVMでは、UCI等で取得できる分類や回帰に利用できるデータが、それぞれのクラス数、特徴量数、デ