文書をグループ分けしたい ネット上やDBの中にある文書をグループ分けしておいて、新しい文書が現れたときにそれが既存のどのグループに属しているか判断したい場合があります。 今回はApache Sparkを使って文章から取得できる TF-IDF を用いた K-means クラスタリングを実行し、分類を行ってみました。 クラスタリング 入力ベクトルのみから類似したベクトルのグループを見出すような機械学習の手法をクラスタリングと呼びます。 例えば、2次元 x-y 平面上における以下のようなデータ・セットがあった場合には クラスタリングによって以下の様なグループ分けがなされると期待されます。 通常、訓練データ中の入力ベクトルに対応した目標ベクトルがあるような手法は教師あり機械学習と呼ばれますが、今回扱う K-means クラスタリングについては目標ベクトルがありません。そのため、教師なし機械学習とも
![[Spark][TF-IDF][テキスト処理] Reuters21578 を K-means 法でクラスタリングする | DevelopersIO](https://cdn-ak-scissors.b.st-hatena.com/image/square/0d0f0bcdc6c7561854f8c2a9ec60b7a0f1f63044/height=288;version=1;width=512/https%3A%2F%2Fdevio2023-media.developers.io%2Fwp-content%2Fuploads%2F2015%2F06%2Fspark.png)