[B! algorithm][spark] manabouのブックマーク

manabou id:manabou

algorithmとsparkに関するmanabouのブックマーク (1)

[Spark][TF-IDF][テキスト処理] Reuters21578 を K-means 法でクラスタリングする | DevelopersIO
文書をグループ分けしたいネット上やDBの中にある文書をグループ分けしておいて、新しい文書が現れたときにそれが既存のどのグループに属しているか判断したい場合があります。今回はApache Sparkを使って文章から取得できる TF-IDF を用いた K-means クラスタリングを実行し、分類を行ってみました。クラスタリング入力ベクトルのみから類似したベクトルのグループを見出すような機械学習の手法をクラスタリングと呼びます。例えば、2次元 x-y 平面上における以下のようなデータ・セットがあった場合にはクラスタリングによって以下の様なグループ分けがなされると期待されます。通常、訓練データ中の入力ベクトルに対応した目標ベクトルがあるような手法は教師あり機械学習と呼ばれますが、今回扱う K-means クラスタリングについては目標ベクトルがありません。そのため、教師なし機械学習とも
manabou 2015/07/22
spark

testdata

nlp

algorithm
リンク
1

お知らせ

もっと読む

公式Twitter

@HatenaBookmark
リリース、障害情報などのサービスのお知らせ
@hatebu
最新の人気エントリーの配信

キーボードショートカット一覧

j次のブックマーク

k前のブックマーク

lあとで読む

eコメント一覧を開く

oページを開く

設定を変更しましたx