目的 今回は、複数のテキストファイルを類似したテキスト同士で分類する。 手法 Rの階層的クラスタリングは、各行がクラスタリング対象の特徴ベクトルからなる行列に対して、各行をクラスタに分ける。そこで、RMeCabでtf*idf行列を作成し、Rで階層的クラスタリングを行う。 ・Rスクリプト # ライブラリの読込み library(proxy) library(RMeCab) # 指定ディレクトリ中のファイル内に含まれる単語のtf*idfを行列に保持させる a <- docMatrix("C:/LyricsWorkspace/Lyrics", weight = "tf*idf") # ミンコフスキ距離を用いて、ウォード法で階層的クラスタリングを実行 # method=c("euclidean", "maximum", "manhattan", "canberra", "binary", "min