さて、この方法で、単語単位での解析結果から前述のような「板同士の類似度」を計算してみたところ、今度は感覚的に「精度が低い」結果が出ました。機械的に漢字のみを数え上げたものよりも高精度が出せると思っていたところだったのですが、内容の関連性のあまり見えない板が、「『総合』スレッドが多い」などといった関係で浮かび上がってくるのです。さらに、独特の用語や新しい固有名詞の使われているサンプルには、KAKASIの辞書をそのまま使うのは不適切であったという部分もあります。しかし、文字のみよりも形態素単位のほうが、解釈としては「本質的」に文章の「内容」に近づくという考え方は捨てきれません。何らかの補正をかけて、高精度を出すことは可能かもしれません。 個人レベルで利用できるツール ここまでは、自作ツールを用い、「2ちゃんねる」をサンプルとした解析結果 を紹介しましたが、次は、個人レベルで利用できる解析ツール