目的 「Mr.Childrenの歌詞分析(4): 単語の意味を考慮した、シングル曲のクラスタリング」では、文書の距離を計測するのに、同一語や同一概念の出現頻度を用いていた。この場合、"似ている"単語は考慮されておらず、クラスタリングの精度もいまひとつであった。 この問題を解決するために、単語間の距離をWordNetを用いて計測したい。今回は、2つのテキストファイルを元に、それぞれの単語の類似度を出力するプログラムを作成した。日本語WordNetと英語WordNetを用いて、多義語に対応した単語間の距離を計測している。 ちなみに、わざわざ英語版WordNetを用いているのは、類似度を測るAPIが日本語WordNet(のPython API)には用意されていないから。また、「Python による日本語自然言語処理 12.1.5 日本語WordNet」 には日本語 WordNet に対するリーダ
![Pythonで日本語WordNetと英語WordNetを利用して、単語間の類似度を測る - Tech Blog](https://cdn-ak-scissors.b.st-hatena.com/image/square/b4bb4ec77545671301961af9976a7c4c814983a8/height=288;version=1;width=512/http%3A%2F%2Fcdn-ak.f.st-hatena.com%2Fimages%2Ffotolife%2Ft%2Ftkdmah%2F20130122%2F20130122223017.png)