目的 「Mr.Childrenの歌詞分析(4): 単語の意味を考慮した、シングル曲のクラスタリング」では、文書の距離を計測するのに、同一語や同一概念の出現頻度を用いていた。この場合、"似ている"単語は考慮されておらず、クラスタリングの精度もいまひとつであった。 この問題を解決するために、単語間の距離をWordNetを用いて計測したい。今回は、2つのテキストファイルを元に、それぞれの単語の類似度を出力するプログラムを作成した。日本語WordNetと英語WordNetを用いて、多義語に対応した単語間の距離を計測している。 ちなみに、わざわざ英語版WordNetを用いているのは、類似度を測るAPIが日本語WordNet(のPython API)には用意されていないから。また、「Python による日本語自然言語処理 12.1.5 日本語WordNet」 には日本語 WordNet に対するリーダ