今日から8月ですね!我が家の猫も夏毛に生え替わるようで、私も毛だらけです。志田です。 さて、今回は「似ている」を探したいと思います。なにかとなにかがどのくらい似ているのか、という情報があれば、それが役に立つシーンはたくさんありますよね。 ブログの似ている記事を探したり、趣味の似ているユーザを探したり、用途は様々です。 「何が似ているのか」という尺度にも様々あるように、類似度というのはいろいろな観点から調べることができます。 今回は、アシアルブログから似ている記事を探してみたいと思います。 手順としては、Mecabというライブラリを使って記事を形態素解析し、単語に分けます。 そして、元となる記事とその他の記事全体を見て、コサイン類似度という手法を用いて記事同士の類似度を測定し、似ている記事を3件見つけます。 (1) ブログ記事を取得する ブログ記事を取得し、ディレクトリに保存しておきます。