はじめに 最近、単語の分散表現を学び、使ったので、その際に得た知識をまとめておく。 この記事では、MeCab、gensimを用いて、夏目漱石の『こころ』に登場する単語の類似度を計算する。 GitHubにこの記事で使用する全てのコードをアップしてある。 https://github.com/hsoccer/my_word2vec 環境 OS X El Capitan Python3系 MeCabのインストール 以下のページ等を参考にインストールする。 追加の辞書であるmecab-ipadic-neologdもインストールしておく。 https://qiita.com/taroc/items/b9afd914432da08dafc8 MeCabの辞書を強化する デフォルトの辞書では弱いので、Wikipediaの見出語を全て辞書に加えておく。 user.dicという名前で保存しておく。 以下のペ
![gensimによるword2vecの利用例 - Qiita](https://cdn-ak-scissors.b.st-hatena.com/image/square/134d4318c63d1ff9528eeb5fa1f53870e12a2b77/height=288;version=1;width=512/https%3A%2F%2Fqiita-user-contents.imgix.net%2Fhttps%253A%252F%252Fcdn.qiita.com%252Fassets%252Fpublic%252Farticle-ogp-background-412672c5f0600ab9a64263b751f1bc81.png%3Fixlib%3Drb-4.0.0%26w%3D1200%26mark64%3DaHR0cHM6Ly9xaWl0YS11c2VyLWNvbnRlbnRzLmltZ2l4Lm5ldC9-dGV4dD9peGxpYj1yYi00LjAuMCZ3PTk3MiZoPTM3OCZ0eHQ9Z2Vuc2ltJUUzJTgxJUFCJUUzJTgyJTg4JUUzJTgyJThCd29yZDJ2ZWMlRTMlODElQUUlRTUlODglQTklRTclOTQlQTglRTQlQkUlOEImdHh0LWFsaWduPWxlZnQlMkN0b3AmdHh0LWNvbG9yPSUyMzIxMjEyMSZ0eHQtZm9udD1IaXJhZ2lubyUyMFNhbnMlMjBXNiZ0eHQtc2l6ZT01NiZzPWM3YjRkNjljNDc1NWY1ZTEzOTFhNmVmYzZjNzFlMGM3%26mark-x%3D142%26mark-y%3D57%26blend64%3DaHR0cHM6Ly9xaWl0YS11c2VyLWNvbnRlbnRzLmltZ2l4Lm5ldC9-dGV4dD9peGxpYj1yYi00LjAuMCZoPTc2Jnc9NzcwJnR4dD0lNDBoc29jY2VyJnR4dC1jb2xvcj0lMjMyMTIxMjEmdHh0LWZvbnQ9SGlyYWdpbm8lMjBTYW5zJTIwVzYmdHh0LXNpemU9MzYmdHh0LWFsaWduPWxlZnQlMkN0b3Amcz0yMjI4Nzc1Njc5OTE3ZDQxNjc1YzFmNDdmMzRhNWJkYg%26blend-x%3D142%26blend-y%3D486%26blend-mode%3Dnormal%26s%3D2bf8e3ce684ea26cf119fd38f46ada61)