概要 自然言語処理で文書をベクトル化する手法として、fastText と Doc2vec のどちらが良いのかと思い、試してみることにしました、という趣旨の記事です。 ソースコード 今回の実験のために実装したコードはこちらに上げてあります。 https://github.com/kazuki-hayakawa/fasttext_vs_doc2vec また、記事本文中ではライブラリのimport文などは省略している箇所もありますので、それらに関しては上記ソースコードをご覧ください。 ディレクトリ構成 以下のようなディレクトリ構成です。2つのモデルを作成して、最終的に classifier.py で文書の分類を実行します。 fasttext_vs_doc2vec ├ dataset │ ├ news_text (ニュース記事本文格納ディレクトリ) │ └ make_dataset.py ├ li
![fastTextとDoc2Vecのモデルを作成してニュース記事の多クラス分類の精度を比較する - Qiita](https://cdn-ak-scissors.b.st-hatena.com/image/square/417c602caf6919a7ba06bf7c607cc3abc0b9d980/height=288;version=1;width=512/https%3A%2F%2Fqiita-user-contents.imgix.net%2Fhttps%253A%252F%252Fcdn.qiita.com%252Fassets%252Fpublic%252Farticle-ogp-background-412672c5f0600ab9a64263b751f1bc81.png%3Fixlib%3Drb-4.0.0%26w%3D1200%26mark64%3DaHR0cHM6Ly9xaWl0YS11c2VyLWNvbnRlbnRzLmltZ2l4Lm5ldC9-dGV4dD9peGxpYj1yYi00LjAuMCZ3PTk3MiZoPTM3OCZ0eHQ9ZmFzdFRleHQlRTMlODElQThEb2MyVmVjJUUzJTgxJUFFJUUzJTgzJUEyJUUzJTgzJTg3JUUzJTgzJUFCJUUzJTgyJTkyJUU0JUJEJTlDJUU2JTg4JTkwJUUzJTgxJTk3JUUzJTgxJUE2JUUzJTgzJThCJUUzJTgzJUE1JUUzJTgzJUJDJUUzJTgyJUI5JUU4JUE4JTk4JUU0JUJBJThCJUUzJTgxJUFFJUU1JUE0JTlBJUUzJTgyJUFGJUUzJTgzJUE5JUUzJTgyJUI5JUU1JTg4JTg2JUU5JUExJTlFJUUzJTgxJUFFJUU3JUIyJUJFJUU1JUJBJUE2JUUzJTgyJTkyJUU2JUFGJTk0JUU4JUJDJTgzJUUzJTgxJTk5JUUzJTgyJThCJnR4dC1hbGlnbj1sZWZ0JTJDdG9wJnR4dC1jb2xvcj0lMjMyMTIxMjEmdHh0LWZvbnQ9SGlyYWdpbm8lMjBTYW5zJTIwVzYmdHh0LXNpemU9NTYmcz01MjQxNjE3NWJjODQ3ZmJkMDBmNjcxZmFjZjNiNTQyYQ%26mark-x%3D142%26mark-y%3D57%26blend64%3DaHR0cHM6Ly9xaWl0YS11c2VyLWNvbnRlbnRzLmltZ2l4Lm5ldC9-dGV4dD9peGxpYj1yYi00LjAuMCZoPTc2Jnc9NzcwJnR4dD0lNDBrYXp1a2lfaGF5YWthd2EmdHh0LWNvbG9yPSUyMzIxMjEyMSZ0eHQtZm9udD1IaXJhZ2lubyUyMFNhbnMlMjBXNiZ0eHQtc2l6ZT0zNiZ0eHQtYWxpZ249bGVmdCUyQ3RvcCZzPTc1NzcxZTgyNjAxM2UyMzA4YTc3MDk0NDJkOTI3NzQx%26blend-x%3D142%26blend-y%3D486%26blend-mode%3Dnormal%26s%3Ddaa6c1c59d20cbe2f208d817bb7ee3c1)