やったこと 文書の特徴語の抽出方法として「TF-IDF」という比較的簡単なものがあることを知ったので、身近なデータを使って試してみた。 弊社スローガン株式会社が運営している新卒学生向けの求人メディア「Goodfind」では、ベンチャー企業・スタートアップ企業約100社を掲載しているので、この企業紹介ページのテキストを元に、各社の特徴語を抽出した。しれっと自社の求人もここに掲載しているので、自社の特徴語を見て結果の妥当性を考えた。 使ったツール・技術 MeCab 非常に有名なオープンソース形態素解析エンジン。形態素解析とは、文書を単語ごとに分割し、その単語に対して品詞をタグ付けする作業を指す。形態素解析は日本語のような単語が区切られていない言語では必須の前処理である。 http://taku910.github.io/mecab/ 文書中の単語の重みを表す値。詳しい定義は下記を参照。 htt
![TF-IDFを使って企業紹介ページから各企業の特徴語を抽出してみた - Qiita](https://cdn-ak-scissors.b.st-hatena.com/image/square/305e7cec124f0e1d701032db4effa523f1b0ee79/height=288;version=1;width=512/https%3A%2F%2Fqiita-user-contents.imgix.net%2Fhttps%253A%252F%252Fcdn.qiita.com%252Fassets%252Fpublic%252Farticle-ogp-background-9f5428127621718a910c8b63951390ad.png%3Fixlib%3Drb-4.0.0%26w%3D1200%26mark64%3DaHR0cHM6Ly9xaWl0YS11c2VyLWNvbnRlbnRzLmltZ2l4Lm5ldC9-dGV4dD9peGxpYj1yYi00LjAuMCZ3PTkxNiZ0eHQ9VEYtSURGJUUzJTgyJTkyJUU0JUJEJUJGJUUzJTgxJUEzJUUzJTgxJUE2JUU0JUJDJTgxJUU2JUE1JUFEJUU3JUI0JUI5JUU0JUJCJThCJUUzJTgzJTlBJUUzJTgzJUJDJUUzJTgyJUI4JUUzJTgxJThCJUUzJTgyJTg5JUU1JTkwJTg0JUU0JUJDJTgxJUU2JUE1JUFEJUUzJTgxJUFFJUU3JTg5JUI5JUU1JUJFJUI0JUU4JUFBJTlFJUUzJTgyJTkyJUU2JThBJUJEJUU1JTg3JUJBJUUzJTgxJTk3JUUzJTgxJUE2JUUzJTgxJUJGJUUzJTgxJTlGJnR4dC1jb2xvcj0lMjMyMTIxMjEmdHh0LWZvbnQ9SGlyYWdpbm8lMjBTYW5zJTIwVzYmdHh0LXNpemU9NTYmdHh0LWNsaXA9ZWxsaXBzaXMmdHh0LWFsaWduPWxlZnQlMkN0b3Amcz1iMjUwMjJiZTFmNzA2ZWU1MGNmNWIwNWI3MDlmOGRmNQ%26mark-x%3D142%26mark-y%3D112%26blend64%3DaHR0cHM6Ly9xaWl0YS11c2VyLWNvbnRlbnRzLmltZ2l4Lm5ldC9-dGV4dD9peGxpYj1yYi00LjAuMCZ3PTYxNiZ0eHQ9JTQwdGZ1aml3YXImdHh0LWNvbG9yPSUyMzIxMjEyMSZ0eHQtZm9udD1IaXJhZ2lubyUyMFNhbnMlMjBXNiZ0eHQtc2l6ZT0zNiZ0eHQtYWxpZ249bGVmdCUyQ3RvcCZzPTBmMmU1N2Y3OWRkOTM4N2UwYjNkMzM0ODk5NWZiY2Nk%26blend-x%3D142%26blend-y%3D491%26blend-mode%3Dnormal%26s%3Dd8b149cd2db0f0c8c52183d8877a8c6d)