開発合宿で作ってみて楽しかったので記事化 社会人はアウトプットが大事ってどっかの偉い人が言ってたし。。。 Gemの使い方は長くなるので別記事へ GEMのGithubレポジトリ tf-idfとは?? もうすでに有名かと思われるが一応説明。 知ってる人は飛ばしてください!! TF Term Frequencyの頭文字をとったもの 計算式 tf = 単語の頻度 / 文章中の単語数 説明 "たくさん出てくる言葉ほど重要"を数値化するもの 例えば りんごおいしい。りんご好き。りんご神。 と言う言葉があった場合、6つの単語から成り立つ文書の出てくる単語の回数はそれぞれ りんご:3, 好き:1, おいしい:1, 神: 1 となる。 よってこのりんごという単語のtfは 3("りんご"が文章中に出てくる回数) / 6(文章中の単語数) となり、tfは0.5となる。 また同様に神という単語のtfは 1 / 6
![Webテキスト解析のRubyのGem作った (tf-idfとは?編) - Qiita](https://cdn-ak-scissors.b.st-hatena.com/image/square/e4b529cd8538913ec774b74f2ac8cfc416d035d7/height=288;version=1;width=512/https%3A%2F%2Fqiita-user-contents.imgix.net%2Fhttps%253A%252F%252Fcdn.qiita.com%252Fassets%252Fpublic%252Farticle-ogp-background-9f5428127621718a910c8b63951390ad.png%3Fixlib%3Drb-4.0.0%26w%3D1200%26mark64%3DaHR0cHM6Ly9xaWl0YS11c2VyLWNvbnRlbnRzLmltZ2l4Lm5ldC9-dGV4dD9peGxpYj1yYi00LjAuMCZ3PTkxNiZoPTMzNiZ0eHQ9V2ViJUUzJTgzJTg2JUUzJTgyJUFEJUUzJTgyJUI5JUUzJTgzJTg4JUU4JUE3JUEzJUU2JTlFJTkwJUUzJTgxJUFFUnVieSVFMyU4MSVBRUdlbSVFNCVCRCU5QyVFMyU4MSVBMyVFMyU4MSU5RiUyMCUyOHRmLWlkZiVFMyU4MSVBOCVFMyU4MSVBRiVFRiVCQyU5RiVFNyVCNyVBOCUyOSUyMCZ0eHQtY29sb3I9JTIzMjEyMTIxJnR4dC1mb250PUhpcmFnaW5vJTIwU2FucyUyMFc2JnR4dC1zaXplPTU2JnR4dC1jbGlwPWVsbGlwc2lzJnR4dC1hbGlnbj1sZWZ0JTJDdG9wJnM9MzMzYWVlOGY4YWY1OGE0ZjcxYThlZmRmYzczNjE0Y2E%26mark-x%3D142%26mark-y%3D112%26blend64%3DaHR0cHM6Ly9xaWl0YS11c2VyLWNvbnRlbnRzLmltZ2l4Lm5ldC9-dGV4dD9peGxpYj1yYi00LjAuMCZ3PTYxNiZ0eHQ9JTQwbmFvMjE1JnR4dC1jb2xvcj0lMjMyMTIxMjEmdHh0LWZvbnQ9SGlyYWdpbm8lMjBTYW5zJTIwVzYmdHh0LXNpemU9MzYmdHh0LWFsaWduPWxlZnQlMkN0b3Amcz0xMzA1ZGU3MTE3ODI0NjM2MTExMWNkZTQ0OTYxNTNkZA%26blend-x%3D142%26blend-y%3D491%26blend-mode%3Dnormal%26s%3Dcee514649eb74ddcb5f63ab520ee25f9)