TF-IDFでタグ付け 03 Nov 2013 Kaggleで挑戦できそうな問題があったのでチャレンジしてみた。 http://www.kaggle.com/c/facebook-recruiting-iii-keyword-extraction Stack Exchange(Stack Overflowみたいなもの)にあるテキストとそのタグデータを訓練データとして 同様にStack Exchangeにあるページからタグを類推せよという問題。 多分キーワード抽出を行う方法がうまく行くんじゃないかと思いやってみた。 TF-IDFアルゴリズム 基本的にはTF-IDFを使ってみる。これは文書中のtokenの重要度をその頻度と、他の文書にどれくらいないかの指標 の積として表すアルゴリズム。コードで書くと下のような感じ。 import numpy as np term = <Target Term>
![TF-IDFでタグ付け](https://cdn-ak-scissors.b.st-hatena.com/image/square/22f3fd391a9d8c09b1537e5840bc07fc3f69d2f3/height=288;version=1;width=512/http%3A%2F%2Fwww.lewuathe.com%2Fassets%2Fimg%2Ftower.jpg)