meganiiのブックマーク - はてなブックマーク

meganii id:meganii

ブックマーク / otknoy.hatenablog.com (1)

scikit-learn で TFIDF - otknoy's blog
TFIDF ぐらいなら自分で書いても簡単だけど、実際に使う時は面倒くさいし変なバグを生みたくないので sklearn にやってもらおう。 gist.github.com sklearn の CountVectorizer や TfidfVectorizer は、デフォルトでは、一文字のトークンが除外されてしまう。英語の a や日本語の "は" や "が" などのストップワードが勝手に除外されるので便利な気がするが、漢字一文字のトークンが除外されるのはいかがなものか・・・。 token_pattern=u'(?u)\\b\\w+\\b' とかやると一文字のトークンを除外しなくなるみたい。 stackoverflow.com lab.synergy-marketing.co.jp ライブラリ使うと便利だけど、中身がわかってないと大変。 TFIDF の実装は難しくないので、一度自分でやってみる
meganii 2016/08/12
リンク
1

j次のブックマーク

k前のブックマーク

lあとで読む

eコメント一覧を開く

oページを開く

設定を変更しましたx