タグ

ブックマーク / otknoy.hatenablog.com (1)

  • scikit-learn で TFIDF - otknoy's blog

    TFIDF ぐらいなら自分で書いても簡単だけど、実際に使う時は面倒くさいし変なバグを生みたくないので sklearn にやってもらおう。 gist.github.com sklearn の CountVectorizer や TfidfVectorizer は、デフォルトでは、一文字のトークンが除外されてしまう。 英語の a や日語の "は" や "が" などのストップワードが勝手に除外されるので便利な気がするが、漢字一文字のトークンが除外されるのはいかがなものか・・・。 token_pattern=u'(?u)\\b\\w+\\b' とかやると一文字のトークンを除外しなくなるみたい。 stackoverflow.com lab.synergy-marketing.co.jp ライブラリ使うと便利だけど、中身がわかってないと大変。 TFIDF の実装は難しくないので、一度自分でやってみる

    scikit-learn で TFIDF - otknoy's blog
    meganii
    meganii 2016/08/12
  • 1