タグ

ブックマーク / qiita.com/asai0304 (1)

  • Python3を使った日本語自然言語処理(4)ロジスティック回帰による感情分析 - Qiita

    TF-IDFによる単語の関連性の評価とは 前回までで文章をパースし、単語を特徴ベクトルに変換することを行いました。ただ、ある単語がたくさん文章中で存在していても、それがどのカテゴリーの文章でもたくさん登場する単語であれば、カテゴリーを判断する上でその単語の重要性はあまり高くはありません。 ある映画レビューを「肯定的なもの」「否定的なもの」で分類したい時、「すごい」という単語は『すごいつまらなかった』という文脈でも『すごいよかった』という文脈でも頻繁に使われうるので、これだけではそのレビューのネガポジは判断するのが難しいです。 こういった感じで、ある単語がカテゴリーわけを行う際、重要であればその単語の重みをあげ、重要でなければ下げる手法が「TF-IDF」です。TFは単語の出現頻度を、IDFは逆文書頻度と呼ばれ、定義は以下のようになります。 $n_d$はドキュメントの総数、$df(t, d)$

    Python3を使った日本語自然言語処理(4)ロジスティック回帰による感情分析 - Qiita
    clavier
    clavier 2017/02/20
  • 1