タグ

ブックマーク / hivecolor.com (1)

  • tfidf、LSI、LDAの違いについて調べてみた

    tfidf、LSI、LDAの意味、違いを調べるために、それぞれの形式のコーパスの中身を調べてみた。そのメモ。 前回のおさらい 前回の記事では、もっとも基的なコーパスの中身を確認してみました。その結果、「コーパスとは、文章集合をベクトル空間に変換したもの」いうことが分かりました。 今回は、基的なコーパス以外の複数のコーパス、特に、tfidf、LSI、LDAで用いるコーパスについて、基的なコーパスとは何が違うのかを調べます。その結果分かったコーパスの違いから、各モデルの違いを理解することを目標とします。 gensimに実装されたtfidfのコーパスの中身を見てみました 今回は、「Topics and Transformations」を参考に進めていきます。 >>> import logging >>> logging.basicConfig(format='%(asctime)s : %

    Akiniwa
    Akiniwa 2014/09/19
  • 1