タグ

ブックマーク / abicky.net (2)

  • 潜在的意味インデキシング(LSI)徹底入門

    LSI については「特異値分解とLSIの意味」でも触れたことがありますが、この時はまだ理解不足だったので改めて解説したいと思います。 LSI (Latent Semantic Indexing) 1は検索などに用いられる次元圧縮手法です。 例えば、「車で行く」と「自動車で行く」は意味として全く同じですが、単語そのものを見ると「車」と「自動車」が異なるため違う文として扱われてしまい、「車」で検索しても「自動車で行く」という文がヒットしません。 しかし、「車」も「自動車」も同じ意味なので同じ文として扱われるようにしたいですよね。 これを実現する手法の1つが LSI です。 ベクトル空間モデル LSI では Bag of Words によるベクトル空間モデルが使用されます。 要は単語の出現順を考慮せず、単語の出現頻度などによって文書をベクトルで表現するモデルです。 例えば次の4つの文書があったと

    潜在的意味インデキシング(LSI)徹底入門
  • F値に調和平均を使う理由(再)

    正確にはF1値と言うべきでしょうか. 以前F値に調和平均を使う理由というエントリーで苦しい説明をしましたが,もうちょっとうまい説明が思いついたのでまとめてみました. 検索結果の評価指標に適合率 (precision) と再現率 (recall) があります. 適合率は目的に合った文書(適合文書)が検索結果にどれだけ含まれているかという正確性の指標, 再現率は検索対象としている文書群の中に存在する適合文書のうちどれだけ検索結果に含まれているかという網羅性の指標です. つまり, U: 検索対象文書群の文書の数 R: 検索結果に含まれる適合文書の数 N: 検索結果に含まれる文書の数 C: 検索対象文書群に存在する適合文書の数 引用: 情報検索 - Wikipedia とすると, 適合率 (precision) = R / N 再現率 (recall) = R / C です. 検索結果に含まれる文

    F値に調和平均を使う理由(再)
    mahler-5
    mahler-5 2018/01/02
  • 1