ブックマーク / tadaoyamaoka.hatenablog.com (1)

  • doc2vecでWikipediaを学習する - TadaoYamaokaの開発日記

    先日の日記でTF-IDFでFAQに回答することを試したが、TF-IDFでは質問文の類似度を単語の頻度に重み付けをして測っている。 そのため、単語が完全に一致している必要があり、同じ意味の単語でも異なる単語として認識してしまう。 word2vecを使用すると単語をベクトル化することができ、意味が近ければ近いベクトルを出力することができる。 word2vecを文に適用する場合、単語ベクトルの平均をとる方法もあるが、語順が失われるという欠点がある。 doc2vecを使用すると、文の語順を考慮して、文自体をベクトル化することができる。 doc2vecには、PV-DMとPV-DBOWの2種類があり、PV-DMとPV-DBOWのベクトルを組み合わせて使用することで精度を上げることができる。 PV-DMは、文と単語にユニークな固定次元のベクトルを割り当て、文の単語列をウィンドウサイズ幅ごとに抽出し、文の

    doc2vecでWikipediaを学習する - TadaoYamaokaの開発日記
    emeraldwar
    emeraldwar 2017/11/22
    wikiデータの前処理方法を参考
  • 1