タグ

ブックマーク / unokun.hatenablog.jp (1)

  • wikipediaのデータでdoc2vec - unokun’s blog

    doc2vecでWikipediaを学習する - TadaoYamaokaの日記 を参考に、wikipediaのデータをdoc2vecでトレーニングし、類似単語を調べてみました。 総単語数 2,890,010 頻度10以下 2,364,440 残り単語数 525,570 doc2vecは、トレーニングした単語をmodel.wv.vocabで参照することができます。 単語数が、残り単語数の約半分になっているのは、出現頻度が少ない単語が出現している文を削除した時に別の単語も削除しているからでしょう。 >>> len(model.wv.vocab) 266732 トレーニングした単語は、word_vector(keyedvectors)に辞書形式で保存されます。 >>> model.wv.vocab 'カウンダ': <gensim.models.keyedvectors.Vocab object

    wikipediaのデータでdoc2vec - unokun’s blog
    ottonove
    ottonove 2018/04/16
  • 1