ottonoveのブックマーク - はてなブックマーク

ブックマーク / unokun.hatenablog.jp (1)

wikipediaのデータでdoc2vec - unokun’s blog
doc2vecでWikipediaを学習する - TadaoYamaokaの日記を参考に、wikipediaのデータをdoc2vecでトレーニングし、類似単語を調べてみました。総単語数 2,890,010 頻度10以下 2,364,440 残り単語数 525,570 doc2vecは、トレーニングした単語をmodel.wv.vocabで参照することができます。単語数が、残り単語数の約半分になっているのは、出現頻度が少ない単語が出現している文を削除した時に別の単語も削除しているからでしょう。 >>> len(model.wv.vocab) 266732 トレーニングした単語は、word_vector(keyedvectors)に辞書形式で保存されます。 >>> model.wv.vocab 'カウンダ': <gensim.models.keyedvectors.Vocab object
ottonove 2018/04/16
リンク
1

j次のブックマーク

k前のブックマーク

lあとで読む

eコメント一覧を開く

oページを開く

設定を変更しましたx