大抵はgensimの公式に書いてあるけど、日本語の資料はそんなに多くないので、自分がよく使う基本的なやつを初心者向けにまとめときます。 準備(インストール) #coding: UTF-8 from gensim.models.doc2vec import Doc2Vec from gensim.models.doc2vec import TaggedDocument f = open('学習データ.txt','r')#空白で単語を区切り、改行で文書を区切っているテキストデータ #1文書ずつ、単語に分割してリストに入れていく[([単語1,単語2,単語3],文書id),...]こんなイメージ #words:文書に含まれる単語のリスト(単語の重複あり) # tags:文書の識別子(リストで指定.1つの文書に複数のタグを付与できる) trainings = [TaggedDocument(word