口コミをdoc2vecにかけてやればその口コミの分散表現が学習できます。 gensimにdoc2vecがあるのでそれを使ってみましょう。 理屈は置いといてまずは試してみるってのが簡単にできるのはほんとありがたいです。 # -*- coding:utf-8 -*- from gensim.models.doc2vec import Doc2Vec from gensim.models.doc2vec import TaggedDocument import MeCab import csv mt = MeCab.Tagger() reports = [] with open("reports.tsv") as f: # reports.tsvには一行に口コミID,口コミがtab区切りで保存されている reader = csv.reader(f, delimiter="\t") for rep