sentence2vec 動かした - laughingのブログに触発されて、昔やったword2vecの拡張版っぽいやつのsentence2vecをやってみる。 最近メタアナリシスに忙しいので論文は全く読まずにライブラリを使ってやっちゃうダメなやつである。 コーパスはとある医療系テキストを使った。もともとは20MBくらい。 これを文字だけのテキストデータであるtest.txtにする。これは半角区切りで文章がひたすら続いていればいい。 sentence2vecは文章単位でのベクトル演算が可能になるっぽいアルゴリズムっぽいもので、1文章が1行のファイルであるsent.txtを作成する。 # Pythonで file = "text.txt" f = open(file, "rU") # 特殊文字の削除 rep = ['[', ']', '#', '&', ',', ';', ':', '(',