Wikipediaのデータに続いて、青空文庫のデータ(10,975タイトル、554MB)をword2vecに突っ込んでみた。 青空文庫は普通にgithubに置いてある(https://github.com/aozorabunko/aozorabunko)ので、そこからcloneし、ルビや改頁指定などは除去。タイトル、底本などに関する記述も除去。 ホントはあと1500タイトルほど文書があるはずなんだけど、不要な部分を除去する処理を噛ませた時にうまくいかなかったのをすっ飛ばしたので1万タイトル程度に収まる。 形態素解析時に姓名は連結、カタカナの連続は連結。中黒の前後も連結。動詞は基本形に変換している。 以下、distanceの結果。 田中 天野, 佐藤, 河崎, 津下, 大村, 服部, 中村憲吉, 土屋文明, 主筆, 塩田真 佐藤 森田,藤田,梅原,友枝,河村,小林,田中,西村,若井,河崎,茂