ここのところ遅ればせながらword2vecと戯れ中。学習にかかる時間も短いし、うまく使えばいろいろ役に立ちそう。 とりあえずWikipediaのデータを突っ込んだ結果などを。 形態素解析時に、姓と名を連結してみたり、接尾語と接頭語を連結してみたり、カタカナの連続を連結してみたりしている。 以下はdistanceした時の上位。上が入力ワード、下が出力されたワード。 田中 高橋, 佐藤, 岡田, 鈴木, 橋本, 渡辺, 山本, 前田, 藤井, 佐々木 鈴木 佐藤, 田中, 伊藤, 高橋, 渡辺, 加藤, 山本, 斉藤, 佐々木, 中西 上は良い例。悪い例として、中村を入力すると妙な結果が出た。 中村 里子, 中津川初, 繪, 田中, 天海春香役, 天海春香, 今井, 三浦, 加藤, 吉田 中村繪里子さんという声優さんがいて(一般的な人名でないため、繪と里子が別れてしまっている)、中津川初と天海