エムスリー(ヘルスケア系)のAdvent Calendar に参加しているので、ヘルスケア系機械学習ネタ ちょっと前に業務とは関係なく、症状類語辞書をつくりたいなーーというときがあった。(結局できてないけど そのときに去年流行った word2vecを使って機械学習で症状の類義語がどれくらい精度よく出てくるかをやってみたのでその話を書く 今回の流れ 医療文書が入ったtextファイルを作成 MeCab へ医療用辞書 ComeJisyo を設定 MeCab で分かち書く word2vec で学習 word2vec を利用 浅い浅い考察と感想 医療文書が入ったtextファイルを作成 今回は精度を比較するために、2つのテキストを用意した。 一つ目は word2vecでは鉄板の大量の単語があるWikipediaのデータから、もう一つは医療系文書のデータを使用した。 1.Wikipediaのテキストファ