最近、機械学習が流行っていますが、画像解析系が多くてあまり興味が出ませんでした。 しかし、Word2vecやseq2seqなどを使ってテキスト処理も機械学習で色々遊べることに最近気がついたので、まずは簡単な所から試してみることにしました。 この文章は トレタ Advent Calendar 2017 (紹介ブログ)の一環で書いてみました。よければ他の日の記事も見てください。 なにをしよう? トレタでは社内ドキュメントの管理にesaを使っています。 こういうドキュメント管理で難しいのは文章が散らばることですよね。 同じ「プロジェクトA」の文章でも開発や営業など、部署毎にドキュメントがまとめられていたりします。 しかも同じような単語があちらこちらで使われているため、全文検索だとノイズが多くなり利便性が低くなります。 解決策としては文書毎に正しくタグ付けすることですが、それを徹底するのも現実的で