はじめまして こんにちは。カトウです。この記事は、機械学習が気になるけど研究するほど詳しくない人が独学で成果物作るまで頑張った記録です。 そういえば、前に頭がおかしい時に書いたgo getの記事はおかげさまでSEO 4位(11/26)なので引き続き頑張ります。 今回のテーマは ツイートの類似度を評価するシステムを1週間で作ってみました!! です! というわけで、モデル選定から成果物を出すまでのフローを共有したいと思います。 ツイートについて ツイートは140字以内でテキストデータだけであると仮定しまっす。 ツイートを分解する ツイート(文書)は単語によって構成されています。今回は、ツイートを単語単位で分解します。 ツイートをどうやって評価するか? 単語のベクトル(あとで説明する)を足し合わせて単語の数で割り、ベクトルの平均値をツイートのベクトルにします。 比較したい2つのツイートベクトルを