以下では自分の修士研究で開発した話題解析システム( https://twitter.com/lamrongol/lists/trend-analysis )について解説していきます。 そもそも話題とはなにか さて、話題を解析する前にまず「話題」とは何か、を定義しなければいけません。例えば地震が起きた時みんなが一斉に地震だとつぶやきます。さらに大きさや震源なども言及されるでしょう。つまりあるものが話題になってるとは、それに関連する 単語の出現数がいつもより大きくなっている ということを意味します。 異常検知アルゴリズム 「そんなの当たり前じゃないか」と思うかもしれませんが、ではどうやったら「単語の出現数がいつもより大きくなっている」と判断できるかを考え始めると実はこれが意外に厄介な問題であることに気が付きます。例えば簡単に思いつくものとして(単語の出現数)-(普段の単語の出現数)とすればどう