SNSがコミュニケーションのインフラになりつつあることで、世の中は言葉で溢れています。この膨大な言葉の文章をまとめることで一つ一つの文章からはわからない傾向を新たに獲得することができます。具体的には、文章をカテゴライズして分類することで、どのカテゴリが人気なのかがわかったりします。これは機械学習の分類問題としてよく扱われていますが、重要な前提として「各文章は一つのカテゴリに属す」としています。しかしながら、いくつかのトピックが含まれている文章は多々あります。ファミレスでよく聞く井戸端談義はトピックだらけです。そこで、一つのカテゴリに分類するのではなく、分類に重要な単語(トピック)の重み付けで分類するようにしたのが、トピックモデルです。 今回は、文章の傾向を出現頻度やトピック抽出により理解していきます。そのために、単語の出現頻度をインパクトのある可視化をするWord Cloudと各文章をトピ