ツイートを形態素解析してカテゴリ分類したい! ということで、簡易的に特徴語のカテゴリを得る方法を考えます。 トピックモデルとかそれらしいアルゴリズムを使うのが本筋かもしれませんが、もっと単純に「芸能ジャンルの単語が多いから芸能ジャンルのツイート」みたいなのでいいんですよね。量も多くないし(1時間最大100ツイート)。 ということで、はてなキーワード自動リンクAPIを使って、文章中のワードのカテゴリを調べていきます。 はてなキーワード自動リンクAPIとは はてなの記事って、それっぽい語句に勝手にリンクが張られてますよね。はてなキーワード自動リンクAPIは、文章を与えると、そのようなリンクを自動で生成してくれるAPIです。 詳細:はてなキーワードAPI - Hatena Developer Center いわゆるリンクを生成するだけでなく、リンクを張るべき単語をxml形式で返してくることもでき