TwitterのStreaming API TwitterのStreaming APIを使ってみたくなりました。 Streaming APIというのは、まあその名前通りなのですが、ツイートがストリーミングされてくるAPIです。 大規模データで遊んでみたい 私は前職で音声認識用の統計的言語モデル(ことばの繋がりの関係を統計的に表したモデル)を生成するという業務も担当していました。 限定された範囲の音声認識ができれば良いのなら言語モデルは小さくて良いのですが、より汎用的で、より良い言語モデルを作るには(さらに言うならより良い音声認識をするには)、多くの例となる日本語文章を集める必要があります。この例文を集めたものをコーパスと呼びます。 前職ではツイートを集めてコーパスとし、言語モデルを生成したところ、わりと良い言語モデルを得ることができました。音声認識させる発話の内容にもよりますが、有名なコー