みなさまこんにちは。 前回の連載 【特別連載】 さぁ、自然言語処理を始めよう!(第1回: Fluentd による Tweet データ収集) では Twitter Streaming API 経由で、日本人がつぶやいた Tweet の 1% ランダムサンプリングデータを fluentd を用いて取得し、その結果を DB (MySQL) に格納しました。 今回はこの集めた Tweet データを、形態素解析ライブラリの MeCab 、Python というプログラミング言語、数値計算用ライブラリである numpy、scipy、scikit-learnを用いて「ある時間における特徴的な言葉」を機械的に抽出してみたいと思います。 実行環境は前回構築した Amazon Web Service (AWS) の fluentd 用サーバを引き続き利用します。 ・前回利用した Fluentd 用サーバ (AW
