形態素解析について 様々なユーザーの Tweet を収集して利用するパターンで最も多いのは、 Tweet 中に含まれる特定の単語を抽出して利用するパターンである。 今回は形態素解析器の MeCab を利用して、単語単位に分割して名詞、動詞、形容詞を抽出する。 Python で Twitter からの情報収集 (環境構築編) 環境構築等はこちら MeCabの出力形式 出力形式はオプションにより変わる。 'mecabrc': (デフォルト) '-Ochasen': (ChaSen 互換形式) '-Owakati': (分かち書きのみを出力) '-Oyomi': (読みのみを出力) デフォルトだと 表層形\t品詞,品詞細分類1,品詞細分類2,品詞細分類3,活用形,活用型,原形,読み,発音 という出力になる。 サンプルコード ある文を単語単位(表層形そのまま)に分割して、 全単語 名詞のみ 動詞の