機械学習のための「前処理」入門 作者:足立悠リックテレコムAmazon 目的 これまでにデータ解析の仕事で扱ってきたのは主に 時系列データや画像データなど、数値で表現される データでした。 しかしながら、最近では自然言語データのように 数値データではないものも解析できることが重量と なってきました。 今回、上記の書籍で自然言語データに対する前処理の 手法について勉強したのでこの記事でまとめておこうと 思います。 目次 目的 目次 自然言語処理の考え方 形態素解析(Morphological Analysis) 活用例 Janomeによる形態素解析 正規表現による不要な文字列の除去 品詞として単語を抽出 単語の出現回数を数える 分割した単語をデータフレームにまとめる 分割した単語の文書行列を作成する 出現回数が多い順に単語を列挙する 出現する文書の比率で次元を削減する TF-IDF値を算出す