テキスト処理総まとめ〜Bag-of-Words, MeCab, CaboCha, TF-IDF, Word2Vec, Doc2Vec〜Python自然言語処理機械学習 目次 Bag-of-X Bag-of-Words Bag-of-n-Grams 日本語の言語処理(MeCab, CaboCha) TF-IDF Word2Vec Doc2Vec 自然言語処理に関連した主な用語集 自然言語処理の分野では特有の専門用語がよく出てくるので、まずそれを抑えます。 ストップワード 代名詞、冠詞、前置詞のような、文章の内容によらず一般的に使われる単語のこと。 英語だと例えば、a, about, am, an, been, they, myself・・・など。 日本語だと、「の」、「は」、「です」、「ます」・・・など。 ステミング 単語を語幹(単語の語形変化における基礎となる部分のこと)の形に変換する自然