MecabやChasenなどのによる形態素解析が、日本語のテキストの分かち書きには不可欠だと多くの人が考えていますが、必ずしもそうではないようです。このことを知ったのは、quantedaのトークン化の関数を調べている時で、日本語のテキストをこの関数に渡してみると、単語が Mecabと同じように、きれいに単語に分かれたからです。 > txt_jp <- "政治とは社会に対して全体的な影響を及ぼし、社会で生きるひとりひとりの人の人生にも様々な影響を及ぼす複雑な領域である。" > quanteda::tokens(txt_jp) tokens from 1 document. Component 1 : [1] "政治" "と" "は" "社会" "に対して" "全体" "的" "な" [9] "影響" "を" "及" "ぼ" "し" "、" "社会" "で" [17] "生きる" "ひとりひと