TL; DR 文のトークン化のためのライブラリである konoha の紹介をします. (旧 tiny_tokenizer) ↓みたいな感じで使えます.なにとぞ〜 from konoha import WordTokenizer sentence = '自然言語処理を勉強しています' tokenizer = WordTokenizer('MeCab') print(tokenizer.tokenize(sentence)) # -> [自然, 言語, 処理, を, 勉強, し, て, い, ます] tokenizer = WordTokenizer('Kytea') print(tokenizer.tokenize(sentence)) # -> [自然, 言語, 処理, を, 勉強, し, て, い, ま, す] tokenizer = WordTokenizer('Sentencepie