はじめに MeCabと同様、Janomeでも半角文字を形態素解析すると「名詞,サ変接続」と予測される(ややこしい)仕様が存在します。 from janome.tokenizer import Tokenizer tokenizer = Tokenizer() for t in tokenizer.tokenize("/"): print(t.surface, t.part_of_speech) #=> / 名詞,サ変接続,*,* from janome.tokenizer import Tokenizer tokenizer = Tokenizer() tokenizer.sys_dic.unknowns #=> {'DEFAULT': [(5, 5, 4769, '記号,一般,*,*')], 'SPACE': [(9, 9, 8903, '記号,空白,*,*')], 'KANJI': [