「魔法少女リリカルなのは」を形態素解析しよう まずこの話題を話すためには「魔法少女リリカルなのは」形態素解析問題について話さねばなるまい。「魔法少女リリカルなのは」形態素解析問題とは簡単に言うと「なのは」を人名としてユーザー辞書に登録すると「~なのは」という日本文の解析がUnidicやMecabでうまくいかなくなる問題である。しかし最近はBPEやSentence Pieceなどの台頭によりトークナイザー方法も進化してきた。そこで, 現代のトークナイザーはどのように「魔法少女リリカルなのは」をトークナイズしていくのかを見ていこうというのがこの記事の目的である。 まずは人の手でトークナイズ 最近はトークナイズ方法も色々考案されてきているため意味が変わってきている気がするが, 元々の意味での形態素解析とは、文章を意味を持つ最小単位である「形態素」に区切り、それぞれを名詞や動詞などの品詞に分類する