なんでこんな記事書いた!言え! 世の中的には、JUMANは古くさくて、速度の早いmecabに固有表現に強いNEologdを載せて使ったり、kuromojiやJanomeのようなピュア○○系の形態素解析器1が流行りという印象を持たれていると思います。しかし、JUMANの辞書はこれらの辞書にはない豊富な語彙知識が記述されています。単語頻度の数え上げから一歩進んだ領域に行こうとすると、この知識にお世話になる局面が必ず出てくるはずです。 word2vecに始まるword embedding技術の流行により、研究領域では辞書として記述された語彙情報の必要性が薄れてきているのは事実だと思います。一方で、実用領域では人間が理解可能な形式で記述された語彙知識が強力な武器であることに変わりはないと思っています。 今回は語彙知識と有効に働く場面の紹介をしたいと思います。 代表表記 代表表記は簡単に言うと表記揺