大量の英文を形態素解析することになった。日本語ならMeCabを使ったことがあるのだけど、英語の形態素解析器についてはまったく知らないので調べてみた。ちなみに、形態素解析器は英語でPOS(Part of Speech) Taggerというらしい。Part of Speechは品詞のこと。 英語の形態素解析器がたくさんあるのはすぐわかったのだけど、自分が必要としているのは以下の2点。 各単語の原型(基本形)が取得できるもの 大量の英文を処理する必要があるため高速なもの。CまたはC++で書かれているものが望ましい。 最初は簡単に見つかると思っていたのだけど、意外にも原型(基本形)を返さないものが多く、さらに速度も考慮に入れると残ったのはGENIA Taggerだけだった。 GENIA Taggerは生物医学の文章に最適化されていて、ProteinやDNA, RNAなどがNamed Entityタ