Apache OpenNLP を知ってますか。Apache OpenNLP(以下単に OpenNLP と記します)はその名の通り Apache Lucene/Solr と同じように Apache Software Foundation のもとで管理されているオープンソース製品で、自然言語処理のためのツールセットです。 自然言語処理(英語で Natural Language Processing;NLP と略記される)とは、日本語や英語などの自然言語で書かれたテキストを処理するための技術の総称です。文書要約、機械翻訳、形態素解析、構文解析などなどいろいろな NLP のタスクがあります。本記事では OpenNLP の一機能である固有表現抽出について説明します。 固有表現抽出とは 日本語などの自然言語で書かれたテキストには人名、地名、組織名などの固有名詞が含まれています。これらの固有名詞を属性(