固有表現認識(NER: Named Entity Recognition)とは、テキストに出現する人名や地名などの固有名詞や、日付や時間などの数値表現を認識する技術です。NERはエンティティリンキングや関係抽出、イベント抽出、共参照解決といった自然言語処理タスクの要素技術として使われるため、常にある程度の研究が行われている分野となっています。 最近よく使われる手法としては、テキストを単語の系列に分解し、それをRNNとCRFを接続したネットワークに入力する手法があります。そういった手法は数多く存在するため個別には紹介しませんが、以前に以下の記事でそのうちの一つの手法について実装しています。 hironsan.hatenablog.com 単語分割を前提とした手法は、単語の切れ目が明示されている言語以外では扱いにくいという問題点があります。たとえば、英語であるなら単語の切れ目は空白で区切られて