機械学習では、データを扱う中で最適な成果を得るために、 特定の単語を除去するデータクレンジングが必要です。 例えば、ニュース記事を芸能・スポーツといった内容に分けて分類する際、日付や価格、人名といった学習に必要でない情報を取り除く場合があります。 そのためにはプログラムで固有表現を抽出し、特定の単語を除去する必要がありますが、データクレンジングもAPIでさらに簡単になりそうです。 今回は、株式会社リクルートテクノロジーズが開発し、リクルートグループ内で使われている内製AIのAPI群A3RTの「Named Entity API」を使い、固有表現抽出してみました。 APIで8種類の固有表現を抽出・分類。データクレンジングがラクになるNamed Entity APIは、文章の中から固有表現を抽出します。 抽出される固有表現の分類は、下記の8種類。 ART:人工物 (例:ピラミッド、憲法)DAT: