こんにちは、AIチームの杉山です。 前回の記事ではFlairによる固有表現抽出を用いて個人情報のマスキングを行い、その精度を確認しました。 しかし、学習データを自分でアノテーションして作成する必要があることからデータ数を大量に用意することができず精度が今ひとつとなってしまいました。 そんな折、日本語自然言語処理オープンソースライブラリであるGiNZAのver.3.0.0(執筆時点での最新は3.1.2)がリリースされました。リリースノートを眺めていると、以下の記述が目に留まりました。 解析モデルの改良固有表現抽出モデルの訓練コーパスを GSK2014-A (2019) BCCWJ版(新聞系文書を除外)に変更固有表現抽出精度が再現性・適合性の両面で大きく向上token.ent_type_を関根の拡張固有表現階層のラベルに変更ginzaコマンド出力の最終フィールドにENE7属性を追加OntoNo