ACL 2019より以下の論文を紹介。 Tuning Multilingual Transformers for Language-Specific Named Entity Recognition この論文は、ロシア語、チェコ語、ブルガリア語、ポーランド語に対する固有表現認識をBERTを使って解いた論文。Googleの公開している多言語BERTを各言語のデータセットを使ってチューニングしたところ、多言語BERTをそのまま使うより良い結果となった。バルト系・スラブ系言語の自然言語処理を行うシェアドタスクであるBSNLP 2019の固有表現認識で1位だったとのこと。 BERTを使った固有表現認識の研究は多数あるが、ここで課題としているのは2点ある。一つは、オリジナルのBERTには今回対象とするスラブ系言語固有のサブトークンが欠けていることがある点。サブトークンが欠けているとテキストの分割に影