こんにちは。DSOC 研究開発部の高橋寛治です。 流行りの BERT(Bidirectional Encoder Represenations from Transformers) ですが、論文を読んだあと、マスク部分を当てるというサンプルを動かしその的確さに驚いたところで、手が止まっていました。 今回は、BERTの特徴である優れた言語モデルを利用して、日本語固有表現抽出器を作ってみました。 その手順をいくつかかいつまんで紹介します。 準備から学習 BERT の実装には、 Hugging Face, Inc. が提供する transformers ライブラリを利用します。 実装は、固有表現抽出のサンプルに準じて行います。 transformers ライブラリは、例によって pip install transformers で完了します。素晴らしい。 ディレクトリ構成のイメージ data デ
