現在、社内の機械学習を用いたプロジェクトに関わっていて、その過程で学んだBERTについて今まで勉強したことをまとめてみようと思います。 自然言語処理(以下NLP)、とくにBERT周辺の理解したことを以下何回かに分けて書いていきます。 BERTとは? その特徴と解決しようとした問題、及び予備知識 ←この記事BERTの構造についてBERTの学習データ、BERTの汎用性がもたらしたもの、そして新しいモデルELECTRA 機械学習については、「なにかを入力して教師データを元に損失関数計算して、パラメータを更新して精度をよくするやつ」程度の認識があるものとします。 そもそも、既に様々な解説記事がありますが、それらは既にある程度既に詳しい人向けのものだと感じました。 完全な初心者向けとまではいかないものの、ある程度機械学習は知っていて、これからBERTを知るという人向けの記事を目指します。 BERTは