EMNLP 2019より以下の論文を紹介。 Small and Practical BERT Models for Sequence Labeling この論文では、系列ラベリングタスクに対するBERTの高速化と多言語転移性能の検証を行っている。BERTが良い性能を出すことはわかっているが、モデルのサイズが大きく、予測に時間がかかるという欠点がある。そこで、BERTから3層を選択し、パラメータ数を減らすことで高速化をしている。これにより、通常のBERTと比べて約27倍高速化した。また、モデルに対して蒸留を行っている。結果として、パラメータ数を減らす前のBERTに匹敵する性能を記録。特に低リソースな言語に対して有効であることを示している。 モデルを小さくするために3つの層を選んでパラメータを減らしている。公開されているBERTではエンコーダは12層から構成されている。以下の表に示すように、そ