はじめに 自然言語処理(Natural Language Processing: NLP)の文脈から誕生したTransformerはそのモデルのシンプルさにもかかわらず、大きな成果をあげることに成功しました。そのため、その後NLPにブレイクスルーをもたらしたBERTやGPT-2などのモデルはTransformerをもとにつくられています。現在(2020年)では、DETRなど最新の物体検出モデルにも使われるようになり、Transformerは機械学習を学ぶ上では避けて通ることができないモデル・アイディアであるといえるでしょう。 今回は、近年の最重要モデルといえるTransformerについて発表論文「All you need is attention」を中心に、その誕生背景からモデル概念まで一から解説したいと思います。 なお、今回の内容は以下の二つに大別されます。 .Transformerが
![自然言語処理の必須知識 Transformer を徹底解説!](https://cdn-ak-scissors.b.st-hatena.com/image/square/5e9e7f91f14361b49cbf77a2bf8f2ab9d84e0497/height=288;version=1;width=512/https%3A%2F%2Fdeepsquare.jp%2Fwp-content%2Fuploads%2F2020%2F07%2Fpasted-image-0-1-452x410.png)