Swin Transformerのベースとなった手法として、TransformerとVision Transformerの2つが挙げられる。Transformerは自然言語処理分野で提案された手法であり、これを画像認識分野に応用したものがVision Transformerである。この2つの手法について紹介する。 Transformerが提案される前の2010年、Mikolovら[4]により、時系列データの予測を目的とするネットワーク構造であるRNN(Recurrent Neural Network、再帰型ニューラルネットワーク)が提案された。文章中の単語の並びを時系列のデータの並びと捉え、自然言語処理にRNNを適用する試みがされる中、以下の課題が指摘された。 (1)ある単語の処理を終えるまで、次の単語の処理を開始できないため、並列化が困難 (2)単語の並びを逐次的に処理するにしたがい、以