はじめに こんにちは、イノベーションセンターの鈴ヶ嶺・齋藤です。本記事は前回の記事の後編となっており、引き続きICCV2021の論文を紹介します。 engineers.ntt.com 論文紹介 Swin Transformer: Hierarchical Vision Transformer using Shifted Windows(ORAL PAPER & Marr Prize Best Paper) Swin Transformerとは この論文では、NLPで汎用バックボーンとして活用されているTransformer1の適用範囲を拡大して、コンピュータビジョンにおいても汎用バックボーンとして使用可能とするVision Transformer(ViT)2ベースのSwin Transformerを新たに提案しています。 これまでの映像分野におけるViTの課題は、主に2つあります。まず1つ