08/31 (2020): 投稿 08/31 (2020): 「畳み込みを一切使わない」という記述に関して、ご指摘を受けましたので追記いたしました。線形変換においては「チャネル間の加重和である1x1畳み込み」を実装では用いています。 08/31 (2020): 本論文で提案されているモデルの呼称に関して認識が誤っていたためタイトルおよび文章を一部修正しました。 言葉足らずの部分や勘違いをしている部分があるかと思いますが、ご指摘等をいただけますと大変ありがたいです。よろしくお願いします!(ツイッター:@omiita_atiimo) 近年の自然言語処理のブレイクスルーに大きく貢献したものといえば、やはりTransformerだと思います。そこからさらにBERTが生まれ、自然言語の認識能力などを測るGLUE Benchmarkではもはや人間が13位(2020/08現在)にまで落ちてしまっているほ
![Self-Attentionを全面的に使った新時代の画像認識モデルを解説! - Qiita](https://cdn-ak-scissors.b.st-hatena.com/image/square/5f503777646a9e50b91d9386efc11368d0027599/height=288;version=1;width=512/https%3A%2F%2Fqiita-user-contents.imgix.net%2Fhttps%253A%252F%252Fcdn.qiita.com%252Fassets%252Fpublic%252Farticle-ogp-background-412672c5f0600ab9a64263b751f1bc81.png%3Fixlib%3Drb-4.0.0%26w%3D1200%26mark64%3DaHR0cHM6Ly9xaWl0YS11c2VyLWNvbnRlbnRzLmltZ2l4Lm5ldC9-dGV4dD9peGxpYj1yYi00LjAuMCZ3PTk3MiZoPTM3OCZ0eHQ9U2VsZi1BdHRlbnRpb24lRTMlODIlOTIlRTUlODUlQTglRTklOUQlQTIlRTclOUElODQlRTMlODElQUIlRTQlQkQlQkYlRTMlODElQTMlRTMlODElOUYlRTYlOTYlQjAlRTYlOTklODIlRTQlQkIlQTMlRTMlODElQUUlRTclOTQlQkIlRTUlODMlOEYlRTglQUElOEQlRTglQUQlOTglRTMlODMlQTIlRTMlODMlODclRTMlODMlQUIlRTMlODIlOTIlRTglQTclQTMlRTglQUElQUMlRUYlQkMlODEmdHh0LWFsaWduPWxlZnQlMkN0b3AmdHh0LWNvbG9yPSUyMzIxMjEyMSZ0eHQtZm9udD1IaXJhZ2lubyUyMFNhbnMlMjBXNiZ0eHQtc2l6ZT01NiZzPWRjNzA4ZTdmNDViYThjNzc0YTFkMDRkNGNlMDgxMTgx%26mark-x%3D142%26mark-y%3D57%26blend64%3DaHR0cHM6Ly9xaWl0YS11c2VyLWNvbnRlbnRzLmltZ2l4Lm5ldC9-dGV4dD9peGxpYj1yYi00LjAuMCZoPTc2Jnc9NzcwJnR4dD0lNDBvbWlpdGEmdHh0LWNvbG9yPSUyMzIxMjEyMSZ0eHQtZm9udD1IaXJhZ2lubyUyMFNhbnMlMjBXNiZ0eHQtc2l6ZT0zNiZ0eHQtYWxpZ249bGVmdCUyQ3RvcCZzPWQ0ODZlZTMzZjg0NGYwOGYxMTY0MGY2ZTI0NDM1YTUz%26blend-x%3D142%26blend-y%3D486%26blend-mode%3Dnormal%26s%3Dffa7b283ee4ea2e2a38c7d6c59279d41)