girlicjamのブックマーク - はてなブックマーク

画像認識の大革命。AI界で話題爆発中の「Vision Transformer」を解説！ - Qiita
0. 忙しい方へ完全に畳み込みとさようならしてSoTA達成したよ Vision Transf ormerの重要なことは次の3つだよ画像パッチを単語のように扱うよアーキテクチャはTransf ormerのエンコーダー部分だよ巨大なデータセットJFT-300Mで事前学習するよ SoTAを上回る性能を約$\frac{1}{15}$の計算コストで得られたよ事前学習データセットとモデルをさらに大きくすることでまだまだ性能向上する余地があるよ 1. Vision Transf ormerの解説 Vision Transf ormer(=ViT)の重要な部分は次の3つです。入力画像アーキテクチャ事前学習とファインチューニングそれぞれについて見ていきましょう。 1.1 入力画像まず入力画像についてです。ViTはTransf ormerをベースとしたモデル(というより一部を丸々使っている)ですが、
girlicjam 2020/10/12
リンク
1

はてなブックマーク