ICLR2022のレビューとして投稿された「Patches Are All You Need?」という論文が気になったので読んでみて、少し試してみました。画像の高周波の成分の活用や、スループットと精度のトレードオフが見えてくる興味深い論文でした。 論文の概要 Transformerっぽいモデルを従来のConvolutionを使って再現したところ、Transfomerベースのモデルよりも精度も計算効率も良かった。 Patches Are All You Need? https://openreview.net/forum?id=TVHS5Y4dNvM ※図はこちらの論文からの引用です パラメーター数 vs 精度の比較 ConvMixerがこの論文、ResMLPは、DeiTはそれぞれ既存の研究でTransfomerからの発想を受けて作られたもの。ResNetは非Transfomerで従来のCo
![「Patches Are All You Need?」のからくりを読み解く | Shikoan's ML Blog](https://cdn-ak-scissors.b.st-hatena.com/image/square/dd466c9312b2c3ca4495bf1290d10647d425789b/height=288;version=1;width=512/https%3A%2F%2Fblog.shikoan.com%2Fwp-content%2Fuploads%2F2018%2F07%2Fogp_image.jpg)