第57回 コンピュータビジョン勉強会@関東 https://kantocv.connpass.com/event/260132/ で読みました。CNNとViTの争いの現時点の情報をお届けしています。ただECCV 2022の論文を読んだのかと言われると怪しい…(ECCV2022の論文「も」読んだというのが正しい)
![CNN vs. ViT](https://cdn-ak-scissors.b.st-hatena.com/image/square/6055fc9d7647ef91cfb89be66bcc0e88f2108643/height=288;version=1;width=512/https%3A%2F%2Ffiles.speakerdeck.com%2Fpresentations%2F4095b75398ae484db92f4de927dd3db5%2Fslide_0.jpg%3F23126705)
2022年6月8日にSSII 2022のチュートリアル講演で使用 2023年2月2日に順天堂大学産学連携講座:AI技術とビジネス活用で使用 2017年に機械翻訳を対象として提案されたTransformerは、従来の畳込みや再帰を排して自己注意機構を活用したニューラルネットワークです。2019年頃からコンピュータビジョン分野でも急速に応用が進んでいて、より柔軟かつ高精度なネットワーク構造としての地位を確立しつつあります。本スライドでは、そんなTransformerの最前線を概説しています。基盤モデルやVision Transformer、MLP/CNNの逆襲についても取り扱っています。 ・そもそもTransformerって? ・Transformer旋風と基盤モデル ・Transformerのノウハウ ・Transformerはオワコン?! ・CNNはオワコン?!
2022年2月9日(水)- 11日(金)第6回 統計・機械学習若手シンポジウム での講演資料です。 CNNの画像認識におけるブレークスルーから10年、Transformerの機械翻訳におけるブレークスルーから5年。異なる様態のデータに対する機械学習応用の相互参入障壁が大きく緩和された現在、画像情報と言語情報による理解や変換・生成を目的とするVision and Languageは、その周辺分野も巻き込みながら勢いを増している研究分野です。本講演では、Vision and Languageと呼ばれる各研究課題の生い立ちや発展、そして今後の課題について概観します。 いままでもビジョン&ランゲージの講演は何度とやらせて頂いておりますが、今回少し気合を入れて更新しました。ビジョン&ランゲージは本当にタスクが色々増えて来て収集が付かない状況ですが、90分の講演で自分が考え得る限りでは最大のカバレッジ
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く