[B! CNN][Transformer] misshikiのブックマーク

misshiki id:misshiki

CNNとTransformerに関するmisshikiのブックマーク (7)

https://twitter.com/sam_murayama/status/1584148451385757702
misshiki 2022/10/24
“CNN vs. ViT”スライド資料のポイントまとめ。

CNN

Transformer

コンピュータビジョン
リンク
CNN vs. ViT
第57回コンピュータビジョン勉強会＠関東 https://kantocv.connpass.com/event/260132/ で読みました。CNNとViTの争いの現時点の情報をお届けしています。ただECCV 2022の論文を読んだのかと言われると怪しい…（ECCV2022の論文「も」読んだというのが正しい）
misshiki 2022/10/24
44ページのスライド資料。

CNN

Transformer

コンピュータビジョン
リンク
なぜビジョントランスフォーマーはこれほど高性能なのか。
3つの要点 ✔️ ViTは、すべての層でより均一な表現（特徴量）を持っている。つまり各層での表現が似ている。 ✔️ ViTは、自己注意（self-attention）により早期にグローバルな情報を集約できる。 ✔️ ViTは、表現を下位層から上位層へ強く伝搬させる。 Do Vision Transf ormers See Like Convolutional Neural Networks? written by Maithra Raghu, Thomas Unterthiner, Simon Kornbl ith, Chiyuan Zhang, Alexey Dosovitskiy (Submitted on 19 Aug 2021 (v1), last revised 3 Mar 2022 (this version, v2)) Comments: Published on arxiv.
misshiki 2022/05/16
“本論文ではCNN（ResNet）とViTを比較して、内部構造に驚くほど明確な違いがあることを示しました。”

CNN

Transformer

コンピュータビジョン
リンク
【論文5分まとめ】A ConvNet for the 2020s
この記事は、論文の内容を5分くらいで読めるようにまとめた記事です。そのため、前提となる知識や関連研究に関する説明は大幅に省略しています。基本的には筆者の備忘録ですが、面白そうと思ったら是非ご自身でも読んでみてください。概要 Vision Transf ormer以降、Visionの世界の中心はConvNetからTransf ormerへと移りつつある。しかし、ConvNetの設計空間は後発のTransf ormerのようには十分に「近代化」されておらず、古い慣習が残ったままであることも確かである。本研究では、ConvNetの設計空間を再検討したConvNeXtを提案している。ConvNeXtは標準的なConvNetモジュールから構成され、標準的なConvNetのシンプルさと効率性を維持しながら、精度や拡張性において最先端のTransf ormer系手法と遜色なく、87.8%のImageNet
misshiki 2022/01/26
“ConvNetの設計空間を再検討したConvNeXt”

Transformer

コンピュータビジョン

CNN
リンク
ビジョン・トランスフォーマーはなぜCNNより強い？その仕組みを解明【論文速報】
misshiki 2021/10/11
“ViT と CNN の違いを詳細に”

CNN

Transformer

コンピュータビジョン
リンク
Will Transformers Replace CNNs in Computer Vision?
This article is about most probably the next generation of neural networks for all computer vision applications: The transf ormer architecture. You’ve certainly already heard about this architecture in the field of natural language processing, or NLP, mainly with GPT3 that made a lot of noise in 2020. Transf ormers can be used as a general-purpose backbone for many different applications and not onl
misshiki 2021/04/30
“Swin Transformerと呼ばれる新しい論文を使用して、トランスアーキテクチャをコンピュータビジョンに適用する方法を理解”

Transformer

コンピュータビジョン

CNN
リンク
Conformer：Transformerを音声認識に応用！？ GoogleによるTransformer×CNNが凄すぎる！！
3つの要点 ✔️ Transf ormerとCNNを組み合わせたモデル，Conformerを音声認識に応用 ✔️ 畳み込みモジュールがConformerにおいて最も重要であることがわかった ✔️ 既存の音声認識研究の中でも最高の精度を確認 Conformer: Convolution-augmented Transf ormer for Speech Recognition written by Anmol Gulati, James Qin, Chung-Cheng Chiu, Niki Parmar, Yu Zhang, Jiahui Yu, Wei Han, Shibo Wang, Zhengdong Zhang, Yonghui Wu, Ruoming Pang (Submitted on 16 May 2020) Comments: Accepted at Interspeech20
misshiki 2020/11/20
“TransformerとCNNを組み合わせたモデル，Conformerを音声認識に応用”

Transformer

CNN
リンク
1

お知らせ

もっと読む

公式Twitter

@HatenaBookmark
リリース、障害情報などのサービスのお知らせ
@hatebu
最新の人気エントリーの配信

キーボードショートカット一覧

j次のブックマーク

k前のブックマーク

lあとで読む

eコメント一覧を開く

oページを開く

設定を変更しましたx