サクサク読めて、アプリ限定の機能も多数!
トップへ戻る
体力トレーニング
deepsquare.jp
Meta AIのConvNeXtに自己教師あり学習のMAEを統合したFCMAEを持つ改良モデル ConvNeXt V2を紹介! 2023.02.13 AI論文 画像処理 本論文は、Meta の 最新畳み込みモデルである「 ConvNeXt V2: Co-designing and Scaling ConvNets with Masked Autoencoders 」 に関してまとめています。 基本情報 イントロダクション 事前学習された大規模な画像認識モデルは、特徴学習や様々な視覚アプリケーションを実現するための重要なツールとなっています。そして、そのシステムの性能は、ニューラルネットワークアーキテクチャの選択、ネットワークの学習方法、訓練データの3つの主要因に大きく影響されます。 ニューラルネットワークアーキテクチャの選択 ConvNetsは、様々な画像認識タスクに汎用的な特徴学習法を利
はじめに OpenAIより幅広いタスクでゼロショット転移(タスクごとのFine-tuningを必要としない)が可能な事前学習画像分類モデルCLIPが発表されたので、論文をもとに詳細解説します。簡単にまとめた記事も掲載しておりますので、お時間がない方はこちらをご参照下さい。(自然言語と画像を結びつけて高い汎化性能を実現したOpenAIのCLIPを紹介!)なお、この記事で用いた画像はすべて下記論文より引用したものです。 論文 Learning Transferable Visual Models From Natural Language Supervision https://cdn.openai.com/papers/Learning_Transferable_Visual_Models_From_Natural_Language_Supervision.pdf OpenAIブログ CLI
YOLO(v1) YOLOは2015年に、「You Only Look Once: Unified, Real-Time Object Detection」という論文で発表されたモデルです。ほぼ同時期に発表されたFast R-CNNと同様に、物体検出の世界に大きな影響を与えました。両者が発表されて以降、End-to-Endモデルとリアルタイム検出が物体検出のスタンダードになったといえます。 YOLO(v1)の特徴 YOLOの特徴についてみていきます。 ・それまで二段階(検出と識別)で行われていた物体検出を一度の作業(全体を検出)にすることで高速化に成功した。 ・End-to-Endモデルの最初期モデル。 ・検出速度がリアルタイムで実用可能な45fpsになった。(精度は下がるが、検出速度がよりはやいFastYOLOでは155fpsに達した。) なお同時期に出されたFast R-CNNと比べる
はじめに 本記事は、物体検出モデルであるRetinaNetを通して「モデルの概念理解」と「コードの理解」ができることを目的としたものです。そのため①モデルの解説、②コードの解説、という二部構成になっています。コードの記述に関しては後日公開予定です。 RetinaNetとは RetinaNetとは、Facebook AI Research(FAIR)が2017年8月に発表した論文「Focal Loss for Dense Object Detection」で提唱されている物体検出モデルです。 論文 Focal Loss for Dense Object Detection [Tsung-Yi Lin, Priya Goyal, Ross Girshick, Kaiming He, Piotr Dollár @ ICCV 2017] https://arxiv.org/abs/1708.020
Attentionは不要!?Google BrainによるTransformer型モデルに対抗できるgMLPを詳細解説! 2021.05.26 AI論文 学術研究, 画像処理, 自然言語処理 はじめに Google Brainが全結合層を基本としたニューラルネットワークがTransformerと同程度の精度を出すことができることを研究で明らかにしました。この結果、NLP(自然言語処理)だけではなく、最近ではCV(画像処理)の分野でもデファクトスタンダードになりつつあったTransformerをベースとしたモデル構成に再考が求められることになります。 なお、今回利用した図はすべて下記論文(「Pay Attention to MLPs」)から引用しております。 ●Transformer系の解説記事 Facebookチームが開発した画像分類にTransformerを利用した効率モデルDeiTを紹
画像認識の革新モデル!脱CNNを果たしたVision Transformer(ViT)を徹底解説! 2020.10.16 AI論文 画像処理 はじめに AIの世界では毎年最先端(SOAT:state-of-the-art technology)モデルが発表され、多くの新技術が生まれています。しかし、2017年に発表され「Atteintion is All you need」という論文で紹介された「Transformer」というモデルは、AIの歴史全体でみても大きな影響力をもつ極めて革新的な技術です(Transformerについてはこちらの記事をご参照ください。「自然言語処理の必須知識 Transformer を徹底解説!」)。Transformerはそれまでの自然言語処理の世界を一新し、その後発表されるモデルのデファクトスタンダートになりました。ただし、画像処理の世界では障壁(記事内で詳し
勾配消失問題を解消し、層を深くするために開発されたResNet及びDenseNetについて解説します。 ResNet元論文「Deep Residual Learning for Image Recognition」(2015/12/10) https://arxiv.org/abs/1512.03385 DenseNet元論文「Densely Connected Convolutional Networks」(2016/08/25) https://arxiv.org/abs/1608.06993 ResNet、DenseNetが誕生した背景 近年のコンピュータの計算力の向上など、インフラ面の発展により、更に深いネットワークを訓練することが可能となり、CNNによる画像認識が進歩した。しかし、ネットワークが深くなると勾配消失の問題が発生し、学習がうまくいかないため、更に層数を増やすのが困難と
はじめに Transformerを物体検出にはじめて取り入れた「DETR(DEtection Transformer)」が2020年5月にFacebookから発表されました。DETRは人間による手作業を大幅に減らすことに成功し、End-to-Endモデルに近く誰でも利用しやすいモデルになっています。また、「水着があるなら、一緒に写っている板のようなものはサーフボードである確率が高い」など、一枚の画像内にあるオブジェクト間の関係性を利用する形で物体検出が可能になりました。こうしたことがどうして可能になったのかを以下で見ていきたいと思います。 なお、Transformerに関しては一定程度の理解がある前提で説明しております。Transformerに関しても記事を作成しておりますので、下記をご参照ください。 公式論文 「End-to-End Object Detection with Trans
2018年にGoogleの研究チームから発表されたMobileNetV2の詳細解説を発表論文とGoogleブログを主な参考文献として行う。なお、説明のために引用した図は下記発表論文もしくはGoogleブログから用いた。 元論文: MobileNetV2: Inverted Residuals and Linear Bottlenecks (初稿2018年1月13日、最終版2019年3月21日) https://arxiv.org/abs/1801.04381 Googleブログ: MobileNetV2: The Next Generation of On-Device Computer Vision Networks (2018年4月3日) https://ai.googleblog.com/2018/04/mobilenetv2-next-generation-of-on.html サ
はじめに 自然言語処理(Natural Language Processing: NLP)の文脈から誕生したTransformerはそのモデルのシンプルさにもかかわらず、大きな成果をあげることに成功しました。そのため、その後NLPにブレイクスルーをもたらしたBERTやGPT-2などのモデルはTransformerをもとにつくられています。現在(2020年)では、DETRなど最新の物体検出モデルにも使われるようになり、Transformerは機械学習を学ぶ上では避けて通ることができないモデル・アイディアであるといえるでしょう。 今回は、近年の最重要モデルといえるTransformerについて発表論文「All you need is attention」を中心に、その誕生背景からモデル概念まで一から解説したいと思います。 なお、今回の内容は以下の二つに大別されます。 .Transformerが
このページを最初にブックマークしてみませんか?
『AIを学びたい・活用したい方の学習プラットフォーム│DeepSquare』の新着エントリーを見る
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く