jp-mykのブックマーク - はてなブックマーク

MobileNet(v1,v2,v3)を簡単に解説してみた - Qiita

スマホなどの小型端末にも乗せられる高性能CNNを作りたいというモチベーションから生まれた軽量かつ(ある程度)高性能なCNN。MobileNetにはv1,v2,v3があり、それぞれの要所を調べたのでこの記事でまとめる。原論文は Howard, Andrew G., et al. "Mobilenets: Efficient convolutional neural networks for mobile vision applications." arXiv preprint arXiv:1704.04861 (2017). Sandler, Mark, et al. "Mobilenetv2: Inverted residuals and linear bottlenecks." Proceedings of the IEEE Conference on Computer Vision

jp-myk 2021/11/03

リンク

2021年最強になるか！？最新の画像認識モデルEfficientNetV2を解説 - Qiita

その他層の数も探索空間に入れています。ここで拡張率とは、MBConvの最初のConvでチャネル数を何倍にするかの係数のことで、こちらでより詳しく解説しています。探索は精度$A$、ステップごとの学習時間$S$、パラメータサイズ$P$を用いて、$A\cdot S^w\cdot P^v$を最大化するように行われます。ここで$w=-0.07, v=-0.05$であり、これらの値は実験的に決定されています。 1.3.2 EfficientNetV2のアーキテクチャ下表がEfficientNetV2のSサイズのモデルになります。画像: "EfficientNetV2: Smaller Models and Faster Training", Tan, M., Le, Q., (2021) 比較のためにEfficientNet-B0(i.e. V1)のアーキテクチャも下に載せます。画像: "Ef

jp-myk 2021/05/10

リンク

2020年超盛り上がり！自己教師あり学習の最前線まとめ！ - Qiita

オミータです。ツイッターで人工知能のことや他媒体の記事などを紹介していますので、人工知能のことをもっと知りたい方などは @omiita_atiimoをご覧ください！他にも次のような記事を書いていますので興味があればぜひ！わずか1%のラベルでImageNet高精度「SimCLR」解説出きたてホヤホヤ！最新オプティマイザー「AdaBelief」を解説！画像認識の大革命。AI界で話題爆発中の「Vision Transf ormer」を解説！新たな活性化関数「FReLU」誕生&解説！自然言語処理の王様「BERT」の論文を徹底解説 2021/02/28 SimCLRのバッチサイズに関する記述を修正 2020年に大きく盛り上がりを見せた分野に自己教師あり学習(=Self-Supervised Learning(SSL))があります。SSLとは名前の通り自分で教師を用意するような手法で、デー

jp-myk 2021/03/23

リンク

SoTAを総なめ！衝撃のオプティマイザー「SAM」爆誕&解説！ - Qiita

0. 忙しい方へ SAMは損失が最小かつその周辺が平坦であるようなパラメータを目指すよ SAMは次の3ステップだよパラメータ$\mathbf{w}$の周辺で最大の損失をとる$\mathbf{w+\hat{\epsilon}(w)}$を求めるよ $\mathbf{w+\hat{\epsilon}(w)}$における損失を求めるよ 2.の損失に対する勾配でパラメータ$\mathbf{w}$を更新するよ SAMは一言で言ってしまえば、「パラメータ周辺での最大の損失を求めて、それが下がる方向でパラメータを更新する」ものだよ ImageNetやCIFARを含む9つの画像分類データセットでSoTAを更新したよラベルへのロバスト性も高いよ 1. SAMの説明 SAMは至ってシンプルです。というのも、今までは損失が最小になるパラメータを学習させていました。ただ、SAMは損失が最小かつその周りも平坦となっ

jp-myk 2020/12/30

リンク

ディズニー顔に瞬時に変換するAI！ウワサの「Toonify」論文を解説！ - Qiita

オミータです。ツイッターで人工知能のことや他媒体の記事などを紹介していますので、人工知能のことをもっと知りたい方などは @omiita_atiimoをご覧ください！他にも次のような記事を書いていますので興味があればぜひ！「募ってはいるが、募集はしていない」人たちへ GANにもオーギュメンテーションは超有効だった！DAだけでSoTA達成した最新論文を解説！ GANへの新しい正則化「ICR」が期待大な件&解説 U-Netを識別器に！新たなGAN「U-NetGAN」を解説！画像認識の大革命。AI界で話題爆発中の「Vision Transf ormer」を解説！「Toonify Yourself!」というWebサイトをご存知でしょうか。顔の画像をアップロードすると瞬時にディズニー顔に変換してくれるというもので、Twitterなどで話題になっていたのをご覧になった方も多く居るかと思います。

jp-myk 2020/10/22

リンク

Self-Attentionを全面的に使った新時代の画像認識モデルを解説！ - Qiita

08/31 (2020): 投稿 08/31 (2020): 「畳み込みを一切使わない」という記述に関して、ご指摘を受けましたので追記いたしました。線形変換においては「チャネル間の加重和である1x1畳み込み」を実装では用いています。 08/31 (2020): 本論文で提案されているモデルの呼称に関して認識が誤っていたためタイトルおよび文章を一部修正しました。言葉足らずの部分や勘違いをしている部分があるかと思いますが、ご指摘等をいただけますと大変ありがたいです。よろしくお願いします！(ツイッター:@omiita_atiimo) 近年の自然言語処理のブレイクスルーに大きく貢献したものといえば、やはりTransf ormerだと思います。そこからさらにBERTが生まれ、自然言語の認識能力などを測るGLUE Benchmarkではもはや人間が13位(2020/08現在)にまで落ちてしまっているほ

jp-myk 2020/10/17

リンク

画像認識の大革命。AI界で話題爆発中の「Vision Transformer」を解説！ - Qiita

0. 忙しい方へ完全に畳み込みとさようならしてSoTA達成したよ Vision Transf ormerの重要なことは次の3つだよ画像パッチを単語のように扱うよアーキテクチャはTransf ormerのエンコーダー部分だよ巨大なデータセットJFT-300Mで事前学習するよ SoTAを上回る性能を約$\frac{1}{15}$の計算コストで得られたよ事前学習データセットとモデルをさらに大きくすることでまだまだ性能向上する余地があるよ 1. Vision Transf ormerの解説 Vision Transf ormer(=ViT)の重要な部分は次の3つです。入力画像アーキテクチャ事前学習とファインチューニングそれぞれについて見ていきましょう。 1.1 入力画像まず入力画像についてです。ViTはTransf ormerをベースとしたモデル(というより一部を丸々使っている)ですが、

jp-myk 2020/10/13

リンク

GANへの新しい正則化「ICR」が期待大な件&解説 - Qiita

(略称多すぎですね。) 0. 忙しい方へ GANにConsistency Regularizationを適用することで性能を大きく改善したよ Improved-CRは「balanced-CR + latent-CR」だよ bCRはリアル画像とフェイク画像両方にCRしたものだよ zCRはノイズ空間のCRをしたものだよ CRもICRも超絶シンプルで強力だよ CRとICRはSNとの相性が良く、他の正則化手法を大きく上回ったよ ICRはCIFAR-10(FID:9.21)とImageNet(FID:5.38)でBigGANにおけるSoTAを達成したよ "Improved Consistency Regularization for GANs", Zhao, Z., Singh, S., Lee, H., Zhang, Z., Odena, A., Zhang, H., (2020)より作成 1.

jp-myk 2020/10/01

リンク

はてなブックマーク

タグ

ブックマーク / qiita.com/omiita (8)

お知らせ

今週のはてなブックマーク数ランキング（2024年8月第1週）

月間はてなブックマーク数ランキング（2024年7月）

今週のはてなブックマーク数ランキング（2024年7月第4週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス