タグ

ブックマーク / qiita.com/omiita (13)

  • 世界に衝撃を与えた画像生成AI「Stable Diffusion」を徹底解説! - Qiita

    追記: U-Netの中間層は常にSelf-Attentionとなります。ご指摘いただきました。ありがとうございます。(コード) オミータです。ツイッターで人工知能のことや他媒体の記事など を紹介しています。 @omiita_atiimoもご覧ください! 世界に衝撃を与えた画像生成AI「Stable Diffusion」を徹底解説! 未来都市にたたずむサンタクロース(Stable Diffusionで生成) 2022年8月、世界に大きな衝撃が走りました。それは、Stable Diffusionの公開です。Stable Diffusionは、テキストを受け取るとそれに沿った画像を出力してくれるモデルです1。Stable Diffsuionは10億個近いパラメータ数をもち、およそ20億個の画像とテキストのペア(LAION-2B)で学習されています。これにより、Stable Diffusionは入

    世界に衝撃を与えた画像生成AI「Stable Diffusion」を徹底解説! - Qiita
    rydot
    rydot 2022/12/08
  • ついにAdamを超えた!最新の最適化アルゴリズム「RAdam」解説 - Qiita

    オミータです。ツイッターで人工知能のことや他媒体で書いている記事など を紹介していますので、人工知能のことをもっと知りたい方などは気軽に@omiita_atiimoをフォローしてください! 最新の最適化アルゴリズムRAdam ニューラルネットワークは画像認識や自然言語処理など多方面で使われており、おもしろいことにも使うことができます。そんなニューラルネットワークが高い精度を出すためには、優秀な最適化アルゴリズムが必要不可欠です。最適化アルゴリズムとして現在デファクトスタンダードとなっているのがAdamです。Adamが登場したのは2014年のことですが、そこからAdamに取って代わるような最適化アルゴリズムは久しく出ていません。そんな現状をとうとう変えると期待されている新しい最適化アルゴリズムの論文が国際学会ICLR2020に採択されました。その名もRectified Adam、通称RAda

    ついにAdamを超えた!最新の最適化アルゴリズム「RAdam」解説 - Qiita
    rydot
    rydot 2022/02/13
  • PyTorchで学ぶGraph Convolutional Networks - Qiita

    ツイッターで人工知能のことや他媒体で書いている記事など を紹介していますので、人工知能のことをもっと知りたい方などは気軽にフォローしてください! この記事では近年グラフ構造をうまくベクトル化(埋め込み)できるニューラルネットワークとして、急速に注目されているGCNとGCNを簡単に使用できるライブラリPyTorch Geometricについて説明する。応用分野は生物学から、渋滞予測、レコメンダーシステムまで幅広い。 記事はGCN生みの親のブログ記事とPyTorch Geometricの公式チュートリアルをかなり参考にしております。 読んで少しでも何か学べたと思えたら 「いいね」 や 「コメント」 をもらえるとこれからの励みになります!よろしくお願いします! 1. Graph Convolutional Networksとは? 1.1 そもそもグラフとは? ノードとエッジで定義される。折れ線

    PyTorchで学ぶGraph Convolutional Networks - Qiita
    rydot
    rydot 2021/10/12
  • MobileNet(v1,v2,v3)を簡単に解説してみた - Qiita

    スマホなどの小型端末にも乗せられる高性能CNNを作りたいというモチベーションから生まれた軽量かつ(ある程度)高性能なCNN。MobileNetにはv1,v2,v3があり、それぞれの要所を調べたのでこの記事でまとめる。 原論文は Howard, Andrew G., et al. "Mobilenets: Efficient convolutional neural networks for mobile vision applications." arXiv preprint arXiv:1704.04861 (2017). Sandler, Mark, et al. "Mobilenetv2: Inverted residuals and linear bottlenecks." Proceedings of the IEEE Conference on Computer Vision

    MobileNet(v1,v2,v3)を簡単に解説してみた - Qiita
    rydot
    rydot 2021/08/12
  • 2021年最強になるか!?最新の画像認識モデルEfficientNetV2を解説 - Qiita

    その他層の数も探索空間に入れています。ここで拡張率とは、MBConvの最初のConvでチャネル数を何倍にするかの係数のことで、こちらでより詳しく解説しています。 探索は精度$A$、ステップごとの学習時間$S$、パラメータサイズ$P$を用いて、$A\cdot S^w\cdot P^v$を最大化するように行われます。ここで$w=-0.07, v=-0.05$であり、これらの値は実験的に決定されています。 1.3.2 EfficientNetV2のアーキテクチャ 下表がEfficientNetV2のSサイズのモデルになります。 画像: "EfficientNetV2: Smaller Models and Faster Training", Tan, M., Le, Q., (2021) 比較のためにEfficientNet-B0(i.e. V1)のアーキテクチャも下に載せます。 画像: "Ef

    2021年最強になるか!?最新の画像認識モデルEfficientNetV2を解説 - Qiita
    rydot
    rydot 2021/08/11
  • 2019年最強の画像認識モデルEfficientNet解説 - Qiita

    GPipeは大きすぎてハードウェアのメモリに限界がきてしまっている。 そのため、効率的なモデルが求められる。 2.2 ConvNetの効率性 モデル圧縮やハンドクラフトによる効率的なモデル作成などがあったが、近年ではNAS(=Neural Architecture Search)によるモデル作成が性能が良く、流行っている。 この論文ではモデルの広さ、深さ、解像度をいじるモデルスケーリングを使ってConvNetの効率性を高める。 3. Compound Model Scaling(複合モデルスケーリング) 3.1 問題の定式化 繰り返しになるが、モデルスケーリングはあくまで広さ、深さ、解像度を変えるだけで、 レイヤーのアーキテクチャを変えたりはしない。 そのため、いじるのは広さ、深さ、解像度だけで良くなるが、全てのレイヤーでそれらを最適な値にするのはまだ候補が多すぎるため、この論文では、全て

    2019年最強の画像認識モデルEfficientNet解説 - Qiita
    rydot
    rydot 2021/08/11
  • SoTAを総なめ!衝撃のオプティマイザー「SAM」爆誕&解説! - Qiita

    0. 忙しい方へ SAMは損失が最小かつその周辺が平坦であるようなパラメータを目指すよ SAMは次の3ステップだよ パラメータ$\mathbf{w}$の周辺で最大の損失をとる$\mathbf{w+\hat{\epsilon}(w)}$を求めるよ $\mathbf{w+\hat{\epsilon}(w)}$における損失を求めるよ 2.の損失に対する勾配でパラメータ$\mathbf{w}$を更新するよ SAMは一言で言ってしまえば、「パラメータ周辺での最大の損失を求めて、それが下がる方向でパラメータを更新する」ものだよ ImageNetやCIFARを含む9つの画像分類データセットでSoTAを更新したよ ラベルへのロバスト性も高いよ 1. SAMの説明 SAMは至ってシンプルです。というのも、今までは損失が最小になるパラメータを学習させていました。ただ、SAMは損失が最小かつその周りも平坦となっ

    SoTAを総なめ!衝撃のオプティマイザー「SAM」爆誕&解説! - Qiita
    rydot
    rydot 2021/01/06
  • 2020年超盛り上がり!自己教師あり学習の最前線まとめ! - Qiita

    オミータです。ツイッターで人工知能のことや他媒体の記事など を紹介していますので、人工知能のことをもっと知りたい方などは @omiita_atiimoをご覧ください! 他にも次のような記事を書いていますので興味があればぜひ! わずか1%のラベルでImageNet高精度「SimCLR」解説 出きたてホヤホヤ!最新オプティマイザー「AdaBelief」を解説! 画像認識の大革命。AI界で話題爆発中の「Vision Transformer」を解説! 新たな活性化関数「FReLU」誕生&解説! 自然言語処理の王様「BERT」の論文を徹底解説 2021/02/28 SimCLRのバッチサイズに関する記述を修正 2020年に大きく盛り上がりを見せた分野に自己教師あり学習(=Self-Supervised Learning(SSL))があります。SSLとは名前の通り自分で教師を用意するような手法で、デー

    2020年超盛り上がり!自己教師あり学習の最前線まとめ! - Qiita
    rydot
    rydot 2020/12/09
  • 画像認識の大革命。AI界で話題爆発中の「Vision Transformer」を解説! - Qiita

    0. 忙しい方へ 完全に畳み込みとさようならしてSoTA達成したよ Vision Transformerの重要なことは次の3つだよ 画像パッチを単語のように扱うよ アーキテクチャはTransformerのエンコーダー部分だよ 巨大なデータセットJFT-300Mで事前学習するよ SoTAを上回る性能を約$\frac{1}{15}$の計算コストで得られたよ 事前学習データセットとモデルをさらに大きくすることでまだまだ性能向上する余地があるよ 1. Vision Transformerの解説 Vision Transformer(=ViT)の重要な部分は次の3つです。 入力画像 アーキテクチャ 事前学習とファインチューニング それぞれについて見ていきましょう。 1.1 入力画像 まず入力画像についてです。ViTはTransformerをベースとしたモデル(というより一部を丸々使っている)ですが、

    画像認識の大革命。AI界で話題爆発中の「Vision Transformer」を解説! - Qiita
    rydot
    rydot 2020/10/22
  • Self-Attentionを全面的に使った新時代の画像認識モデルを解説! - Qiita

    08/31 (2020): 投稿 08/31 (2020): 「畳み込みを一切使わない」という記述に関して、ご指摘を受けましたので追記いたしました。線形変換においては「チャネル間の加重和である1x1畳み込み」を実装では用いています。 08/31 (2020): 論文で提案されているモデルの呼称に関して認識が誤っていたためタイトルおよび文章を一部修正しました。 言葉足らずの部分や勘違いをしている部分があるかと思いますが、ご指摘等をいただけますと大変ありがたいです。よろしくお願いします!(ツイッター:@omiita_atiimo) 近年の自然言語処理のブレイクスルーに大きく貢献したものといえば、やはりTransformerだと思います。そこからさらにBERTが生まれ、自然言語の認識能力などを測るGLUE Benchmarkではもはや人間が13位(2020/08現在)にまで落ちてしまっているほ

    Self-Attentionを全面的に使った新時代の画像認識モデルを解説! - Qiita
    rydot
    rydot 2020/09/09
  • 深層学習界の大前提Transformerの論文解説! - Qiita

    この例に関する質問への回答を補足の項に記載しましたので、より良い理解のためにご参照ください。 1.3 モデル構造 トランスダクションモデル(ある文章を他の文章に変換するモデル(翻訳など))において主流なのは以下のようなエンコーダ-デコーダモデルである。 エンコーダ: 入力の文 $(x_1,\ldots,x_n)$ を $\boldsymbol{z}=(z_1,\ldots,z_n)$ へ変換 デコーダ: $\boldsymbol{z}$ から単語 $(y_1,\ldots,y_m)$ を出力。 ただし、1時刻に1単語のみで、前時刻のデコーダの出力を現時刻のデコーダの入力として使う。 Transformerは基的な大枠はエンコーダ-デコーダモデルでself-attention層とPosition-wise全結合層を使用していることが特徴。 つまり、以下の3つ(+2つ)のことが分かればモデル

    深層学習界の大前提Transformerの論文解説! - Qiita
    rydot
    rydot 2020/05/30
  • 自然言語処理の王様「BERT」の論文を徹底解説 - Qiita

    オミータです。ツイッターで人工知能のことや他媒体で書いている記事など を紹介していますので、人工知能のことをもっと知りたい方などは気軽に@omiita_atiimoをフォローしてください! 2018年10月に登場して、自然言語処理でもとうとう人間を超える精度を叩き出した ことで大きな話題となったBERT。それ以降、XLNetやALBERT、DistillBERTなどBERTをベースにしたモデルが次々と登場してはSoTAを更新し続けています。その結果、GLUEベンチマークでは人間の能力が12位(2020年5月4日時点)に位置しています。BERTは登場してまだ1年半程度であるにもかかわらず、被引用数は2020年5月4日現在で4809 にも及びます。驚異的です。この記事ではそんなBERTの論文を徹底的に解説していきたいと思います。BERTの理解にはTransformer[Vaswani, A.

    自然言語処理の王様「BERT」の論文を徹底解説 - Qiita
    rydot
    rydot 2020/05/13
  • 自然言語処理の王様「BERT」の論文を徹底解説 - Qiita

    オミータです。ツイッターで人工知能のことや他媒体で書いている記事など を紹介していますので、人工知能のことをもっと知りたい方などは気軽に@omiita_atiimoをフォローしてください! 2018年10月に登場して、自然言語処理でもとうとう人間を超える精度を叩き出した ことで大きな話題となったBERT。それ以降、XLNetやALBERT、DistillBERTなどBERTをベースにしたモデルが次々と登場してはSoTAを更新し続けています。その結果、GLUEベンチマークでは人間の能力が12位(2020年5月4日時点)に位置しています。BERTは登場してまだ1年半程度であるにもかかわらず、被引用数は2020年5月4日現在で4809 にも及びます。驚異的です。この記事ではそんなBERTの論文を徹底的に解説していきたいと思います。BERTの理解にはTransformer[Vaswani, A.

    自然言語処理の王様「BERT」の論文を徹底解説 - Qiita
    rydot
    rydot 2020/05/13
  • 1