samurairodeoのブックマーク - はてなブックマーク

話題爆発中のAI「ChatGPT」の仕組みにせまる！ - Qiita

オミータです。ツイッターで人工知能のことや他媒体の記事などを紹介しています。 @omiita_atiimoもご覧ください！話題爆発中のAI「ChatGPT」の仕組みにせまる！注意：ChatGPTはまだ論文が出ていないため、細かい箇所は不明です。本記事では公式から出た記事およびInstructGPTの論文をもとにChatGPTの仕組みを探っていきます本記事の流れ: 忙しい方へ ChatGPTとは GPT-3 InstructGPT ChatGPT まとめと所感参考 0. 忙しい方へ ChatGPTは、InstructGPTをベースとしたモデルだよ InstructGPTは、「人間の好みに合った文を出力するように微調整したGPT-3」だよ InstructGPTの学習では、以下の3つが重要だよ GPT-3の教師ありファインチューニング Reward Modelの学習 RLHF（＝Re

samurairodeo 2022/12/12

あとで読む

リンク

世界に衝撃を与えた画像生成AI「Stable Diffusion」を徹底解説！ - Qiita

追記: U-Netの中間層は常にSelf-Attentionとなります。ご指摘いただきました。ありがとうございます。（コード）オミータです。ツイッターで人工知能のことや他媒体の記事などを紹介しています。 @omiita_atiimoもご覧ください！世界に衝撃を与えた画像生成AI「Stable Diffusion」を徹底解説！未来都市にたたずむサンタクロース（Stable Diffusionで生成） 2022年8月、世界に大きな衝撃が走りました。それは、Stable Diffusionの公開です。Stable Diffusionは、テキストを受け取るとそれに沿った画像を出力してくれるモデルです1。Stable Diffsuionは10億個近いパラメータ数をもち、およそ20億個の画像とテキストのペア（LAION-2B）で学習されています。これにより、Stable Diffusionは入

samurairodeo 2022/12/06

あとで読む

リンク

プーリング層だけでも充分！？衝撃の画像認識モデルMetaFormerを解説！ - Qiita

オミータです。ツイッターで人工知能や他媒体の記事などを紹介していますので、人工知能のことをもっと知りたい方などは @omiita_atiimoをご覧ください！他にも次のような記事を書いていますので興味があればぜひ！画像認識の大革命。AI界で話題爆発中の「Vision Transf ormer」を解説！畳み込み+Attention=最強？最高性能を叩き出した画像認識モデル「CoAtNet」を解説！帰ってきたResNet！最新の画像認識モデル「ResNet-RS」を解説！画像生成も畳み込まない！Transf ormerによるGAN「TransGAN」誕生&解説！【決定版】スーパーわかりやすい最適化アルゴリズム -損失関数からAdamとニュートン法- Vision Transf ormer(以下、ViT)はなぜ高い性能を叩き出せるのでしょうか。「そんなのAttentionのおかげに決まっ

samurairodeo 2021/12/17

あとで読む

リンク

畳み込み+Attention=最強？最高性能を叩き出した画像認識モデル「CoAtNet」を解説！ - Qiita

1. CoAtNetの解説 1.1 畳み込みとSAの復習コンピュータビジョンで用いられている大きな仕組みに畳み込みとSelf-Attention(=SA)があります。畳み込みではEfficientNet、SAではViTが有名ですね。EfficientNetについてはこちらの拙著記事、ViTについてはこちらの拙著記事をご参照ください。CoAtNetでは、この畳み込みとSAの良いとこ取りをしたブロックを作ることが一番の目的になっています。畳み込みとSAの式を復習しておきましょう。ここでは畳み込みの中でもDW(=Depthwise)畳み込みを取り扱います。そして、本論文では分かりやすさを優先しているのか、式の細かいところ(SAにおけるqkvの埋め込みなど)はあえて排除しているように見えるので、理解しやすいです。 1.1.1 畳み込みの式本論文では、畳み込みの中でもDW(=Depthwise)

samurairodeo 2021/11/17

あとで読む

リンク

【決定版】スーパーわかりやすい最適化アルゴリズム -損失関数からAdamとニュートン法- - Qiita

オミータです。ツイッターで人工知能のことや他媒体で書いている記事などを紹介していますので、人工知能のことをもっと知りたい方などは気軽に@omiita_atiimoをフォローしてください！深層学習を知るにあたって、最適化アルゴリズム(Optimizer)の理解は避けて通れません。ただ最適化アルゴリズムを理解しようとすると数式が出て来てしかも勾配降下法やらモーメンタムやらAdamやら、種類が多くあり複雑に見えてしまいます。実は、これらが作られたのにはしっかりとした流れがあり、それを理解すれば簡単に最適化アルゴリズムを理解することができます。ここではそもそもの最適化アルゴリズムと損失関数の意味から入り、最急降下法から最適化アルゴリズムの大定番のAdamそして二階微分のニュートン法まで順を追って図をふんだんに使いながら丁寧に解説していきます。それでは早速最適化アルゴリズムとは何

samurairodeo 2021/07/16

リンク

自然言語処理の王様「BERT」の論文を徹底解説 - Qiita

オミータです。ツイッターで人工知能のことや他媒体で書いている記事などを紹介していますので、人工知能のことをもっと知りたい方などは気軽に@omiita_atiimoをフォローしてください！ 2018年10月に登場して、自然言語処理でもとうとう人間を超える精度を叩き出したことで大きな話題となったBERT。それ以降、XLNetやALBERT、DistillBERTなどBERTをベースにしたモデルが次々と登場してはSoTAを更新し続けています。その結果、GLUEベンチマークでは人間の能力が12位(2020年5月4日時点)に位置しています。BERTは登場してまだ1年半程度であるにもかかわらず、被引用数は2020年5月4日現在で4809 にも及びます。驚異的です。この記事ではそんなBERTの論文を徹底的に解説していきたいと思います。BERTの理解にはTransf ormer[Vaswani, A.

samurairodeo 2021/07/14

リンク

2021年最強になるか！？最新の画像認識モデルEfficientNetV2を解説 - Qiita

その他層の数も探索空間に入れています。ここで拡張率とは、MBConvの最初のConvでチャネル数を何倍にするかの係数のことで、こちらでより詳しく解説しています。探索は精度$A$、ステップごとの学習時間$S$、パラメータサイズ$P$を用いて、$A\cdot S^w\cdot P^v$を最大化するように行われます。ここで$w=-0.07, v=-0.05$であり、これらの値は実験的に決定されています。 1.3.2 EfficientNetV2のアーキテクチャ下表がEfficientNetV2のSサイズのモデルになります。画像: "EfficientNetV2: Smaller Models and Faster Training", Tan, M., Le, Q., (2021) 比較のためにEfficientNet-B0(i.e. V1)のアーキテクチャも下に載せます。画像: "Ef

samurairodeo 2021/04/14

あとで読む

リンク

SoTAを総なめ！衝撃のオプティマイザー「SAM」爆誕&解説！ - Qiita

0. 忙しい方へ SAMは損失が最小かつその周辺が平坦であるようなパラメータを目指すよ SAMは次の3ステップだよパラメータ$\mathbf{w}$の周辺で最大の損失をとる$\mathbf{w+\hat{\epsilon}(w)}$を求めるよ $\mathbf{w+\hat{\epsilon}(w)}$における損失を求めるよ 2.の損失に対する勾配でパラメータ$\mathbf{w}$を更新するよ SAMは一言で言ってしまえば、「パラメータ周辺での最大の損失を求めて、それが下がる方向でパラメータを更新する」ものだよ ImageNetやCIFARを含む9つの画像分類データセットでSoTAを更新したよラベルへのロバスト性も高いよ 1. SAMの説明 SAMは至ってシンプルです。というのも、今までは損失が最小になるパラメータを学習させていました。ただ、SAMは損失が最小かつその周りも平坦となっ

samurairodeo 2021/01/05

あとで読む

リンク

2020年をおさらい！オレオレ深層学習論文ベスト10！ - Qiita

オミータです。ツイッターで人工知能のことや他媒体の記事などを紹介していますので、人工知能のことをもっと知りたい方などは @omiita_atiimoをご覧ください！もう2020年も終わりますね。いかがお過ごしでしょうか。私は今年を積極的にアウトプットしていく年にしていたので、深層学習の論文を可能な限り読みました(それでも略読含めて150本程度だと思いますが...)。僭越ながら、今年2020年に読んだ論文たちの中から独断と偏見に基づいて面白かった論文を10個ランキング形式にてまとめます。2020年に読んだ論文なので必ずしも2020年に発表された論文とは限りません。完全なるオレオレランキングなので画像系多めです。簡単な説明に加え論文、解説記事、実装へのリンクをそれぞれに載せましたので興味ある論文があれば是非読んでみてください！それでは第10位から早速見ていきましょう！【第10位】: "M

samurairodeo 2020/12/22

リンク

画像認識の大革命。AI界で話題爆発中の「Vision Transformer」を解説！ - Qiita

0. 忙しい方へ完全に畳み込みとさようならしてSoTA達成したよ Vision Transf ormerの重要なことは次の3つだよ画像パッチを単語のように扱うよアーキテクチャはTransf ormerのエンコーダー部分だよ巨大なデータセットJFT-300Mで事前学習するよ SoTAを上回る性能を約$\frac{1}{15}$の計算コストで得られたよ事前学習データセットとモデルをさらに大きくすることでまだまだ性能向上する余地があるよ 1. Vision Transf ormerの解説 Vision Transf ormer(=ViT)の重要な部分は次の3つです。入力画像アーキテクチャ事前学習とファインチューニングそれぞれについて見ていきましょう。 1.1 入力画像まず入力画像についてです。ViTはTransf ormerをベースとしたモデル(というより一部を丸々使っている)ですが、

samurairodeo 2020/10/28

リンク

画像認識の大革命。AI界で話題爆発中の「Vision Transformer」を解説！ - Qiita

0. 忙しい方へ完全に畳み込みとさようならしてSoTA達成したよ Vision Transf ormerの重要なことは次の3つだよ画像パッチを単語のように扱うよアーキテクチャはTransf ormerのエンコーダー部分だよ巨大なデータセットJFT-300Mで事前学習するよ SoTAを上回る性能を約$\frac{1}{15}$の計算コストで得られたよ事前学習データセットとモデルをさらに大きくすることでまだまだ性能向上する余地があるよ 1. Vision Transf ormerの解説 Vision Transf ormer(=ViT)の重要な部分は次の3つです。入力画像アーキテクチャ事前学習とファインチューニングそれぞれについて見ていきましょう。 1.1 入力画像まず入力画像についてです。ViTはTransf ormerをベースとしたモデル(というより一部を丸々使っている)ですが、

samurairodeo 2020/10/12

あとで読む

リンク

深層学習界の大前提Transformerの論文解説！ - Qiita

この例に関する質問への回答を補足の項に記載しましたので、より良い理解のためにご参照ください。 1.3 モデル構造トランスダクションモデル(ある文章を他の文章に変換するモデル(翻訳など))において主流なのは以下のようなエンコーダ-デコーダモデルである。エンコーダ: 入力の文 $(x_1,\ldots,x_n)$ を $\boldsymbol{z}=(z_1,\ldots,z_n)$ へ変換デコーダ: $\boldsymbol{z}$ から単語 $(y_1,\ldots,y_m)$ を出力。ただし、1時刻に1単語のみで、前時刻のデコーダの出力を現時刻のデコーダの入力として使う。 Transf ormerは基本的な大枠はエンコーダ-デコーダモデルでself-attention層とPosition-wise全結合層を使用していることが特徴。つまり、以下の3つ(+2つ)のことが分かればモデル

samurairodeo 2020/09/01

あとで読む

リンク

Self-Attentionを全面的に使った新時代の画像認識モデルを解説！ - Qiita

08/31 (2020): 投稿 08/31 (2020): 「畳み込みを一切使わない」という記述に関して、ご指摘を受けましたので追記いたしました。線形変換においては「チャネル間の加重和である1x1畳み込み」を実装では用いています。 08/31 (2020): 本論文で提案されているモデルの呼称に関して認識が誤っていたためタイトルおよび文章を一部修正しました。言葉足らずの部分や勘違いをしている部分があるかと思いますが、ご指摘等をいただけますと大変ありがたいです。よろしくお願いします！(ツイッター:@omiita_atiimo) 近年の自然言語処理のブレイクスルーに大きく貢献したものといえば、やはりTransf ormerだと思います。そこからさらにBERTが生まれ、自然言語の認識能力などを測るGLUE Benchmarkではもはや人間が13位(2020/08現在)にまで落ちてしまっているほ

samurairodeo 2020/08/31

あとで読む

リンク

新たな活性化関数「FReLU」誕生&解説！ - Qiita

オミータです。ツイッターで人工知能のことや他媒体で書いている記事などを紹介していますので、人工知能のことをもっと知りたい方などは気軽に@omiita_atiimoをフォローしてください！他にも次のような記事を書いていますので興味があればぜひ！【2020決定版】スーパーわかりやすい最適化アルゴリズム -損失関数からAdamとニュートン法- 画像認識の定番データセットImageNetはもう終わりかパラメータ数を激減させる新しい畳み込み「MixConv」解説！自然言語処理の王様「BERT」の論文を徹底解説【基本編】画像認識に使用されるData Augmentationを一挙にまとめてみた！画像認識に特化させた新たな活性化関数FReLU解説&実装！今やあらゆる分野で驚くべき結果を残し続けているニューラルネットワークですが、そのニューラルネットに無くてはならないものこそが活性化関数で

samurairodeo 2020/08/19

あとで読む

リンク

【決定版】スーパーわかりやすい最適化アルゴリズム -損失関数からAdamとニュートン法- - Qiita

オミータです。ツイッターで人工知能のことや他媒体で書いている記事などを紹介していますので、人工知能のことをもっと知りたい方などは気軽に@omiita_atiimoをフォローしてください！深層学習を知るにあたって、最適化アルゴリズム(Optimizer)の理解は避けて通れません。ただ最適化アルゴリズムを理解しようとすると数式が出て来てしかも勾配降下法やらモーメンタムやらAdamやら、種類が多くあり複雑に見えてしまいます。実は、これらが作られたのにはしっかりとした流れがあり、それを理解すれば簡単に最適化アルゴリズムを理解することができます。ここではそもそもの最適化アルゴリズムと損失関数の意味から入り、最急降下法から最適化アルゴリズムの大定番のAdamそして二階微分のニュートン法まで順を追って図をふんだんに使いながら丁寧に解説していきます。それでは早速最適化アルゴリズムとは何

samurairodeo 2020/08/05

あとで読む

リンク

画像認識の定番データセットImageNetはもう終わりか - Qiita

オミータです。ツイッターで人工知能のことや他媒体で書いている記事などを紹介していますので、人工知能のことをもっと知りたい方などは気軽に@omiita_atiimoをフォローしてください！ 2012年にAlexNet[Krizhevsky, A.(2012)]が登場してから、画像認識分野での発展は著しい。その発展を支えてきたものこそ大規模データセットImageNet[Deng, J.(2009)]である。ImageNetでSoTAを達成すると、そのモデルには最強モデルの称号が与えられると言っても過言ではない。2020年6月にGoogle Brainによって出されたこの論文は、そんな当たり前に使われてきたImageNetデータセットに対して疑問符を叩きつけるものとなっている。現存のImageNetでの性能評価が必ずしも正しいのだろうか。この論文を通してその答えを探しにいく。本論文で使われて

samurairodeo 2020/08/04

リンク

自然言語処理の王様「BERT」の論文を徹底解説 - Qiita

オミータです。ツイッターで人工知能のことや他媒体で書いている記事などを紹介していますので、人工知能のことをもっと知りたい方などは気軽に@omiita_atiimoをフォローしてください！ 2018年10月に登場して、自然言語処理でもとうとう人間を超える精度を叩き出したことで大きな話題となったBERT。それ以降、XLNetやALBERT、DistillBERTなどBERTをベースにしたモデルが次々と登場してはSoTAを更新し続けています。その結果、GLUEベンチマークでは人間の能力が12位(2020年5月4日時点)に位置しています。BERTは登場してまだ1年半程度であるにもかかわらず、被引用数は2020年5月4日現在で4809 にも及びます。驚異的です。この記事ではそんなBERTの論文を徹底的に解説していきたいと思います。BERTの理解にはTransf ormer[Vaswani, A.

samurairodeo 2020/05/04

あとで読む

リンク

ついにAdamを超えた！最新の最適化アルゴリズム「RAdam」解説 - Qiita

オミータです。ツイッターで人工知能のことや他媒体で書いている記事などを紹介していますので、人工知能のことをもっと知りたい方などは気軽に@omiita_atiimoをフォローしてください！最新の最適化アルゴリズムRAdam ニューラルネットワークは画像認識や自然言語処理など多方面で使われており、おもしろいことにも使うことができます。そんなニューラルネットワークが高い精度を出すためには、優秀な最適化アルゴリズムが必要不可欠です。最適化アルゴリズムとして現在デファクトスタンダードとなっているのがAdamです。Adamが登場したのは2014年のことですが、そこからAdamに取って代わるような最適化アルゴリズムは久しく出ていません。そんな現状をとうとう変えると期待されている新しい最適化アルゴリズムの論文が国際学会ICLR2020に採択されました。その名もRectified Adam、通称RAda

samurairodeo 2020/03/03

あとで読む

リンク

パラメータ数10億！最新の巨大画像認識モデル「BiT」爆誕 & 解説 - Qiita

オミータです。ツイッターで人工知能のことや他媒体で書いている記事などを紹介していますので、人工知能のことをもっと知りたい方などは気軽に@omiita_atiimoをフォローしてください！ 2019年12月24日のクリスマスイブにarxiv上でGoogle Brainから新たな画像認識モデルが発表されました。その名も BiT(=Big Transfer)。その性能は2019年にGoogleが出したEfficientNet(拙著解説記事)を様々なデータセットで超えるほどで現在のState-of-The-Art になっています。驚くべきはそれだけでなく、なんとこのモデル、パラメータ数が10億にもおよぶ巨大なモンスターモデルになっています。そんなBiTについて早速この記事で解説していきたいと思います。バッチノームやドロップアウト、Weight Decayなどを使用していないという、今までの画

samurairodeo 2020/01/15

あとで読む

リンク

2019年最強の画像認識モデルEfficientNet解説 - Qiita

GPipeは大きすぎてハードウェアのメモリに限界がきてしまっている。そのため、効率的なモデルが求められる。 2.2 ConvNetの効率性モデル圧縮やハンドクラフトによる効率的なモデル作成などがあったが、近年ではNAS(=Neural Architecture Search)によるモデル作成が性能が良く、流行っている。この論文ではモデルの広さ、深さ、解像度をいじるモデルスケーリングを使ってConvNetの効率性を高める。 3. Compound Model Scaling(複合モデルスケーリング) 3.1 問題の定式化繰り返しになるが、モデルスケーリングはあくまで広さ、深さ、解像度を変えるだけで、レイヤーのアーキテクチャを変えたりはしない。そのため、いじるのは広さ、深さ、解像度だけで良くなるが、全てのレイヤーでそれらを最適な値にするのはまだ候補が多すぎるため、この論文では、全て

samurairodeo 2019/11/09

リンク

はてなブックマーク

タグ

ブックマーク / qiita.com/omiita (20)

お知らせ

今週のはてなブックマーク数ランキング（2024年8月第2週）

今週のはてなブックマーク数ランキング（2024年8月第1週）

月間はてなブックマーク数ランキング（2024年7月）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス