サクサク読めて、アプリ限定の機能も多数!
トップへ戻る
大阪万博
qiita.com/omiita
オミータです。ツイッターで人工知能のことや他媒体の記事など を紹介しています。 @omiita_atiimoもご覧ください! 話題爆発中のAI「ChatGPT」の仕組みにせまる! 注意:ChatGPTはまだ論文が出ていないため、細かい箇所は不明です。本記事では公式から出た記事およびInstructGPTの論文をもとにChatGPTの仕組みを探っていきます 本記事の流れ: 忙しい方へ ChatGPTとは GPT-3 InstructGPT ChatGPT まとめと所感 参考 0. 忙しい方へ ChatGPTは、InstructGPTをベースとしたモデルだよ InstructGPTは、「人間の好みに合った文を出力するように微調整したGPT-3」だよ InstructGPTの学習では、以下の3つが重要だよ GPT-3の教師ありファインチューニング Reward Modelの学習 RLHF(=Re
追記: U-Netの中間層は常にSelf-Attentionとなります。ご指摘いただきました。ありがとうございます。(コード) オミータです。ツイッターで人工知能のことや他媒体の記事など を紹介しています。 @omiita_atiimoもご覧ください! 世界に衝撃を与えた画像生成AI「Stable Diffusion」を徹底解説! 未来都市にたたずむサンタクロース(Stable Diffusionで生成) 2022年8月、世界に大きな衝撃が走りました。それは、Stable Diffusionの公開です。Stable Diffusionは、テキストを受け取るとそれに沿った画像を出力してくれるモデルです1。Stable Diffsuionは10億個近いパラメータ数をもち、およそ20億個の画像とテキストのペア(LAION-2B)で学習されています。これにより、Stable Diffusionは入
オミータです。ツイッターで人工知能や他媒体の記事など を紹介していますので、人工知能のことをもっと知りたい方などは @omiita_atiimoをご覧ください! 他にも次のような記事を書いていますので興味があればぜひ! 画像認識の大革命。AI界で話題爆発中の「Vision Transformer」を解説! 畳み込み+Attention=最強?最高性能を叩き出した画像認識モデル「CoAtNet」を解説! 帰ってきたResNet!最新の画像認識モデル「ResNet-RS」を解説! 画像生成も畳み込まない!TransformerによるGAN「TransGAN」誕生&解説! 【決定版】スーパーわかりやすい最適化アルゴリズム -損失関数からAdamとニュートン法- Vision Transformer(以下、ViT)はなぜ高い性能を叩き出せるのでしょうか。「そんなのAttentionのおかげに決まっ
1. CoAtNetの解説 1.1 畳み込みとSAの復習 コンピュータビジョンで用いられている大きな仕組みに畳み込みとSelf-Attention(=SA)があります。畳み込みではEfficientNet、SAではViTが有名ですね。EfficientNetについてはこちらの拙著記事、ViTについてはこちらの拙著記事をご参照ください。CoAtNetでは、この畳み込みとSAの良いとこ取りをしたブロックを作ることが一番の目的になっています。畳み込みとSAの式を復習しておきましょう。ここでは畳み込みの中でもDW(=Depthwise)畳み込みを取り扱います。そして、本論文では分かりやすさを優先しているのか、式の細かいところ(SAにおけるqkvの埋め込みなど)はあえて排除しているように見えるので、理解しやすいです。 1.1.1 畳み込みの式 本論文では、畳み込みの中でもDW(=Depthwise)
オミータです。ツイッターで人工知能のことや他媒体で書いている記事など を紹介していますので、人工知能のことをもっと知りたい方などは気軽に@omiita_atiimoをフォローしてください! 【決定版】スーパーわかりやすい最適化アルゴリズム 深層学習を知るにあたって、最適化アルゴリズム(Optimizer)の理解は避けて通れません。 ただ最適化アルゴリズムを理解しようとすると数式が出て来てしかも勾配降下法やらモーメンタムやらAdamやら、種類が多くあり複雑に見えてしまいます。 実は、これらが作られたのにはしっかりとした流れがあり、それを理解すれば 簡単に最適化アルゴリズムを理解することができます 。 ここではそもそもの最適化アルゴリズムと損失関数の意味から入り、最急降下法から最適化アルゴリズムの大定番のAdamそして二階微分のニュートン法まで順を追って 図をふんだんに使いながら丁寧に解説 し
オミータです。ツイッターで人工知能のことや他媒体の記事など を紹介していますので、人工知能のことをもっと知りたい方などは @omiita_atiimoをご覧ください! 他にも次のような記事を書いていますので興味があればぜひ! 2019年最強の画像認識モデルEfficientNet解説 画像認識の最新SoTAモデル「Noisy Student」を徹底解説! わずか1%のラベルでImageNet高精度「SimCLR」解説 2020年超盛り上がり!自己教師あり学習の最前線まとめ! SoTAを総なめ!衝撃のオプティマイザー「SAM」爆誕&解説! 帰ってきたResNet!最新の画像認識モデル「ResNet-RS」を解説! 2012年に登場したAlexNetが与えた衝撃に匹敵するほどの影響力を持つモデルにResNetがあります。ResNetの登場以降はWideResNetやResNeXt、DenseN
その他層の数も探索空間に入れています。ここで拡張率とは、MBConvの最初のConvでチャネル数を何倍にするかの係数のことで、こちらでより詳しく解説しています。 探索は精度$A$、ステップごとの学習時間$S$、パラメータサイズ$P$を用いて、$A\cdot S^w\cdot P^v$を最大化するように行われます。ここで$w=-0.07, v=-0.05$であり、これらの値は実験的に決定されています。 1.3.2 EfficientNetV2のアーキテクチャ 下表がEfficientNetV2のSサイズのモデルになります。 画像: "EfficientNetV2: Smaller Models and Faster Training", Tan, M., Le, Q., (2021) 比較のためにEfficientNet-B0(i.e. V1)のアーキテクチャも下に載せます。 画像: "Ef
0. 忙しい方へ CNNから完全に解放された画像生成のGANを目指したよ TransGANは生成器(G)にも識別器(D)にもTransformerのエンコーダを用いているよ TransGANで高い性能を得るには次の4つが欠かせないよ データオーギュメンテーション 超解像タスクを用いたCo-training Self-Attention(SA)の適用範囲の調整 スケールアップ STL-10では、CNNベースのGANの性能を超えState-of-the-Art(SoTA)な性能を叩き出したよ 1. TransGANの説明 1.1 Transformerエンコーダ 画像: "TransGAN: Two Transformers Can Make One Strong GAN", Jiang, Y., Chang, S., Wang, Z. (2021) TransGANはTransformerの
オミータです。ツイッターで人工知能のことや他媒体の記事など を紹介していますので、人工知能のことをもっと知りたい方などは @omiita_atiimoをご覧ください! もう2020年も終わりますね。いかがお過ごしでしょうか。私は今年を積極的にアウトプットしていく年にしていたので、深層学習の論文を可能な限り読みました(それでも略読含めて150本程度だと思いますが...)。僭越ながら、今年2020年に読んだ論文たちの中から独断と偏見に基づいて面白かった論文を10個ランキング形式にてまとめます。2020年に読んだ論文なので必ずしも2020年に発表された論文とは限りません。完全なるオレオレランキングなので画像系多めです。簡単な説明に加え論文、解説記事、実装へのリンクをそれぞれに載せましたので興味ある論文があれば是非読んでみてください!それでは第10位から早速見ていきましょう! 【第10位】: "M
0. 忙しい方へ SAMは損失が最小かつその周辺が平坦であるようなパラメータを目指すよ SAMは次の3ステップだよ パラメータ$\mathbf{w}$の周辺で最大の損失をとる$\mathbf{w+\hat{\epsilon}(w)}$を求めるよ $\mathbf{w+\hat{\epsilon}(w)}$における損失を求めるよ 2.の損失に対する勾配でパラメータ$\mathbf{w}$を更新するよ SAMは一言で言ってしまえば、「パラメータ周辺での最大の損失を求めて、それが下がる方向でパラメータを更新する」ものだよ ImageNetやCIFARを含む9つの画像分類データセットでSoTAを更新したよ ラベルへのロバスト性も高いよ 1. SAMの説明 SAMは至ってシンプルです。というのも、今までは損失が最小になるパラメータを学習させていました。ただ、SAMは損失が最小かつその周りも平坦となっ
0. 忙しい方へ Contrastive Learningにラベル情報を用いる教師ありCLを提案したよ 教師ありCLで用いる損失関数はSupCon(=Supervised Contrastive)という名前だよ 教師ありCLがクロスエントロピー損失を用いた通常の教師あり学習よりも高い性能を示したよ ImageNet/CIFAR-10/CIFAR-100の画像分類タスクでより高い分類精度を示したよ ハイパーパラメーター(e.g. 学習率)への高い安定性も示したよ ImageNet-Cへのロバスト性もより良いよ 1. 教師ありContrastive Learningの説明 1.1 Contrastive Learning 画像: "A Survey on Contrastive Self-supervised Learning", Jaiswal, A., Babu, A., Zadeh, M
オミータです。ツイッターで人工知能のことや他媒体の記事など を紹介していますので、人工知能のことをもっと知りたい方などは @omiita_atiimoをご覧ください! 他にも次のような記事を書いていますので興味があればぜひ! わずか1%のラベルでImageNet高精度「SimCLR」解説 出きたてホヤホヤ!最新オプティマイザー「AdaBelief」を解説! 画像認識の大革命。AI界で話題爆発中の「Vision Transformer」を解説! 新たな活性化関数「FReLU」誕生&解説! 自然言語処理の王様「BERT」の論文を徹底解説 2021/02/28 SimCLRのバッチサイズに関する記述を修正 2020年に大きく盛り上がりを見せた分野に自己教師あり学習(=Self-Supervised Learning(SSL))があります。SSLとは名前の通り自分で教師を用意するような手法で、デー
オミータです。ツイッターで人工知能のことや他媒体の記事など を紹介していますので、人工知能のことをもっと知りたい方などは @omiita_atiimoをご覧ください! 他にも次のような記事を書いていますので興味があればぜひ! 【2020決定版】スーパーわかりやすい最適化アルゴリズム -損失関数からAdamとニュートン法- ついにAdamを超えた!最新の最適化アルゴリズム「RAdam」解説 新たな活性化関数「FReLU」誕生&解説! 2019年最強の画像認識モデルEfficientNet解説 画像認識の大革命。AI界で話題爆発中の「Vision Transformer」を解説! 出きたてホヤホヤ!最新オプティマイザー「AdaBelief」を解説! SGD+Momentum(緑)とAdam(赤)とAdaBelief(青)の比較。青が一番早く収束していることがわかります。 "AdaBelief
UTF-16のことをUnicodeと記しているソフトウェア(Windowsのメモ帳など)もありますのでUnicodeとあったらそれはUTF-16を使って変換したものなのだな、というふうに理解してください。 そうなってしまっている理由はこちらで解説されていました。 これでUnicodeとUTF-8の違いはバッチリですね!おわり。 読んで分かりやすかったり少しでも何か学べたと思えたら いいね や コメント をもらえるとこれからの励みになります! もう少し時間がある方へ 手計算で文字をUTF-8での符号まで計算してみましょう。 理解が一気に深まります。手順は以下。 文字のコードポイントをUnicodeから見つけてくる。 コードポイントをUTF-8の方式で変換してみる。 **Omiitaの「お」**をUTF-8による符号まで変換してみます。 文字「お」のコードポイントをUnicodeから見つけてく
Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article? オミータです。ツイッターで人工知能のことや他媒体の記事など を紹介していますので、人工知能のことをもっと知りたい方などは @omiita_atiimoをご覧ください! 他にも次のような記事を書いていますので興味があればぜひ! 「募ってはいるが、募集はしていない」 人たちへ GANにもオーギュメンテーションは超有効だった!DAだけでSoTA達成した最新論文を解説! GANへの新しい正則化「ICR」が期待大な件&解説 U-Netを識別器に!新たなGAN「U-NetGAN」を解説! 画像認識の大革命。AI界で話題爆発中の「Vision Tra
0. 忙しい方へ 完全に畳み込みとさようならしてSoTA達成したよ Vision Transformerの重要なことは次の3つだよ 画像パッチを単語のように扱うよ アーキテクチャはTransformerのエンコーダー部分だよ 巨大なデータセットJFT-300Mで事前学習するよ SoTAを上回る性能を約$\frac{1}{15}$の計算コストで得られたよ 事前学習データセットとモデルをさらに大きくすることでまだまだ性能向上する余地があるよ 1. Vision Transformerの解説 Vision Transformer(=ViT)の重要な部分は次の3つです。 入力画像 アーキテクチャ 事前学習とファインチューニング それぞれについて見ていきましょう。 1.1 入力画像 まず入力画像についてです。ViTはTransformerをベースとしたモデル(というより一部を丸々使っている)ですが、
0. 忙しい方へ SLAの構成要素は次の3つだよ 結合ラベル:「元のラベル」と「適用したDA」の組み合わせを新たなラベルとしたよ アンサンブル:予測ラベルは「元の画像」と「DA適用後の画像たち」を全て考慮して出力するよ 自己蒸留:推論時にもアンサンブルの効果が得られるように、アンサンブルによる出力を模倣するような線形変換を用意するよ CIFAR10/100/TinyImageNetなど幅広いデータセットで大きなゲインを得ているよ Few-shotや不均衡データに対しても性能向上を示したよ 1. SLAの解説 SLAは、Self-Supervised Learning(=SSL)にインスピレーションを得ています。ラベル予測にはアンサンブルを用いており、また推論時のスピードを速くするために自己蒸留を用いています。SLAの説明は次の順番で行います。 Self-Supervised Learnin
(略称多すぎですね。) 0. 忙しい方へ GANにConsistency Regularizationを適用することで性能を大きく改善したよ Improved-CRは「balanced-CR + latent-CR」だよ bCRはリアル画像とフェイク画像両方にCRしたものだよ zCRはノイズ空間のCRをしたものだよ CRもICRも超絶シンプルで強力だよ CRとICRはSNとの相性が良く、他の正則化手法を大きく上回ったよ ICRはCIFAR-10(FID:9.21)とImageNet(FID:5.38)でBigGANにおけるSoTAを達成したよ "Improved Consistency Regularization for GANs", Zhao, Z., Singh, S., Lee, H., Zhang, Z., Odena, A., Zhang, H., (2020)より作成 1.
Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article? オミータです。ツイッターで人工知能のことや他媒体で書いている記事など を紹介していますので、人工知能のことをもっと知りたい方などは気軽に@omiita_atiimoをフォローしてください! 他にも次のような記事を書いていますので興味があればぜひ! GANにもオーギュメンテーションは超有効だった!DAだけでSoTA達成した最新論文を解説! 画像認識の定番データセットImageNetはもう終わりか パラメータ数10億!最新の巨大画像認識モデル「BiT」爆誕 & 解説 【基本編】画像認識に使用されるData Augmentationを一挙にま
08/31 (2020): 投稿 08/31 (2020): 「畳み込みを一切使わない」という記述に関して、ご指摘を受けましたので追記いたしました。線形変換においては「チャネル間の加重和である1x1畳み込み」を実装では用いています。 08/31 (2020): 本論文で提案されているモデルの呼称に関して認識が誤っていたためタイトルおよび文章を一部修正しました。 言葉足らずの部分や勘違いをしている部分があるかと思いますが、ご指摘等をいただけますと大変ありがたいです。よろしくお願いします!(ツイッター:@omiita_atiimo) Self-Attentionを全面的に使った新時代の画像認識モデルを解説! 近年の自然言語処理のブレイクスルーに大きく貢献したものといえば、やはりTransformerだと思います。そこからさらにBERTが生まれ、自然言語の認識能力などを測るGLUE Benchm
オミータです。ツイッターで人工知能のことや他媒体で書いている記事など を紹介していますので、人工知能のことをもっと知りたい方などは気軽に@omiita_atiimoをフォローしてください! 他にも次のような記事を書いていますので興味があればぜひ! 【2020決定版】スーパーわかりやすい最適化アルゴリズム -損失関数からAdamとニュートン法- 画像認識の定番データセットImageNetはもう終わりか パラメータ数を激減させる新しい畳み込み「MixConv」解説! 自然言語処理の王様「BERT」の論文を徹底解説 【基本編】画像認識に使用されるData Augmentationを一挙にまとめてみた! 画像認識に特化させた新たな活性化関数FReLU解説&実装! 今やあらゆる分野で驚くべき結果を残し続けているニューラルネットワークですが、そのニューラルネットに無くてはならないものこそが活性化関数で
Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article? オミータです。ツイッターで人工知能のことや他媒体で書いている記事など を紹介していますので、人工知能のことをもっと知りたい方などは気軽に@omiita_atiimoをフォローしてください! 画像認識の定番データセットImageNetはもう終わりか 2012年にAlexNet[Krizhevsky, A.(2012)]が登場してから、画像認識分野での発展は著しい。その発展を支えてきたものこそ大規模データセットImageNet[Deng, J.(2009)]である。ImageNetでSoTAを達成すると、そのモデルには最強モデルの称号が与え
結果は以下。 $\mathrm{BERT_{BASE}}$および$\mathrm{BERT_{LARGE}}$いずれもそれまでのSoTAモデルであるOpenAI GPTをはるかに凌駕しており、平均で $\mathrm{BERT_{BASE}}$は4.5 %のゲイン、$\mathrm{BERT_{LARGE}}$は7.0%もゲイン が得られた。 BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding, Devlin, J. et al. (2018) 1.4.2 SQuAD v1.1 SQuAD(Stanford Question Answering Dataset) v1.1[Rajpurkar (2016)]はQ&Aタスクで、質問文と答えを含む文章が渡され、答えがどこにあるかを予測す
Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article? オミータです。ツイッターで人工知能のことや他媒体で書いている記事など を紹介していますので、人工知能のことをもっと知りたい方などは気軽に@omiita_atiimoをフォローしてください! 最新の最適化アルゴリズムRAdam ニューラルネットワークは画像認識や自然言語処理など多方面で使われており、おもしろいことにも使うことができます。そんなニューラルネットワークが高い精度を出すためには、優秀な最適化アルゴリズムが必要不可欠です。最適化アルゴリズムとして現在デファクトスタンダードとなっているのがAdamです。Adamが登場したのは2014
Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article? CNNからバッチノーマライゼーションとその仲間たちまでを図で解説! ディープラーニングが流行するきっかけとなった分野は画像認識と言っても過言ではないでしょう。 実際にディープラーニング流行の火付け役となった2012年のAlexNetは画像分類タスクにディープラーニングを適用させて驚異的な結果を出しました。AlexNetの論文は現時点(2019年12月現在)で 被引用数 52,655を誇るバケモノ論文 になっています。このAlexNet以降で 画像認識分野で使われている技術こそがCNN(Convolutional Neural Netwo
# -*- coding:utf-8 -*- import os import urllib.request import json import configparser import codecs import csv import sys import sqlite3 from collections import namedtuple import types #/_/_/_/_/_/_/_/_/_/_/_/_/COTOHA_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/ # ここの部分のコードはこちらから取ってきています。 # https://qiita.com/gossy5454/items/83072418fb0c5f3e269f class CotohaApi: # 初期化 def __init__(self, client_id, client_secret,
# /_/_/_/_/_/_/_/_/_/_/_/_/COTOHA_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/ # ここの部分のコードはこちらから取ってきています。 # https://qiita.com/gossy5454/items/83072418fb0c5f3e269f class CotohaApi: # 初期化 def __init__(self, client_id, client_secret, developer_api_base_url, access_token_publish_url): self.client_id = client_id self.client_secret = client_secret self.developer_api_base_url = developer_api_base_url self.access_token_
次のページ
このページを最初にブックマークしてみませんか?
『@omiitaのマイページ - Qiita』の新着エントリーを見る
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く