追記: U-Netの中間層は常にSelf-Attentionとなります。ご指摘いただきました。ありがとうございます。(コード) オミータです。ツイッターで人工知能のことや他媒体の記事など を紹介しています。 @omiita_atiimoもご覧ください! 世界に衝撃を与えた画像生成AI「Stable Diffusion」を徹底解説! 未来都市にたたずむサンタクロース(Stable Diffusionで生成) 2022年8月、世界に大きな衝撃が走りました。それは、Stable Diffusionの公開です。Stable Diffusionは、テキストを受け取るとそれに沿った画像を出力してくれるモデルです1。Stable Diffsuionは10億個近いパラメータ数をもち、およそ20億個の画像とテキストのペア(LAION-2B)で学習されています。これにより、Stable Diffusionは入
こんにちは、852話です。 世でAI画像生成サービスが騒がれ、一旦瞬間最大風速を超えたかなと思う最近ですが、改めて『全くAI画像生成に触れてきてないけど、今から触ってみたい』という人向けの記事を書きます。 記事は ・パソコンを持っていなくても気軽に初められる ・英語がわからなくてもなんとかなる ・無料で体験できる ・もっとカッコいいものを作りたい時 などを書きました。 今現在AIに触れている方向けの記事はまた次の機会にアップします。 ・そもそもAI画像生成って何?この項目は区別がつかなかったりしても大丈夫ですし読み飛ばしても構いません。 現在話題になっているAIでの画像生成サービスの機能は、 「文章から画像を出力する」 text to image→通称t2i 「画像を指定して画像を出力する」 image to image→通称i2i の二種類がメインです。 サービス自体はDALL-E、Mi
深層学習をまじめにやるなら、どう考えても専用のPCが必要になる。 僕は現在、Memeplexというサービスを運営していて、これはさくらインターネットさんから大量のGPUを借りている。借りたGPUは、さくらインターネットの石狩データセンターで動いている。 さらに、ABCIは企画の段階から立ち会って、実際に仕事ではよく使っている。ABCIは5000以上のGPUを擁するGPUクラウド基盤で、その実態はスーパーコンピュータである。 ABCIを使えば、ほとんどの難しいタスクを恐ろしく安い料金で行うことができる。GoogleやAmazon AWSのようなサービスを展開することができない本邦においては、国家が設立し、民間利用可能なABCIは国民にとっての天叢雲剣あめのむらくものつるぎである。 それでもなお、手元には深層学習用のPCが必要だ。しかも一台では足りない。 ABCIがいかに安くても、PCほどの利
文章を入力するだけで好みの画像を生成できるAI「Stable Diffusion」には、画像の続きを描画する「アウトペインティング」や、画像の一部を生成画像で置き換える「インペインティング」などの機能も搭載されています。そんなアウトペインティングやインペインティングを直感的に利用できるようにしたUI「Hua」が公開されていたので、実際にHuaを用いて画像を生成する手順をまとめてみました。 GitHub - BlinkDL/Hua: Hua is an AI image editor with Stable Diffusion (and more). https://github.com/BlinkDL/Hua Huaは、Stable Diffusionの高機能UI「Stable Diffusion web UI(AUTOMATIC1111版)」と連携させて使えるUIです。Stable Di
画像生成AI「Stable Diffusion」はあらかじめ学習したデータセットを基にして、プロンプトあるいは呪文と呼ばれる入力文字列に沿った画像を自動で生成します。そのStable DiffusionのAIモデルに画像を追加で学習させる「Dream Booth」という手法があるのですが、コマンド入力による操作が必要で、演算処理に何十GBものVRAMを必要としました。しかし、Dream BoothをGUIで、しかもNVIDIA製グラボであれば10GB程度の環境でも使える「Dreambooth Gui」がリリースされたので、実際に使ってみました。 GitHub - smy20011/dreambooth-gui https://github.com/smy20011/dreambooth-gui Dreambooth Guiを使うためにはDockerとWSL2のインストールが必要となります。
NovelAIを用いて出力した画像の枚数が気がつくと2万枚を超えていたので、振り返りがてら画像を見返していた。 黒に輝く#NovelAI #NovelAIDiffusion pic.twitter.com/TrB3FBYjXV — sabakichi|Domain ✍︎ (@knshtyk) October 19, 2022 自分でも驚いたのだが、サービスを触りはじめた10/4から10/24現在に至るまで、わずか20日間のうちに2万枚にもおよぶ「一定の表現能力を持った個別の画像」(これをイラストレーションと呼ぶべきか否かはさておき)が、たった一人の人間によって生成されたというのは脅威的なことだろう。人類の歴史を振り返っても類似の現象は見当たらないのではないか。 近い感性としては、やはり歴史的には写真技術とGenerative Art、デザインや設計に用いられているComputational
近年、文章(プロンプト)を入力するだけで画像を生成してくれるAIに大きな注目が集まっており、有志の開発によって誰でも簡単に画像生成AIを利用できる状況が整いつつあります。しかし、プロンプトは基本的に英語で入力する必要があるため、英語が苦手な人にとっては扱いにくく感じます。そんな中、高品質なアニメ画像を出力できる画像生成AI「NovelAI」向けに、生成したい画像の特徴を選択するだけでプロンプトを作成してくれる日本語ウェブアプリ「Magic Generator」が公開されました。 Magic Generator https://magic-generator.herokuapp.com/ ◆画像の特徴を選択してプロンプトを生成 Magic Generatorでは、日本語で記されている「イラストの特徴」を選択することで、英語のプロンプトを作成できます。まずは、「おすすめプリセット」に含まれる「
Just another blog about manga, anime, video games, models, and the life of Dan Kanemitsu. NovelAI Stable Diffusion Midjourney 画像:2022年10月の段階で三つの作画AIに「女の子、キツネ耳、白耳、白尻尾、ぴっちりボディスーツ、だぼだぼジャケット、秋葉原、夜の街、雨、路面に反射」などと入力した出力した結果。絵柄は指定しておらずそれぞれの作画AIのデフォルトスタイルである。 ■今回の騒動の背景を少々…… 作画AIが及ぼす影響について日本のクリエーターや受け手側の間でかなり憂慮する声が広がっています。この10年、機械学習の躍進とそれが社会に及ぼした影響はすさまじいの一言としか言いようがないと思います。機械翻訳の質が飛躍的に向上したことによって一般的な会話であれば機械によ
話題のAI画像生成で動画を変換してみました。Stable Diffusion(AUTOMATIC1111)を魔改造してmovie2movie(動画→動画)変換してます。不安定に見えますが、試行錯誤を経てだいぶ絵っぽく見えてきてます。ただ迫真空手部しか変換してみてないので、今後色々やってみようかと思います。元動画の解像度が低いからか元とかけ離れた画像を生成しまくって、調整すっげぇキツかったゾ...。▼実現方法1. 動画→フレーム出力2. フレームをSwinIRで4倍高解像度化3. ポスタリゼーションをかけて境界をくっきりさせてみました(階調は10弱、ですかね...)4. 画像を512px * 512px にリサイズ5. img2img変換(余力があればここでもう一回高解像度化してみても良いかも。)6. フレーム→動画出力※プロンプトはシーン毎に少しずつ変えてみてます。すべてpythonで自動
【10/18 翻訳完了】 ※StableDiffusion記法で書かれたプロンプトについて、()は{}に(5%強調)、{}は[]に(-5%強調)置換しています(NovelAI用)。また、NovelAIのプロンプトのプリセット機能はオフにしてお試しください。 Twitter (@31pi_) もフォローして頂けるとうれしいです。(間違い等あればこっそり教えてください) 元素法典 The Code of Quintessence ―― Novel AI 魔術全集 ―― 序文『元素法典』は、全ての高品質な術式と〈元素魔術〉を含めることを目的とする魔導書である。〈元素魔術〉とは、特に「商業イラストレベルの表現力を追求した」美しい絵を指す。 本書は、すべての人に開かれた書物である。したがって、聡明な読者諸君らの編み出した魔術の寄稿を歓迎する。 本書には、膨大な術式と豊富な挿絵が含まれている。その中か
概要DreamBoothとは追加学習することで、AI(StableDiffusion)で特定のキャラや物を描くためのモデル(データ)作るツールです。 例えば、ドラゴンクエスト10オンラインというゲームのアンルシアというキャラがいます。 ドラゴンクエスト10のアンルシア 公式サイトより引用 https://hiroba.dqx.jp/sc/election/queen2021/vote/confirm/1/nologinこのキャラの画像を18枚ほどAIに読み込ませ、追加学習し、AIに描かせた絵が以下の絵になります。 これ見ると、単なる髪型や顔が似ているレベルではなく、服の模様レベルまで再現できている事がわかります。 今までStableDiffusionの欠点として、同じキャラを安定して描くのが苦手というのがありましたが、DreamBoothを使うことで克服することが出来ます。 これにより、A
「CPU最強 vs. GPU最強」──進化する将棋AIのいま プロに勝利した「Ponanza」から「水匠」「dlshogi」まで:プロ棋士向け最強将棋AIマシンを組む!(1/4 ページ) 将棋のプロ棋士である広瀬章人八段向けに「最強の将棋AIマシン」を組むべく奔走する本連載。前回は、プロ棋士の間でコンピュータを使った研究が本格化していること、必要な演算装置には多コアCPUである米AMDの「Ryzen Threadripper」や並列計算の多いAI処理に向いたGPUがあることを紹介した。 今回注目するのは、「CPU計算による将棋ソフト」と「GPU計算による将棋ソフト」のいまの実力と、それにつながる技術的な変遷についてだ。 コンピュータ将棋がプロに勝った日 その技術は“AIブーム”にあらず コンピュータ将棋の歴史は長く、コンピュータ将棋協会が主催する「世界コンピュータ将棋選手権」の第1回は19
イントロ「実験室内で培養した人の「ミニ脳」にゲームをプレイさせることに成功、AIよりも速いわずか5分で習得」というニュースが話題になっています。 脳細胞をトレーの中で人工培養させて、その細胞に卓球ゲームの「Pong」をプレイさせたところ、たった5分で学習し、ラリーが続くようになったと報告されています。まるで、マトリックスの映画のようで、この技術を使った未来がワクワクすると同時にちょっと怖くもあります。一体、どんな技術を使って、脳細胞に卓球ゲームを学習させたのでしょうか。このニュースを取り上げている記事は多かったのですが、中身の仕組みについて解説している記事は多くありませんでした。そこで、このブログ記事では、ミニ脳にゲームを学習させた仕組みを自分の勉強がてらに、備忘録的にざっくりとまとめたいと思います。(そのため、自分の理解や記述が間違っている箇所があるかもしれません。もしありましたらお知ら
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く