並び順

ブックマーク数

期間指定

  • から
  • まで

1 - 40 件 / 193件

新着順 人気順

U-Netの検索結果1 - 40 件 / 193件

  • 世界に衝撃を与えた画像生成AI「Stable Diffusion」を徹底解説! - Qiita

    追記: U-Netの中間層は常にSelf-Attentionとなります。ご指摘いただきました。ありがとうございます。(コード) オミータです。ツイッターで人工知能のことや他媒体の記事など を紹介しています。 @omiita_atiimoもご覧ください! 世界に衝撃を与えた画像生成AI「Stable Diffusion」を徹底解説! 未来都市にたたずむサンタクロース(Stable Diffusionで生成) 2022年8月、世界に大きな衝撃が走りました。それは、Stable Diffusionの公開です。Stable Diffusionは、テキストを受け取るとそれに沿った画像を出力してくれるモデルです1。Stable Diffsuionは10億個近いパラメータ数をもち、およそ20億個の画像とテキストのペア(LAION-2B)で学習されています。これにより、Stable Diffusionは入

      世界に衝撃を与えた画像生成AI「Stable Diffusion」を徹底解説! - Qiita
    • なぜGoogle Meetの背景ぼかしが最強なのか(一般公開版)

      はじめに 最近ついに、Google Meet に背景ぼかし機能が利用可能になりましたよね。日本語だとインプレスのケータイ Watchの記事などで紹介されてます。確か 2020 年 9 月末前後で順次リリースされていたと記憶しています。 このときは「背景ぼかし」の機能しかなかったのですが、最近(私が気づいたのは 2020/10/30)更にアップデートされました。アップデートで「背景差し替え」機能が付いて、ぼかし機能もぼかし効果が強弱 2 つから選べるようになりました。まだ日本語のニュース記事は見てないですが、Googleによるアップデートの発表はちゃんとされています。 そして、Google AI Blog でBackground Features in Google Meet, Powered by Web MLという記事が公開され、実装についての解説がされました。 この記事はその解説記事を

        なぜGoogle Meetの背景ぼかしが最強なのか(一般公開版)
      • 声を“匿名化”するシステム「V-CLOAK」 人間っぽさを残した声に変換、声紋の個人情報漏えいを防ぐ

        Innovative Tech: このコーナーでは、テクノロジーの最新研究を紹介するWebメディア「Seamless」を主宰する山下裕毅氏が執筆。新規性の高い科学論文を山下氏がピックアップし、解説する。 中国のZhejiang UniversityとWuhan Universityの研究チームが発表した論文「V-CLOAK: Intelligibility-, Naturalness- & Timbre-Preserving Real-Time Voice Anonymization」は、音声の明瞭性と自然性、音色を保持したまま、リアルタイムに音声を匿名化するシステムを提案した研究報告だ。機械的な声ではなく人間っぽさを残した声に変換し、声紋から個人が特定されることを防ぐ。 声紋は、個人を一意に特定できる重要なバイオメトリクスだ。一方でオンラインサービスによって膨大な音声データを収集・処理で

          声を“匿名化”するシステム「V-CLOAK」 人間っぽさを残した声に変換、声紋の個人情報漏えいを防ぐ
        • 機械学習の全体像をまとめてみた

          教師あり学習 概要 入力値から何かしらの予測をしたい場合を考えます. 予測する対象の正解データが事前に得られる場合、 入力値から正解データを出力するモデルを学習する手法を教師あり学習と言います. 主なタスク 何を入力して、何を出力するかでタスクが分類されます. 代表的なものに以下が挙げられます 時系列予測: 現在以前の時系列データ ⇒ 未来の時系列データ 画像分類: 画像 ⇒ ラベル 物体検出: 画像 ⇒ 物の位置と種類 セグメンテーション: 画像をピクセル単位で分割 文章分類: 文章 ⇒ ラベル 機械翻訳: ある言語の文章 ⇒ 別の言語の文章 時系列予測 現在以前のデータから将来のデータを予測します. 実用例 株価予測 災害予測 自動車の事故防止システム 主要なアルゴリズム 自己回帰モデル(AR・MA・ARMA・ARIMA) 時系列間の関係を数学的に定量化、モデル化する. 周期性のあるデ

            機械学習の全体像をまとめてみた
          • NovelAI Improvements on Stable Diffusion

            As part of the development process for our NovelAI Diffusion image generation models, we modified the model architecture of Stable Diffusion and its training process. These changes improved the overall quality of generations and user experience and better suited our use case of enhancing storytelling through image generation. In this blog post, we’d like to give a technical overview of some of the

              NovelAI Improvements on Stable Diffusion
            • 画像生成AI「Stable Diffusion」を使いこなすために知っておくと理解が進む「どうやって絵を描いているのか」をわかりやすく図解

              2022年8月に無料で一般公開された画像生成AI「Stable Diffusion」は、NVIDIA製GPUを搭載したCPUあるいはGoogle Colaboratoryのようなオンライン実行環境を整えれば、任意の文字列や誰でも画像を生成することができます。そんなStable Diffusionがどのようにして画像を生成しているのかについて、AIについてTwitterで解説を行うAI Pubが説明しています。 // Stable Diffusion, Explained // You've seen the Stable Diffusion AI art all over Twitter. But how does Stable Diffusion _work_? A thread explaining diffusion models, latent space representati

                画像生成AI「Stable Diffusion」を使いこなすために知っておくと理解が進む「どうやって絵を描いているのか」をわかりやすく図解
              • 画像生成AIのStable Diffusionをインストール不要でブラウザから動作可能な「Web Stable Diffusion」が登場

                画像生成AIのStable Diffusionを動かすには十分な性能のGPUとVRAMが求められるため、ハイスペックなPCやワークステーションを使うか、あるいはGPUサーバーにアクセスして演算リソースを借りる必要があります。エンジニア向けに機械学習の講義を配信しているMachine Learning Compilationが、サーバーのサポートを必要とせずにブラウザ内でStable Diffusionを実行できる「Web Stable Diffusion」を公開しています。 WebSD | Home https://mlc.ai/web-stable-diffusion/ Web Stable Diffusionはデモ版が公開されていますが、記事作成時点ではM1あるいはM2搭載のMacでのみ動作が確認されています。今回はM1搭載iMac(8コアCPU・8コアGPU・256GBストレージ・R

                  画像生成AIのStable Diffusionをインストール不要でブラウザから動作可能な「Web Stable Diffusion」が登場
                • アップルがマルチモーダル大規模言語モデル「Ferret」を公開。画像内の形や場所を言葉で説明(生成AIウィークリー) | テクノエッジ TechnoEdge

                  2014年から先端テクノロジーの研究を論文単位で記事にして紹介しているWebメディアのSeamless(シームレス)を運営し、執筆しています。 1週間分の生成AI関連論文の中から重要なものをピックアップし、解説をする連載です。第16回目はアップルが初登場。マルチモーダルのLLM「Ferret」を投入しました。合わせて5つの論文をまとめました。 生成AI論文ピックアップ画像内の形や場所を言葉で説明するAI「Ferret」 Apple含む研究者らが開発 画像から高品質なコードを生成できるオープンソースのAIモデル「LLaVA-1.5」 Microsoft含む研究者らが開発 低解像度画像の学習だけで、高品質な高解像度画像(4K)を生成 中国テンセント含む研究者ら「ScaleCrafter」開発 ブラウザ上で可能 5枚ほどの顔写真からAI顔写真を生成するWebUIプラグイン「EasyPhoto」

                    アップルがマルチモーダル大規模言語モデル「Ferret」を公開。画像内の形や場所を言葉で説明(生成AIウィークリー) | テクノエッジ TechnoEdge
                  • 熊森協会×EM菌、コラボでナラ枯れ対策? - 紺色のひと

                    熊森協会は主たる活動「どんぐり運び」の理由付けのひとつに、ナラ枯れによる森林の衰退や山の餌不足を主張しています。 熊森協会と、ニセ科学として例示されることの多い「EM菌」とのコラボによるナラ枯れ対策が行われるかもしれないとのことで、懸念しています。私の考えを書いてみました。 熊森協会とEM菌のコラボ 経緯 2020年10月末、熊森協会HPに「ナラ枯れ防止策を求めて、比嘉照夫先生を訪問」との文言がありました。*1 熊森協会からは本件についての続報がありませんでしたが、比嘉氏が理事長を務める地球環境共生ネットワークの会報において、2021年1月25日で以下のような発表がありました。経緯について詳しくは存じませんが、文脈からは熊森協会からアプローチしたのではないかと思われます。 「U-net通信」第113号(1月5日)(リンク先pdf) 先日、一般財団法人日本熊森協会との色々な話し合いがあった。

                      熊森協会×EM菌、コラボでナラ枯れ対策? - 紺色のひと
                    • 画像ディープラーニングの始め方(画像系AIの概要理解からUdemy受講, E資格取得まで) - Qiita

                      本記事の目的 もともと本業でデータサイエンスやディープラーニングを扱っていたわけでもなく、ディープラーニング周りは「なんとなく知っている」という状態。ちゃんと勉強したいと思いながらもなかなか手が出ず、モデル実装の経験もない。 上記の状態から、この1年間くらいでやっと、初めてディープラーニング実装の経験をするところまでたどり着いた。とりあえずデータサイエンスの入口に立てた(かもしれない)ということで、整理のためここまで取り組んできたことをまとめてみた。 これから勉強を始める、誰かのために役立てば嬉しい。 <画像ディープラーニングの始め方> ◇ ステップ1. 画像系AIの全体像を把握する ◇ ステップ2. 画像分類を実装してみる ◇ ステップ3. 理論をフォローアップする ◇ ステップ4. 実装の経験を積む ステップ1.画像系AIの全体像を把握する とりあえず初心者向けの書籍や動画などを見て全

                        画像ディープラーニングの始め方(画像系AIの概要理解からUdemy受講, E資格取得まで) - Qiita
                      • “革命”起こした画像生成AIに暗雲 「Stable Diffusion 3 Medium」の厳しい船出 (1/4)

                        6月12日、Stability AIの画像生成AI「Stable Diffusion 3 Medium(SD3M)」が公開されました。Stability AIは安定的な収益につながるビジネスモデルの構築に課題を抱えており、最新シリーズ「Stable Diffusion 3(SD3)」をどう位置づけるかが生命線と思われます。そこで、有料APIの使用が必須という形で性能の高い「Stable Diffusion 3 Large(SD3L)」を先行リリースしていました。SD3を「オープン化する」とX上で発言していた創業者のEmad Mostaque氏が4月にCEOを退任したことで約束は守られるのか……とも危惧されてきました。結果としてStability AIは、品質を落としたSD3Mを出すという判断をしてきました。しかし、SD3Mはライティングに高い表現力を持つ一方、意図的に落とされた品質に大きな

                          “革命”起こした画像生成AIに暗雲 「Stable Diffusion 3 Medium」の厳しい船出 (1/4)
                        • 画像生成AI「Stable Diffusion」でたった1枚の画像から「特定の画像っぽい○○」をわずか数十秒で生成する方法が発表される

                          Stable Diffusionなどの画像生成AIに、特定の画像や画風を特定の単語に圧縮してAIに指示することで、自分の生成したい画像を任意の画像によく似せる「最適化」が可能です。テル・アビブ大学のコンピューター科学者であるリノン・ガル氏らのチームが、たった1枚の画像と5~15ステップの調整で画像の最適化を実現する方法を発表しました。 [2302.12228] Designing an Encoder for Fast Personalization of Text-to-Image Models https://doi.org/10.48550/arXiv.2302.12228 Encoder-based Domain Tuning for Fast Personalization of Text-to-Image Models https://tuning-encoder.github

                            画像生成AI「Stable Diffusion」でたった1枚の画像から「特定の画像っぽい○○」をわずか数十秒で生成する方法が発表される
                          • DeNA目線で見る 音声変換の最先端 - Qiita

                            (2021年5月13日追記)七声ニーナをリリースしました。DeNAの音声変換をご体験ください。 DeNAのAIシステム部、音声チームの豆谷と申します。私は2020年10月に新卒入社しましたが、2021年の新卒組として記事を書きます。 私は今まで音声合成や距離学習の研究をしてきて、音声変換(voice conversion;VC)については入社後キャッチアップしています。本記事では、DeNAの音声チームが注目する最先端の音声変換技術を紹介し、ユーザの喜びと驚きを生み出したいDeNA視点を交えながら解説します。 想定する読者は、音声変換に興味を持つ方、音声技術を生かして新たなエンタメ作りに挑戦したい方です。特に、 音声変換に関心がある学生がサクッと論文レベルで最先端の音声変換を把握できるようなお得な記事で 読者の「音声変換による新しいエンタメ作りに向けた研究開発の一歩」になる ように努めます。

                              DeNA目線で見る 音声変換の最先端 - Qiita
                            • 物体検出ライブラリの紹介と所感 - arutema47's blog

                              記事について 画像はDetectron2より 物体検出をほとんど使っていない方を対象として、2021年末の物体検出ライブラリを俯瞰することが本記事の目的。 ある程度物体検出の経験ある方は学ぶことは少ないと思う。またあくまで書いてあるのは筆者の感想であるので人によっては全く違う意見になることもあるかと。また本記事ではモデルの技術的な説明はありません。それらについて理解を深める際は参考ページや元論文を当ってみると良いかと思います。 また大変遅くなりましたが、本記事はKaggleアドベントカレンダー(裏)の24日目でもあります(年明けちゃってすみません)。 qiita.com 記事について 紹介するライブラリ一覧 所感 アンサンブルについて 精度vs速度トレードオフ ライブラリ紹介 yolov5 学習について 推論について Yolox 学習について Efficientdet 学習コード torc

                                物体検出ライブラリの紹介と所感 - arutema47's blog
                              • ディズニー顔に瞬時に変換するAI!ウワサの「Toonify」論文を解説! - Qiita

                                オミータです。ツイッターで人工知能のことや他媒体の記事など を紹介していますので、人工知能のことをもっと知りたい方などは @omiita_atiimoをご覧ください! 他にも次のような記事を書いていますので興味があればぜひ! 「募ってはいるが、募集はしていない」 人たちへ GANにもオーギュメンテーションは超有効だった!DAだけでSoTA達成した最新論文を解説! GANへの新しい正則化「ICR」が期待大な件&解説 U-Netを識別器に!新たなGAN「U-NetGAN」を解説! 画像認識の大革命。AI界で話題爆発中の「Vision Transformer」を解説! 「Toonify Yourself!」というWebサイトをご存知でしょうか。顔の画像をアップロードすると瞬時にディズニー顔に変換してくれるというもので、Twitterなどで話題になっていたのをご覧になった方も多く居るかと思います。

                                  ディズニー顔に瞬時に変換するAI!ウワサの「Toonify」論文を解説! - Qiita
                                • SberSwapで、個別の学習プロセス無しでFaceSwapを実現する | cedro-blog

                                  1.はじめに 今までのFaceSwapは、個別に学習プロセスが必要なため処理に時間がかかるのが難点でした。今回ご紹介するのは、個別の学習プロセス無しでFaceSwapを実現するSberSwapという技術です。 2.SberSwapとは? 下記の図は、SberSwapのモデル図でAEI-Netと呼ばれており、3つの部分で構成されています。 1つ目がIdentity Encoderで、画像XsからベクトルZidを求めます。2つ目がMulti-level Attributes Encoderdで、U-Netと同様な構造を持ち画像Xtから特徴Zattを取り出します。そして、3つ目がAAD Generatorで、これらの情報から目的とする画像を生成します。 3.コード コードはGoogle Colabで動かす形にしてGithubに上げてありますので、それに沿って説明して行きます。自分で動かしてみたい

                                    SberSwapで、個別の学習プロセス無しでFaceSwapを実現する | cedro-blog
                                  • グーグル、超リアルな動画生成AI「Lumiere」を発表--画像の一部を動画化する機能など

                                    Google Researchは米国時間1月23日、テキストプロンプトや画像から非常にリアルな動画を生成する時空拡散(Space-Time Diffusion)モデル「Lumiere」についての論文を発表した。 論文によると、このモデルは、動画生成合成における重要な課題、つまり「多様性と一貫性のあるリアルな動き」を生み出すという課題に取り組むために設計されたという。通常、動画生成モデルでは、ぎくしゃくした動画が生成されるが、以下の動画を見ると分かるように、Googleのアプローチはよりシームレスな視聴体験を提供する。 動画は滑らかに再生されるだけでなく、非常にリアルに見え、ほかのモデルよりも大幅に進化している。Lumiereは、シングルパスを通して動画全体を一度に生成する「Space-Time U-Net」アーキテクチャーでそれを実現している。 この動画生成方法は、キーフレーム間を合成する

                                      グーグル、超リアルな動画生成AI「Lumiere」を発表--画像の一部を動画化する機能など
                                    • 数行のコード追加でStable Diffusion生成画像を高品質にする「FreeU」、Llama2を10万トークンに低コストで増やす手法「LongLoRA」など重要論文5本を解説(生成AIウィークリー) | テクノエッジ TechnoEdge

                                      2014年から先端テクノロジーの研究を論文単位で記事にして紹介しているWebメディアのSeamless(シームレス)を運営し、執筆しています。 1週間分の生成AI関連論文の中から重要なものをピックアップし、解説をする連載です。第13回目は、画像生成AIを高品質にする手法、画像と文章を中間言語を用いずに入出力するモデルなど5つの論文をまとめました。 生成AI論文ピックアップ数行のコード追加でStable Diffusionなどの生成画像を高品質にする手法「FreeU」 大規模言語モデルのトークンを効率よく増やす手法「LongLoRA」 Llama2を10万トークンに 2.6兆トークンで訓練された、130億のパラメータを持つ多言語モデル「Baichuan 2」 スマホで物体検出をリアルタイムかつ高精度で行う新モデル「Gold-YOLO」 画像と文章を“そのまま”入出力できる生成モデル「Drea

                                        数行のコード追加でStable Diffusion生成画像を高品質にする「FreeU」、Llama2を10万トークンに低コストで増やす手法「LongLoRA」など重要論文5本を解説(生成AIウィークリー) | テクノエッジ TechnoEdge
                                      • 2020年機械学習総まとめ 興味深い論文/記事85選|akiraTOSEI

                                        この記事では、2020年に発表された論文や記事のうち、特に興味深かったものを合計85紹介します。下記12のトピックに分けて紹介していますが、あくまで便宜上の分類です。私の個人的な2020年総括は以下の通りです。 ---------------------   個人的2020年総まとめと所感  --------------------- 2020年はTransformerが大躍進しました。自然言語処理では大規模なTransformerモデルであるGPT-3が高い精度を多くのタスクで叩き出しています。大量のデータと大量のパラメータを使って画像分類でも最高精度であったBig Transferを超えるものが出てきています。 差別的要素や著作権の問題のないフラクタル画像データセットはAIの倫理がさらに重視されるであろう今後は、非常に重要なものになってくるかもしれません。ImageNetにアクセスでき

                                          2020年機械学習総まとめ 興味深い論文/記事85選|akiraTOSEI
                                        • 最新の深層学習技術による古典くずし字認識の現状と今後の展望 - May the Neural Networks be with you

                                          こんにちは。@shunk031 です。 普段は最先端の技術が大好きなパソコンのオタクですが、京都へ旅行して古き良き日本の文化に感化されました。 この記事は 法政大応情 Advent Calendar 2020 21 日目の記事です。 From http://codh.rois.ac.jp/ 今回は日本古典籍の分類タスクについて取り組んでみようと考え、近年の日本古典籍における「くずし字認識」に着目して調査をしました *1。 日本古典籍といった古文書に対して、OCR 等の文字認識技術によって文字情報をデジタル化し、それらの情報をもとに解析を行う流れは現代では自然だと考えています。 しかしながら、一般的に OCR は難しく、また古文書を機械に解析させることはさらなる困難があるのは容易に想像できます。 くずし字認識に対して、近年の取り組みでは ROIS-DS 人文学オープンデータ協働センターが K

                                            最新の深層学習技術による古典くずし字認識の現状と今後の展望 - May the Neural Networks be with you
                                          • 誰でもわかるStable Diffusion Kohya_ssを使ったLoRA学習設定を徹底解説 - 人工知能と親しくなるブログ

                                            前回の記事では、Stable Diffusionモデルを追加学習するためのWebUI環境「kohya_ss」の導入法について解説しました。 今回は、LoRAのしくみを大まかに説明し、その後にkohya_ssを使ったLoRA学習設定について解説していきます。 ※今回の記事は非常に長いです! この記事では「各設定の意味」のみ解説しています。 「学習画像の用意のしかた」とか「画像にどうキャプションをつけるか」とか「どう学習を実行するか」は解説していません。学習の実行法についてはまた別の記事で解説したいと思います。 LoRAの仕組みを知ろう 「モデル」とは LoRAは小さいニューラルネットを追加する 小さいニューラルネットの構造 LoRA学習対象1:U-Net RoLA学習対象2:テキストエンコーダー kohya_ssを立ち上げてみよう LoRA学習の各設定 LoRA設定のセーブ、ロード Sour

                                              誰でもわかるStable Diffusion Kohya_ssを使ったLoRA学習設定を徹底解説 - 人工知能と親しくなるブログ
                                            • Annotated Research Paper Implementations: Transformers, StyleGAN, Stable Diffusion, DDPM/DDIM, LayerNorm, Nucleus Sampling and more

                                              This is a collection of simple PyTorch implementations of neural networks and related algorithms. These implementations are documented with explanations, and the website renders these as side-by-side formatted notes. We believe these would help you understand these algorithms better. We are actively maintaining this repo and adding new implementations. for updates. Translations English (original)

                                                Annotated Research Paper Implementations: Transformers, StyleGAN, Stable Diffusion, DDPM/DDIM, LayerNorm, Nucleus Sampling and more
                                              • 画像生成AI「Stable Diffusion」のバージョン2.0が登場、出力画像の解像度が拡大&デジタル透かしを入れられる機能も

                                                イギリスのスタートアップ・Stability AIが、画像生成AI・Stable Diffusionのバージョン2.0に当たる「Stable Diffusion 2.0-v」をリリースしたと発表しました。Stable Diffusion 2.0-vはLAION-5Bから作成されたサブセットで学習しており、デフォルトの出力画像解像度は768×768ピクセルも選択可能となりました。さらに画像解像度を4倍に高めるUpscaler Diffusionモデルも含まれているため、2048x2048ピクセルあるいはそれ以上の解像度の画像を生成できるようになっています。 Stable Diffusion 2.0 Release — Stability.Ai https://stability.ai/blog/stable-diffusion-v2-release GitHub - Stability-AI

                                                  画像生成AI「Stable Diffusion」のバージョン2.0が登場、出力画像の解像度が拡大&デジタル透かしを入れられる機能も
                                                • [実装付き]Stable Diffusionの追加学習に適する画像を、VAEを利用して選別する

                                                  はじめに こんにちは。 前置きが思いつかないので、突然本題に入ります。 Stable Diffusionをはじめとする、Latent Diffusion Model(以下LDM)の追加学習手法は、その登場以来様々なやり方が提案されてきました。 例えば、学習データの表現を語に埋め込み、txt2imgの結果を直感的に操作するTextual Inverisionや、学習データによってDenoising U-Netのパラメータを変換するDNNを挿入するHyperNetworksはその代表的な手法です。 しかし、どの手法にも良い点と悪い点があり、こちらが決定的に良い、ということはなく、追加学習によるアウトカムの良し悪しを決定する最も大事なことは変わりません。 それは、適切な学習データを用意することです。 しかし、適切な学習データとは何か?という話はなかなか簡単に済ませられる話ではなく、モデルやタスク

                                                    [実装付き]Stable Diffusionの追加学習に適する画像を、VAEを利用して選別する
                                                  • どんなに長い文章でも破綻しない生成AI「StreamingLLM」、キャラクターの性格や話し方を模倣するAIなど重要論文5本を解説(生成AIウィークリー) | テクノエッジ TechnoEdge

                                                    2014年から先端テクノロジーの研究を論文単位で記事にして紹介しているWebメディアのSeamless(シームレス)を運営し、執筆しています。 1週間分の生成AI関連論文の中から重要なものをピックアップし、解説をする連載です。第15回目は、大規模言語モデルでどんなに長い文章でも破綻しない手法、GPT-4で公開モデルの数学推論を強化する方法など、5つの論文をまとめました。 生成AI論文ピックアップどんなに長い文章でも破綻しない言語生成AIフレームワーク「StreamingLLM」 Llama-2に適応で400万トークン以上が可能に MITやMetaの研究者らが開発 「画像を外国語として学ぶ」 画像とテキスト入力で新画像を出力する生成AI「Kosmos-G」 マイクロソフトなどが開発 GPT-4 Code Interpreterでオープンソースモデルの数学推論を強化するフレームワーク「Math

                                                      どんなに長い文章でも破綻しない生成AI「StreamingLLM」、キャラクターの性格や話し方を模倣するAIなど重要論文5本を解説(生成AIウィークリー) | テクノエッジ TechnoEdge
                                                    • ComfyUI 解説 (wiki ではない)

                                                      Stable Diffusion の web UI でありバックエンドでもある ComfyUI について、主にアーティスト向けに、内部動作や背景にある理論も含めて感覚的に捉えられるように解説していきます。 (充実しつつある公式 README や公式サンプルに書いてあることは、多分このサイトでは説明しません) 重要な外部リンク ComfyUI 公式リポジトリ ComfyUI 公式サンプル ComfyUI 公式チュートリアル (未完らしい) 有志によるマニュアル (ほぼ準公式) 最近の主な更新 公式に取り込まれた: ConditioningConcat 新ノード: ConditioningZeroOut SDXL 関連のノード追加: CLIPTextEncodeSDXL、CLIPTextEncodeSDXLRefiner モデルの保存が出来るようになった: CheckpointSave SDX

                                                      • 動画生成AI「Sora」のオープンソース版「Open-Sora 1.0」公開、AI同士を掛け合わせて高品質なAIを自律的に生み出す手法など重要論文5本を解説(生成AIウィークリー) | テクノエッジ TechnoEdge

                                                        2014年から先端テクノロジーの研究を論文単位で記事にして紹介しているWebメディアのSeamless(シームレス)を運営し、執筆しています。 1週間分の生成AI関連論文の中から重要なものをピックアップし、解説をする連載です。第39回目は、生成AI最新論文の概要5つを紹介します。 生成AI論文ピックアップ 実写動画をアニメ映像に変換など、動画をプロンプトで高品質に編集できるAIモデル「FRESCO」 既存モデル同士を掛け合わせて新しい高品質LLMを自律的に作り出す手法、AIベンチャー「Sakana AI」が開発 高品質なステレオ音楽を生成できるボコーダー「MusicHiFi」をAdobeなどが開発 900FPS以上で写真のような高品質な大規模3Dシーンをリアルタイム生成する「RadSplat」をGoogleなどが開発 Soraの再現を目指すオープンソースText-to-Videoモデル「O

                                                          動画生成AI「Sora」のオープンソース版「Open-Sora 1.0」公開、AI同士を掛け合わせて高品質なAIを自律的に生み出す手法など重要論文5本を解説(生成AIウィークリー) | テクノエッジ TechnoEdge
                                                        • Stability AI、画像にテキストを組み込める強力なテキストトゥイメージモデル「DeepFloyd IF」をリリース — Stability AI Japan

                                                          定義とプロセス DeepFloyd IFは、モジュール化、カスケード化された、ピクセルdiffusion モデルです。ここでは、それぞれの記述子の定義を分解して説明します。 Modular: DeepFloyd IFは、複数のニューラルモジュール(テキストプロンプトからの画像生成やアップスケーリングなど、独立したタスクを解決できるニューラルネットワーク)で構成されており、1つのアーキテクチャでの相互作用により相乗効果が生まれます。 Cascaded: DeepFloyd IFは、異なる解像度で個別にトレーニングされた一連のモデルを使用して、カスケード方式で高解像度データをモデル化しています。このプロセスは、ユニークな低解像度サンプル(「プレーヤー」)を生成するベースモデルから始まり、連続する超解像度モデル(「アンプリファイア」)によってアップサンプリングされて、高解像度画像が生成されます。

                                                            Stability AI、画像にテキストを組み込める強力なテキストトゥイメージモデル「DeepFloyd IF」をリリース — Stability AI Japan
                                                          • 生成 Deep Learning

                                                            以下、日本語版の動作確認で使用したコマンドラインの例です。 $ python 01_generate_data.py car_racing --total_episodes 200 --time_steps 300 $ python 02_train_vae.py --new_model $ python 03_generate_rnn_data.py $ python 04_train_rnn.py --new_model --batch_size 100 $ python 05_train_controller.py car_racing -n 4 -t 1 -e 4 --max_length 1000 賞賛の声 訳者まえがき まえがき 第I部 生成型ディープラーニング入門 1章 生成モデリング 1.1 生成モデリングとは何か? 1.1.1 生成モデリングと識別モデリング 1.1.2 

                                                              生成 Deep Learning
                                                            • Shaderで計算機を作る - Imaginantia

                                                              シェーダはいろんなことができます。Geometry Shaderで好きな場所にポリゴンを出したり、Fragment Shaderでポリゴンではない方法で物体を描画したり。 その中でも特に「メモリにデータを保存して計算を回す」話について書きます。これは実質好きなプログラムを自由に書けるという話です。変数の保存とか。 概ねVRChatにおける話を書きますが、まぁ普遍的な状況と大して違いはないと思います。 読み飛ばしながら必要なところだけを読むのを推奨します。あと修正/意見などあればtwitter (@phi16_) まで。 全体構造 プログラムには入力と出力があります。VRChatに於いては或る計算の最終的な出力としては当然「視界に映るモノ」ということになりますが、それを生み出すための入力、そしてその入力を作り出す計算機など、様々な機構が存在できます。 特に私が計算機と呼んでいるモノは、「何か

                                                                Shaderで計算機を作る - Imaginantia
                                                              • 接種回数3回の証明書

                                                                接種証明書アプリで、接種回数2回の証明書を発行していた。3回目の接種後、自動的に更新してくれるかなと考えていたが、よくある質問によると、そんなことはないようだ。接種してから1週間ほど経った後、新たに発行したところ、無事、接種回数3回の証明書が発行された。 発行手順は同じで、すんなり発行された。2回目までの証明書を残したまま発行できるので、事前に消す必要もない。既に発行されているかどうかの確認もないようなので、うっかり証明書やアプリを消しても、再発行は簡単だということもわかった。

                                                                • Deep learning等の精度評価に便利なPyCMの紹介と各種指標の比較 - OPTiM TECH BLOG

                                                                  OPTiM TECH BLOG Advent Calendar 2020 12/8 の記事です。 お久しぶりです。R&Dの加藤です。最近買った大きな買い物はDAHONのK3です。 購入したのは8月末ですが、11月に入るまでスタンドが手に入らなかったです。現状の不満点は空気が入れにくいという事だけですね。輪行するには最適な自転車です。 去年執筆したこの記事はいまだに定期的にアクセスがあって嬉しいですね。まだ読んでない方は是非こちらも読んでみてください。 今回の記事はこれの補足に加え、コードを加えた実践的な内容になります。 tech-blog.optim.co.jp 記事執筆のモチベーションとしては、「最近PyCMというライブラリを使い始めたら思いのほか便利だったので伝えたい」という事なんですが、なかなかボリュームのある記事になってしまいました。忙しい人は必要な章だけかいつまんで読んでください

                                                                    Deep learning等の精度評価に便利なPyCMの紹介と各種指標の比較 - OPTiM TECH BLOG
                                                                  • AUTOMATIC1111 の便利な機能

                                                                    Upscale latent space image when doing hires. fixUpscale latent space image when doing hires. fix が有効な場合は潜在空間でアップスケールする。無効な場合は一度初期ノイズ画像を生成してから、その生成したノイズ画像をアップスケールする。そしてアップスケールしたノイズ画像を潜在空間に戻して絵を描く。 なので Upscale latent space image when doing hires. fix を有効にした方が少し早くなる。場所は Settings タブ。 外部リンクadded highres fix feature Stable Diffusion UpscaleStable Diffusion Upscale は以下の工程で画像を拡大する。 画像を RealESRGAN/ESRGAN で

                                                                    • アーティストの権利侵害やポルノ生成などの問題も浮上する画像生成AI「Stable Diffusion」の仕組みとは?

                                                                      2022年8月に一般公開された画像生成AI「Stable Diffusion」は、まるで人間のアーティストが描いたような高クオリティの画像を生成できると話題を呼んだ一方で、「アーティストの権利を侵害している」「ポルノや政治に関するフェイク画像を生成できてしまう」といったことが問題視され、SNSやオンライン掲示板などで物議を醸しています。そんなStable Diffusionが画像を生成する仕組みやパフォーマンスについて、データサイエンティストのNir Barazida氏が解説しています。 Stable Diffusion: Best Open Source Version of DALL·E 2 | by Nir Barazida | Aug, 2022 | Towards Data Science https://towardsdatascience.com/stable-diffusi

                                                                        アーティストの権利侵害やポルノ生成などの問題も浮上する画像生成AI「Stable Diffusion」の仕組みとは?
                                                                      • 気象データをもとに「天気図っぽい前線」を機械学習で描いてみる(5) - Qiita

                                                                        気象データをもとに「天気図っぽい前線」を機械学習で描いてみる(5)機械学習編 Automatic Front Detection in Weather Data 2021.9.17 学習したニューラルネットワークを地球上の他の地域に適用して全球前線自動描画に挑戦したことを記載しました。 変更概要 「3.4ところで・・・」に解説記事へのリンクを追記 2020.11.15 カラー版天気図データが増加したことを受けて再学習を行った結果を踏まえて一部を更新しました。 投稿してから月日が経ち、この間に気象図と気象データを地道に収集していたことから再学習を行いました。 変更概要 ・教師データとして使用した天気図の期間を変更 ・「3.2 生成データ(初見データ)」の中の「どのデータが寄与しているのか?」の箇所で、結果を可視化したデータを変更してアニメを追加 ・「3.4ところで・・・」でGSMの予測結果に

                                                                          気象データをもとに「天気図っぽい前線」を機械学習で描いてみる(5) - Qiita
                                                                        • Inpaintingからディープラーニング、最新のGAN事情について学べる本を書いた - Qiita

                                                                          3~4ヶ月かけてA4・195ページの薄くない薄い本を書きました。タイトルは『モザイク除去から学ぶ 最先端のディープラーニング』です。TensorFlow2.0全対応です。 Inpaintingとは 画像の一部を塗りつぶしてもっともらしく画像を復元するタスク。画像全体ではなく、白く塗りつぶした部分の生成を目標とします。 画像:https://github.com/JiahuiYu/generative_inpaintingより 関連: * GLCICで無かったことにしたいアレコレ(GANを使った画像生成を Globally and Locally Consistent Image Completion で理解してみる) * 【論文読み】Image Inpainting for Irregular Holes Using Partial Convolutions ※Inpaintingという言

                                                                            Inpaintingからディープラーニング、最新のGAN事情について学べる本を書いた - Qiita
                                                                          • 画像生成AI「Stable Diffusion」開発元が自然な文章から画像を生成できる「DeepFloyd IF」を発表

                                                                            文章(プロンプト)から画像を生成するAI「Stable Diffusion」を開発したStability AIが、新しい画像生成AI「DeepFloyd IF」をリリースしました。画像内に正しい文字を反映させる処理などの性能が向上しています。 DeepFloyd IF — DeepFloyd https://deepfloyd.ai/deepfloyd-if Stability AIが大規模言語モデルを取り入れた高性能なテキストから画像への変換モデル「DeepFloyd IF」を発表 https://ja.stability.ai/blog/deepfloyd-if-text-to-image-model DeepFloyd IFのデモページが公開されていたので実際に試してみました。まずはプロンプトを入力し、「Generate」をクリックします。今回プロンプトとして「腹部に『おやすみ』とい

                                                                              画像生成AI「Stable Diffusion」開発元が自然な文章から画像を生成できる「DeepFloyd IF」を発表
                                                                            • Stable Diffusion のネガティブプロンプトとは何か?|七師|note

                                                                              "1girl, 1boy"ぐらいシンプルでも1人しか描かれない傾向があって、anything-v3だとその傾向がより強いですけど、negative promptに"1girl"と入れてあげると、バランスよく2人描かれやすくなるというハックを見つけました。 左:negative prompt なし 右:あり#stablediffusion #anythingv3 pic.twitter.com/RFGW979cCj — 七師🐾🖋 (@tomo161382) November 19, 2022 "1girl, red hair, blue eye"で、目の色に赤色が混ざる問題も、同じようにnegative promptで回避可能でした。要素が3つ以上になると工夫が必要そうですが。 左:negative promptなし 右:"1girl, blue hair, red eye"をnegat

                                                                                Stable Diffusion のネガティブプロンプトとは何か?|七師|note
                                                                              • DALL-Eアーキテクチャは何故描写の崩壊が抑えられているのか?|とーふのかけら

                                                                                はじめに 今、巷で高精細で描写の崩壊がしにくいと言われる、OpenAI社のDALL-E 3が話題ですね! DALL-E 3の前身であるDALL-E、DALL-E 2で使用されているDALL-Eアーキテクチャと、現在主流になっているStable Diffusionは何が違うのかを説明していきたいと思います。 今回の内容は、比較的専門用語が飛び交うので、事前知識がないと「???」となるかもしれません。ご了承ください…。 事前知識はこちらをご覧ください。 DALL-Eとは DALL-Eの読み方は「ダリ」です。 DALL-Eはシュールレアリスム画家のサルバドール・ダリが名前の由来になっています。 DALL-Eは現在も進化を続けており、非常に精細で描画の崩壊が抑えられていると話題になっています。 OpenAI社が提唱したDALL-Eアーキテクチャを使用して動作しており、自然な描写、フォトリアリズムに

                                                                                  DALL-Eアーキテクチャは何故描写の崩壊が抑えられているのか?|とーふのかけら
                                                                                • AUTOMATIC1111 の便利な機能

                                                                                  Upscale latent space image when doing hires. fixUpscale latent space image when doing hires. fix が有効な場合は潜在空間でアップスケールする。無効な場合は一度初期ノイズ画像を生成してから、その生成したノイズ画像をアップスケールする。そしてアップスケールしたノイズ画像を潜在空間に戻して絵を描く。 なので Upscale latent space image when doing hires. fix を有効にした方が少し早くなる。場所は Settings タブ。 外部リンクadded highres fix feature Stable Diffusion UpscaleStable Diffusion Upscale は以下の工程で画像を拡大する。 画像を RealESRGAN/ESRGAN で