ブックマーク / cedro3.com (2)

  • CodeFormerで、低画質の顔画像を高画質化する

    1.はじめに 今回ご紹介するのは、Transfomer ベースの予測ネットワークを使うことによって、低画質の顔画像を高画質化する CodeFormer という技術です。 *この論文は、2022.6に提出されました。 2.CodeFomerとは? 下記は、CodeFormerの概要図で、2段階で学習を行います。まず、(a)自己再構成学習を行います。高画質画像(Ih)から高画質エンコーダー(HQ Encoder)を通して画像特徴量(Zh)を抽出し、ニアレストネイバー法(Nearest-Neighbor Matching)で離散コードブック(Codebook C)にマッピングし、デコーダー(HQ Decoder)で高画質画像に戻すことを学習します。ここで学習した離散コードブック以降は次で使用します。 次に、(b)最終的なネットワークの学習を行います。低画質画像(IL)から低画質エンコーダー(LQ

  • Latent Diffusion Model で、文から画像を生成する

    1.はじめに 先週、OpenAIがDALL-E2を発表して、文から画像を生成するタスクが再びホットな状態になっています。私も、DALL-E2を早く試してみたいと思ってWAITLISTに申し込み、連絡が来るのを心待ちにしています。 そうした中、別のグループからDALL-E2と同様な潜在拡散モデルが公開されましたので、今回はそれを試してみたいと思います。 *この論文は、2021.12に提出されました。 2.Latent Diffusion Modelとは? 下記は、latent diffusion model(潜在拡散モデル)の概要です。このモデルは、まずトレーニングデータにガウスノイズを徐々に追加して純粋なノイズになるまで破損させ、ニューラルネットワークにこの破損プロセスを逆転させることを学習させます。 学習後は、この逆破損プロセスを実行することで、純粋なノイズからデータを生成することができ

  • 1