1.はじめに 今までテキストから画像生成するモデルは、テキストで指定して特定のオブジェクト(有名なものを除く)を画像生成することが困難でした。 今回ご紹介するのは、テキストから画像を生成するモデルを、特定のオブジェクトの画像(3〜5枚程度)でファインチューニングすることによって、テキストで指定して特定のオブジェクトを画像生成できる Dream Booth という技術です。 *この論文は、2022.8に提出されました。 2.Dream Boothとは? 下記がDream Boothのフロー図です。3~5枚の画像(Input Images)を使って、テキストから画像を生成するモデルを2ステップでファインチューニングします。 第1ステップ(左図)はモデルの低解像度部分が対象です。ユニークな識別子を含むテキスト(”A[V]dog”)を入力したら入力画像(Input Images)を出力するように、
![Dream BoothをGoogle Colabで動かしてみる](https://cdn-ak-scissors.b.st-hatena.com/image/square/f045af2343429e9fc3385b136d87cda7f5ebcb08/height=288;version=1;width=512/http%3A%2F%2Fcedro3.com%2Fwp-content%2Fuploads%2F2022%2F10%2F010.jpg)