GakyoのManjiの原理は、VQGANとCLIPの組み合わせにある。 VQGANとは、Vector Quantization-GANで、要はベクトル量子化とGANの組み合わせである。 と書くと、あたかも「わからない説明のお手本」のような書き振りだが、ベクトル量子化を理解すればそんなに難しくない。 「ベクトル量子化」は、高次元ベクトルを効率的に扱いたいときによく用いられる。たとえば100次元くらいの情報を扱いたいのだが、扱う情報量が疎(スパース)の場合、ほとんどの次元の情報がゼロになる。そこで効率的にベクトルを検索したり類似性を探したりするためにベクトル量子化と言う処理を加えて、コードブックを参照するようにする(一種のハッシュテーブル化と言える)と、高次元の情報を効率的に分類、再生することができる、と言うのが骨子である。 VQGANにおいてはベクトル量子化はもっと単純な意味で使われていて
![自分の人生20年分をVQGANに学習させてみた|shi3z|note](https://cdn-ak-scissors.b.st-hatena.com/image/square/a6ce8842bfb634af9fa844f4b5da6290b2bbc73a/height=288;version=1;width=512/https%3A%2F%2Fassets.st-note.com%2Fproduction%2Fuploads%2Fimages%2F59444290%2Frectangle_large_type_2_dc58e6eba9f09cbdea6067868eef52d6.png%3Ffit%3Dbounds%26quality%3D85%26width%3D1280)