はじめに Deep Learningの世界,とりわけGenerative Adversarial Networks(GAN)は近年,飛躍的に成長しており,Text-to-Imageや声質変換,音源分離など様々な分野で研究が進んでいると思います. 今回のお話は,その中でも音声から顔画像を生成するwav2pixについて,ゆるく書いていきます. Paper: WAV2PIX: SPEECH-CONDITIONED FACE GENERATION USING GENERATIVEADVERSARIAL NETWORKS ざっくり概要 https://imatge-upc.github.io/wav2pix/ 提案されているモデルは以下3つのモジュールから構成されています. Speech Encoder Generator Network Discriminator Network それぞれのモジュ