概要 CVPR2020のベストペーパーに輝いた論文を読んでみたので紹介します。 本研究は、単一の静止画から3次元形状を復元するという手法です。興味深いのが、いかなるアノテーションや形状に関する事前知識をつかわずに訓練するという「in the Wild」な手法であるということです。 デモページが公開されているので、まずは動かしてみることをお勧めします。 この手法では、RGB入力画像と同じ画像を出力するというAutoEncoder風の構造を持ったネットワークを使用します。この内部では、以下の4つの要素を明示的に推定しています。 アルベド: $a \in \mathbb{R}^{3 \times W \times H}$ 深度: $d \in \mathbb{R}_{+}^{W \times H}$ 照明: $l \in \mathbb{S}^{2}$ 視点: $w \in \mathbb{R}
