1.はじめに 画像の何処に何が写っているかを推定することを物体検出と言います。今回は、これに加えてそれがどんな形をしているかも推定(セグメンテーション)する、Mask R-CNNをご紹介します。 2.Mask R-CNNとは? Mask R-CNNは、Faster R-CNNの拡張版なので、まずFaster R-CNNから説明します。 Faster R-CNNは、CNNを用いて物体の候補領域を抽出し、領域位置とクラスの確率を同時に推定するモデルです。つまり、物体にバウンディングボックスを掛け、どのクラスに属するかを出力します。 Mask R-CNNではこれに加えて、バウンディングボックス内のピクセル単位でクラス分類を行うモデルです。つまり、物体の形も推定するわけです。 3.コード コードはGoogle Colabで動かす形にしてGithubに上げてありますので、それに沿って説明して行きます