最新の物体検出手法Mask R-CNNのRoI AlignとFast(er) R-CNNのRoI Poolingの違いを正しく理解するDeepLearningR-CNNfaster-r-cnnfast-r-cnnmask-r-cnn はじめに CNNベースの高速な物体検出の先駆けであるFast R-CNN1やFaster R-CNN2、最新のMask R-CNN3では、まず物体の候補領域をregion proposalとして検出し、そのregion proposalが実際に認識対象の物体であるか、認識対象であればどのクラスかであるかを推定します。 Fast R-CNN系の手法のベースとなったR-CNN4では、region proposalの領域を入力画像から切り出し、固定サイズの画像にリサイズしてからクラス分類用のCNNにかけるという処理を行っていたため、大量のregion proposa
![最新の物体検出手法Mask R-CNNのRoI AlignとFast(er) R-CNNのRoI Poolingの違いを正しく理解する - Qiita](https://cdn-ak-scissors.b.st-hatena.com/image/square/7505c502d128878db367d606c3b9ce18c5a65a81/height=288;version=1;width=512/https%3A%2F%2Fqiita-user-contents.imgix.net%2Fhttps%253A%252F%252Fcdn.qiita.com%252Fassets%252Fpublic%252Farticle-ogp-background-412672c5f0600ab9a64263b751f1bc81.png%3Fixlib%3Drb-4.0.0%26w%3D1200%26mark64%3DaHR0cHM6Ly9xaWl0YS11c2VyLWNvbnRlbnRzLmltZ2l4Lm5ldC9-dGV4dD9peGxpYj1yYi00LjAuMCZ3PTk3MiZoPTM3OCZ0eHQ9JUU2JTlDJTgwJUU2JTk2JUIwJUUzJTgxJUFFJUU3JTg5JUE5JUU0JUJEJTkzJUU2JUE0JTlDJUU1JTg3JUJBJUU2JTg5JThCJUU2JUIzJTk1TWFzayUyMFItQ05OJUUzJTgxJUFFUm9JJTIwQWxpZ24lRTMlODElQThGYXN0JTI4ZXIlMjklMjBSLUNOTiVFMyU4MSVBRVJvSSUyMFBvb2xpbmclRTMlODElQUUlRTklODElOTUlRTMlODElODQlRTMlODIlOTIlRTYlQUQlQTMlRTMlODElOTclRTMlODElOEYlRTclOTAlODYlRTglQTclQTMlRTMlODElOTklRTMlODIlOEImdHh0LWFsaWduPWxlZnQlMkN0b3AmdHh0LWNvbG9yPSUyMzIxMjEyMSZ0eHQtZm9udD1IaXJhZ2lubyUyMFNhbnMlMjBXNiZ0eHQtc2l6ZT01NiZzPTgwMmY0MzIyNGQ1ZjVhYzBkZTdhOWYxOTQyZGU0NGEx%26mark-x%3D142%26mark-y%3D57%26blend64%3DaHR0cHM6Ly9xaWl0YS11c2VyLWNvbnRlbnRzLmltZ2l4Lm5ldC9-dGV4dD9peGxpYj1yYi00LjAuMCZoPTc2Jnc9NzcwJnR4dD0lNDB5dTR1JnR4dC1jb2xvcj0lMjMyMTIxMjEmdHh0LWZvbnQ9SGlyYWdpbm8lMjBTYW5zJTIwVzYmdHh0LXNpemU9MzYmdHh0LWFsaWduPWxlZnQlMkN0b3Amcz0yZWFhMmQxYzBhY2VhMWM0ZjNiN2NlZGVmMDI0OTliNg%26blend-x%3D142%26blend-y%3D486%26blend-mode%3Dnormal%26s%3D15778ab0fdc593ddebeb2e28cda797a3)