本記事は、当社オウンドメディア「Doors」に移転しました。 約5秒後に自動的にリダイレクトします。 こんにちは、AI開発部の伊藤です。 今回のブログは、「深層学習はいったい画像のどこを見て判断しているのか」という素朴な疑問に答えてくれる技術として、昨年提唱された「Grad-CAM」という技術を紹介します。 目次 目次 1. はじめに 2. Grad-CAMの紹介 Grad-CAMの仕組み: 3. 適用例 3-1. 画像キャプション生成(Image Captioning) 3-2. VQA(Visual Question Answering) 3-3. 学習用データのバイアス 4. 実施例(お好み焼きとピザを分類) 4-1. 画像データについて: 4-2. CNNの構築: 4-3. Grad-CAMの実装: 4-4. 実施結果の評価 お好み焼き画像でCNNの判定が当たっているケース: ピザ
![深層学習は画像のどこを見ている!? CNNで「お好み焼き」と「ピザ」の違いを検証 - Platinum Data Blog by BrainPad](https://cdn-ak-scissors.b.st-hatena.com/image/square/54b2cc422e1bd62bb438f1c81c0294197d77db09/height=288;version=1;width=512/https%3A%2F%2Fcdn-ak.f.st-hatena.com%2Fimages%2Ffotolife%2Fb%2Fbp-writer%2F20170703%2F20170703135135.png)