特化型モデルで識別・ピクセル重要度抽出した後に、GPTで自然言語に変換する 画像認識モデルを作ったら、そのモデル自体から"こういうオブジェクトがあるから私はこう認識したんだよ"と教えてほしくありませんか? 今回作るのは、図のように、写真が東京都中央区で撮られているとわかるのは、"照明と配管"が特徴的で、"箱やパッケージが多い"から市場らしさがあるんだよ、と自分で説明してくれるAIです。 背景ですが、機械学習が、それを本業とする人以外にも幅広く使われるようになってくるのに伴い、モデルの説明可能性も重要視されているように思います。 テーブルデータからの識別問題であれば重要な項目を特徴重要度などから測ることはできなくはない *1ですし、自然言語処理であればどういうトークンが重要だったかというところである程度解釈できるように思います。 それらに比べても、画像処理・信号処理の分野での特徴重要度という