Deep Text Classification Can be Fooled 入力を少し変化させるだけで機械学習によるモデルの推定結果を変えてしまう技術は Adversarial example と呼ばれている. よく見るのは画像を用いた例だけど,それが文書分類でもできないかと思い探したところ,まずこれがでてきたので読む. 画像一般についてはこちらが詳しい.これを読むまで Deep Learning 特有の問題と思っていたが,実際はそうではないらしい. はじめてのAdversarial Example 前提 文書 を入力として,その文書のクラス を推定するモデル があるとする. そこで, に手を加えた によってモデルの出力を任意のクラス に誤分類 させたい. 画像と違うのは,入力が文書であるため,人間の目で見ても不自然でないように変更しなければならないということ. 手法 基本的には Exp