機械学習により有害コメントを判定するGoogle/JigsawのPerspectiveだが、人間が元の意味を認識できる程度に微妙な改変を加えたadversarial exampleを使用することで、判定を混乱させる攻撃に関する研究結果が発表された(論文: PDF、 Ars Technicaの記事、 The Registerの記事)。 現在のところ、Perspectiveは研究開発初期の段階だが、入力した文と人々が有害と考えるコメントの類似性をパーセンテージ(以降、有害率スコア)で表示する実験的なツールがWebサイトで公開されている。研究グループは同サイトでリストアップされている有害なコメント例を用い、改変による有害判定の変化を調べている。 Perspectiveの判定に大きく影響するのは単語だ。特に「idiot」「stupid」といった単語を含むコメントは有害率スコアが高くなる。しかし、こ
![Googleの有害コメント判定ツールを混乱させる方法 | スラド セキュリティ](https://cdn-ak-scissors.b.st-hatena.com/image/square/6c8df985f690fbe94900da828cc3dfaef52dbbe6/height=288;version=1;width=512/https%3A%2F%2Fimages.srad.jp%2Ftopics%2Fai_64.png)