なぜこの記事を書いたのか? 決定木をベースにしたアルゴリズムのほとんどに特徴量重要度という指標が存在する。データに対する知識が少ない場合はこの指標を見て特徴量に対する洞察深めることができる。KaggleではEDAのときにとりあえず重要度を見てみるなんてこともするようだ。 しかし、この特徴量重要度にはバイアスが存在していて、特定の条件下では信用出来ないことがある。そういった条件を広く知ってほしいということでこの記事を書いた。 この記事では人工データを生成しバイアスを再現してみた。また、こういったバイアスに対処したという論文を見つけたので軽く紹介する。おまけとしてgainベース以外の特徴量重要度についても紹介する。 目次 なぜこの記事を書いたのか? 想定読者と実験の枠組み 想定読者 限定する枠組み 特徴量重要度とは? 特徴量重要度にバイアスが生じる条件 1. 解像度が低い場合 2. 特徴量同士
![特徴量重要度にバイアスが生じる状況ご存知ですか? - 学習する天然ニューラルネット](https://cdn-ak-scissors.b.st-hatena.com/image/square/f864c0f1bcae7935dfce552d7cce2993461da2bc/height=288;version=1;width=512/https%3A%2F%2Fcdn-ak.f.st-hatena.com%2Fimages%2Ffotolife%2Fa%2Faotamasaki%2F20190715%2F20190715230720.png)