ランダムフォレストと決定木学習 ランダムフォレストを理解するためには、決定木学習の手法について理解する必要があります。まず最初に決定木学習の理論について説明します。 決定木学習 決定木は親から順に条件分岐を辿っていくことで、結果を得る手法です。下は決定木のイメージです。 決定木学習とはデータの応じて上の図のような決定木を構成し、分類を行う機械学習の手法のことを指します。 決定木学習は、データの種類に応じて決定木を成長させていきます。 決定木の分類条件は、データを分類したときの情報利得IG(Infomation Gain)が最大になるようにすることです。情報利得は式(1)で表されます。 は親のデータ、はノード、は注目しているデータを表します。 は木を分割するノード数です。一般的に決定木は二分木として実装されるので、ほとんどの場合はとなります。 は不純度という指標で、含まれるデータに偏りがある
![ランダムフォレストの理論と重要な特徴量の選定 - drilldripper’s blog](https://cdn-ak-scissors.b.st-hatena.com/image/square/8e68db73cdc5da616ee5eab3b5e298d3c31be8c4/height=288;version=1;width=512/https%3A%2F%2Fcdn-ak.f.st-hatena.com%2Fimages%2Ffotolife%2Fd%2Fdrilldripper%2F20161005%2F20161005074636.png)