ランダムフォレストと決定木学習 ランダムフォレストを理解するためには、決定木学習の手法について理解する必要があります。まず最初に決定木学習の理論について説明します。 決定木学習 決定木は親から順に条件分岐を辿っていくことで、結果を得る手法です。下は決定木のイメージです。 決定木学習とはデータの応じて上の図のような決定木を構成し、分類を行う機械学習の手法のことを指します。 決定木学習は、データの種類に応じて決定木を成長させていきます。 決定木の分類条件は、データを分類したときの情報利得IG(Infomation Gain)が最大になるようにすることです。情報利得は式(1)で表されます。 は親のデータ、はノード、は注目しているデータを表します。 は木を分割するノード数です。一般的に決定木は二分木として実装されるので、ほとんどの場合はとなります。 は不純度という指標で、含まれるデータに偏りがある