準備 決定木(decision tree)分析をする際、まず目的変数の種類とアルゴリズムを決定する。 アルゴリズム CART CHAID ID3 / C4.5 / C5.0 目的変数の型 目的変数の型によって扱いが変わる 質的変数(2値変数):分類木→目的変数が0/1, T/Fの場合はas.factor()でfactor型にデータ変換しておく 量的変数:回帰木 survivalオブジェクト (生起を表す2カラム) CARTはすべて対応、C4.5/C5.0は質的変数のみ ここではCARTアルゴリズムでツリーモデルを生成するrpartと、ランダムフォレストrangerを中心に説明する。 データセットと前処理 Default of Credit Card Clients Dataset データセットの主な留意点 30000行25変数 最初の列が識別子(ID)→除外 3列目SEX, 4列目EDUC
![Rで決定木分析(rpartによるCARTとrangerによるランダムフォレスト) – marketechlabo](https://cdn-ak-scissors.b.st-hatena.com/image/square/95f912ffe386514f2529cf17344edc1143779317/height=288;version=1;width=512/https%3A%2F%2Fwww.marketechlabo.com%2Fimages%2Fanalytics%2Fplot_party.png)