1.それぞれ異なるデータをもとにする ランダムフォレストでは、もとの訓練データから、(各 $i$ に対して)$i$ 番目の決定木を作成するための「サブ訓練データ」を抽出します。それぞれの抽出は復元抽出で行います(同じデータを何回も抽出することもある)。このように、復元抽出によってサブデータを作成する手法を、ブートストラップサンプリングと言います。 例えば、もとのデータが $(d_1,d_2,d_3,d_4,d_5)$ の5つからなるとき、 ・1番目の決定木の作成には $(d_1,d_2,d_4,d_4)$ を使い ・2番目の決定木の作成には $(d_1,d_3,d_4,d_5)$ を使う というような感じです。 2.異なる説明変数を分割候補として使う 各決定木を作成するときには、1つのノードから初めてどんどん分割していくわけですが、分割は、 訓練データの説明変数のうち、$K$ 個をランダム