はじめに 表題の通りの話をたまに聞きます。「ランダムフォレストは内部で変数選択を行う。なので変数選択は必要ない」という主張です。 しかし個人的には、それはあくまでも 他の手法*1と比べれば変数選択しなかった場合の悪影響が少ない ということであって、ランダムフォレストであっても変数選択した方が良いんじゃ? ということを昔からずっと思っていました。 検証してみます。 思考実験 実際に検証する前に思考実験を行います。 まずパターンA(変数選択なし)とパターンB(変数選択あり)の2通りを考えます。 パターンA 有効な変数:10個 無効な変数:90個 パターンB 有効な変数:10個 のみ(無効な変数なし) ランダムフォレストの弱分類器では、元々の変数の数の平方根くらいの数の変数を使うのが一般的です。そうすると、 パターンAの場合 弱分類器で使う変数は10個。うち有効なもの(の期待値)は1個。 パター
![ランダムフォレストを使うなら変数選択はしなくてもいいのか? - 静かなる名辞](https://cdn-ak-scissors.b.st-hatena.com/image/square/4419024658de760c2ef9d003a18287bb4460425b/height=288;version=1;width=512/https%3A%2F%2Fcdn-ak.f.st-hatena.com%2Fimages%2Ffotolife%2Fh%2Fhayataka2049%2F20191107%2F20191107201147.png)