タグ

random-forestに関するmasatoiのブックマーク (2)

  • AutoEncoder by Forest: ランダムフォレストをオートエンコーダとして使う

    この前のShibuya.lispの懇親会で教えてもらった論文(AutoEncoder by Forest)を読んだのでcl-random-forest (解説記事)で再現してみた。 どうやらDeepForestの研究グループらしい。 どのような内容なのか一言でいうと、入力データがランダムフォレストの各決定木のどの葉ノードに入るかが分かれば、元の入力を再構成できるという話だった。つまり、エンコードは入力データから各決定木の葉ノードのインデックスを調べ、そのベクトルを出力することに対応する。逆にデコードは葉ノードから根ノードへ逆に辿っていき、入力の範囲を制限していき、最後にそこから代表値を選ぶことに対応する。エンコーダの訓練は通常のランダムフォレストでモデルを作るだけなので、GPUを使ったニューラルネットのオートエンコーダよりも100倍速いと主張されている。(なおデコード速度では負けている模様

    masatoi
    masatoi 2018/01/10
    ブログかきました
  • Common Lispのランダムフォレストライブラリcl-random-forestで特徴量の重要度を出してみる

    概要 UCIのAdultデータセットを予測する LIBSVM形式への変換 ランダムフォレストを構築 ランダムフォレストから特徴量の重要度を出す 番外: scikit-learnの場合 メモ: 上の図の作り方 (Lisp Advent Calendar 2017参加記事) 概要 ランダムフォレストは多くの特徴量を持つような大きなサイズのデータセットを現実的な計算量で学習できる便利なモデルであるが、その重要な特徴の一つに、「特徴量ごとの重要度を推測できる」というものがある。 Random Forestで計算できる特徴量の重要度 Selecting good features – Part III: random forests 特徴量の重要度の推測の方法にも色々あるが、これらの記事では、MeanDecreaseAccuracyとMeanDecreaseGiniという2つの方法が紹介されている。

    masatoi
    masatoi 2017/12/18
    Lisp Advent Calendar 2017の18日目の記事になります
  • 1