タグ

2018年3月10日のブックマーク (2件)

  • 【アンサンブル学習】多様性が大事!?バギング、ランダムフォレスト編 - これで無理なら諦めて!世界一やさしいデータ分析教室

    前回・前々回は、決定木と木の剪定方法について学習しました。 www.randpy.tokyo www.randpy.tokyo 決定木は、可読性が高いという点で実際に今働いている職場でもよく使われる手法ですが、問題点としては学習データに依存しすぎる点にあり、汎用的なモデルを作ることが難しいです。 今回は、そのような問題に克服するためのバギング・ランダムフォレストの手法についてやっていきます! また関連する手法で、kaggleなどでよく使われるブースティングについては、また別途まとめたいと思います。 今回も「はじめてのパターン認識」を参考にさせていただきながら、なるべくわかりやすく説明していきたいと思いますー! はじめてのパターン認識 作者: 平井有三出版社/メーカー: 森北出版発売日: 2012/07/31メディア: 単行(ソフトカバー)購入: 1人 クリック: 7回この商品を含むブログ

    【アンサンブル学習】多様性が大事!?バギング、ランダムフォレスト編 - これで無理なら諦めて!世界一やさしいデータ分析教室
  • ブートストラップ

    ブートストラップとは ブートストラップ(bootstrap)は統計学者Efronが(考案した|流行らせた)計算方法です。 コンピュータによるシミュレーションの一種ですが,データを乱数で生成するのではなく,実際のデータに基づいた推論ができるのが,ブートストラップの特徴です。 例えば平均値と中央値(メジアン)のどちらが安定か(ぶれが少ないか)を調べるために,通常のシミュレーションでは「乱数でデータを生成して平均値と中央値を計算する」という作業を何度も繰り返し,その分布を比較します。これに対して,ブートストラップでは,「実際のデータ(n 個)からランダムに n 個を復元抽出(重複を許した抽出)し,その平均値と中央値を計算する」という作業を何度も繰り返します。例えば実際のデータが (2, 3, 5, 7) であれば,それから復元抽出した (2, 3, 3, 7), (3, 5, 7, 7), (2