liberal_intのブックマーク / 2023年8月11日

liberal_int id:liberal_int

2023年8月11日のブックマーク (3件)

「Kaggleで勝つデータ分析の技術」から見る実用的な機械学習の知見
はじめに機械学習に関する実用的な知見を知るために、「Kaggleで勝つデータ分析の技術」を読んだので、Kaggle以外の場面でも活用できる話題をまとめてみた。本書は機械学習の基本的な内容も含んでいるが、この記事では機会学習に関する一通りの知識を持ち、実問題に利用している読者を想定してまとめた。従って、勾配ブースティング木の仕組みや、回帰タスクの評価方法等、基本的な内容については解説しない。本記事では、評価の落とし穴や、モデルを改善するための特徴量の工夫、チューニングのTipsについて紹介する。特徴量 Tips 1: 欠損値の扱いデータにはしばしば欠損値が含まれている。欠損値は、そもそも値が存在していない場合の他に、ユーザが意図して入力していない場合や、観測器のエラーによって取得できていない場合等、様々な理由によって生じる。欠損がランダムに発生していない限り、欠損しているという事実が何
liberal_int 2023/08/11
統計

あとで読む

スキル

プログラミング

数学
リンク
ランダムフォレストを使うなら変数選択はしなくてもいいのか？ - 静かなる名辞
はじめに表題の通りの話をたまに聞きます。「ランダムフォレストは内部で変数選択を行う。なので変数選択は必要ない」という主張です。しかし個人的には、それはあくまでも他の手法*1と比べれば変数選択しなかった場合の悪影響が少ないということであって、ランダムフォレストであっても変数選択した方が良いんじゃ？　ということを昔からずっと思っていました。検証してみます。思考実験実際に検証する前に思考実験を行います。まずパターンA（変数選択なし）とパターンB（変数選択あり）の2通りを考えます。パターンA 有効な変数：10個無効な変数：90個パターンB 有効な変数：10個のみ（無効な変数なし）ランダムフォレストの弱分類器では、元々の変数の数の平方根くらいの数の変数を使うのが一般的です。そうすると、パターンAの場合弱分類器で使う変数は10個。うち有効なもの（の期待値）は1個。パター
liberal_int 2023/08/11
あとで読む

統計

数学

プログラミング
リンク
現代的システム開発概論
2023年度リクルートエンジニアコース新人研修の講義資料です
liberal_int 2023/08/11
あとで読む

情報

テクニック

仕事
リンク
- 2023年8月12日
- 2023年8月11日
- 2023年7月24日