タグ

2014年8月17日のブックマーク (2件)

  • データマイニングが有用な時 - himaginary’s diary

    データマイニングは、最も当てはまりの良い回帰式を恣意的に拾い上げる慣行につながるという点で経済学では評判が悪いが、正しく使えば有用、とオックスフォード大の2人の研究者(Jennifer L. Castle、David F. Hendry)がこちらのvoxeu記事に書いている(H/T Economist's View)*1。 記事ではまず、最も単純なデータマイニング手法として、有意性の高い順に説明変数を一つずつ追加していく、という手法を挙げている。そうした1-step forward search algorithmsと呼ばれる手法は、非有意になった変数の除去と組み合わせたり(=段階的回帰[stepwise regression];別名unwise regression)、推計された係数の大きさに制約を掛けたり(=Lasso)、といったバリエーションがあるが、経済学ではまず上手く行かない、と

    データマイニングが有用な時 - himaginary’s diary
  • LASSO and Ridge regression - データサイエンティスト上がりのDX参謀・起業家

    今回はLASSOとリッジ回帰についてです。 パッケージは「glmnet」、「lars」、「lasso2」で実行できます。 glmnetとlarsの作者はFriedman、Hastie、Efron、Tibshiraniと有名な先生ですが、lasso2の作者は知らないです。。 内容もほぼ一緒なので、LASSOをするときはglmnet一択で良いと思います。 まずは使用例から。。。 データはLARSパッケージにあるdiabetesを使います。 このデータである結果変数y(中性脂肪?)をx(性別や血圧など)によって予測するモデルを作ります。 まずは単純な線形回帰をします。 library(lars) library(glmnet) data(diabetes) Linear <- lm(diabetes$y ~ diabetes$x) Linear$coefficients これが推定結果です。 (

    LASSO and Ridge regression - データサイエンティスト上がりのDX参謀・起業家