glmnetパッケージでロジスティック回帰をしたときの回帰係数について調べてみた件。概ね下記のサイトのの翻訳になります。 Computing standardized logistic regression coefficients | Thinklab Logisitic Regressions and regularization glmnet()やcv.glmnet()を使ってロジスティック回帰を行う際、目的変数の予測値の精度だけを考えるなら説明変数の回帰係数はあまり気にしなくてもよい事なのですが、「どの変数が予測結果に一番寄与しているのか?」という検討をする場合は、どうしても標準回帰係数が必要になります。 引数standardize=TRUEにすると目的変数を標準化して計算してくれるのですが、計算された回帰係数の値の挙動がちょっと変だったのでいろいろと調べてみました。 データとして
導入 回帰モデル構築の際、汎化性能を向上させるために正則化の手法がたびたび用いられます。これは、考えているデータ数に対して特徴量の数が非常に多い場合や、特徴量間に強い相関(多重共線性)がある場合に有効な方法となっています。このような場合に、通常の回帰モデル構築の際に用いられる2乗誤差などの目的関数に加え、ノルム(は正整数)のような正則化項(もしくは罰則項)加えて最適化をおこなうことで先程の問題を解消することができます。こういった正則化項を加えた上でモデルの最適化をおこなう( = パラメータを推定する)方法を、正則化法といいます。 代表的な正則化法に、Lasso, Ridge, Elastic Net回帰があります。これらは、解釈性も含めた特徴があり、必ずしも高精度のものだからよいわけではない、というのが私の考えです。しかし一方で、{caret}を使ってこの中で最も精度がよいものを採用しまし
1 5 Sparse Modeling and Model Selection L L L β β δ>0 lim P(β −β>δ)=0 n (β −β)N (0, ∑) n→∞ p =(, ⋯, ) n {(, )i=1, ⋯, n} =(, ⋯, ) X = (, ⋯, ) =(, ⋯, ) X X n X ∑ =0, ∑ =0, 1 n ∑ =1, j=1, ⋯, p. =Xβ+ε. β=(β⋯, β) ε ε N (0, σ I) σ β =arg min β (−Xβ +λβ ) λ≥0 m a=(a, ⋯, a) a = ∑ a
導入 スパース推定の代表的な手法として、Lassoがあります。様々なシーンで活用されているLassoですが、Lassoは変数選択の一致性が保証されないという欠点があります。Adaptive Lassoは、その欠点を補う形で提唱されている手法となっています。こちらは、ある条件のもとで変数選択の一致性が保証*1されており、数理統計学的により好ましい性質を持っています。 このAdaptive Lassoですが、Rでは{glmnet}以外のパッケージを使わないと簡単にできないとかなりの期間勘違いをしてました。そんな中、以下の記事を最近見かけまして、冷静に考えたら{glmnet}でも表現できるよなあと猛省した次第です。 RPubs - Adaptive LASSO Examples 以上の経緯から、挙動を確かめておこうという考えのもと、メモがてらAdaptive Lassoの紹介をしようと思います。
数理情報学演習 I 第 10 回 等式制約あり最適化問題の解法 – 拡張ラグランジュ関数と乗数法 – 2007 年 6 月 28 日 担当: 金森 敬文 e-mail: kanamori@is.nagoya-u.ac.jp http://www.math.cm.is.nagoya-u.ac.jp/˜kanamori/Suuri1.html 解説 制約あり最適化問題 min x∈Rn f(x) s.t. gj(x) = 0, j = 1, . . . , m (1) の局所最適解を数値的に求める計算アルゴリズムについて解説する.さまざまな解法があるが,こ こでは乗数法を紹介する. 1 等式制約あり最適化問題とラグランジュ関数 点 x∗ ∈ Rn を問題 (1) の局所最適解とする.このとき 1 次の必要条件より,λ∗ ∈ Rm が存在し て以下の関係式 f(x∗ ) + m j=1 λ∗
画像ラボ 2010.4 5 はじめに スパース正則化は、 いかに観測デー タを少ない数の説明変数や基底関数 で説明するか、 という問題(変数選択) に対するひとつの近似解法として統 計科学 1) や信号処理 2)、3) の分野で研 究されてきた。一方、近年、パター ン認識や機械学習の分野では SVM に 代表されるカーネル法 4) の成功によっ て非常に多数の説明変数を用いるこ とが日常的になってきたため、スパー ス正則化を含む新しい正則化の方法 に注目が集まっている。例えばマル チカーネル学習 5)、6) と呼ばれる手法 は(特別な場合に)ひとつのスパー ス正則化法とみなせることが明らか になり、統計、信号処理、機械学習 の問題を個別に扱うのではなく包含 するような枠組みやアルゴリズムが 求められている。 問題設定 本解説ではスパース正則化学習あ るいはスパース正則化信号復元を次 東京大
A significance test for the lasso Richard Lockhart1 Jonathan Taylor2 Ryan J. Tibshirani3 Robert Tibshirani2 1 Simon Fraser University, 2 Stanford University, 3 Carnegie Mellon University Abstract In the sparse linear regression setting, we consider testing the significance of the predictor variable that enters the current lasso model, in the sequence of models visited along the lasso solution path
High-Dimensional Metrics in R CRAN - Package hdm やりたかったこと= oracle property保証のlassoで変数選択(n<p) 得たもの= 速い、一致性はそれっぽい。 やりたいこと= ほかのパッケージとの比較、証明部分読む。 以下、試したかった部分だけ: # install.packages("hdm") require(hdm) set.seed(1) ### modified from example(rlasso) ---------------- n <- 100 # sample size p <- 1500 # number of variables s <- 3 # nubmer of non-zero variables beta = c(rep(3,s), rep(0,p-s)) # s -> non-zero/z
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く