タグ

2013年9月24日のブックマーク (5件)

  • ポアソン回帰で推定しているモノはλの式 - 餡子付゛録゛

    某所の(1)ポアソン回帰モデルの説明が、(2)対数変換OLSと同じになっている気がします。違うものだと思うのですが、シミュレーションをして(1)と(2)の推定をして確認してみました。 1. モデル ポアソン分布はパラメーターで決定されるわけですが、を説明変数で説明するモデルになります。個のパラメータがあり、を説明変数、を係数として、以下のような式ですね。 被説明変数の値が0以上の整数のときの確率を、は間接的に決定するわけですね。教科書的には最尤法を用いて求めることになるみたいですが、実用的にはリンク関数を用いて一般化線形回帰モデルで推定できるようです。 2. データ作成 まずはポアソン回帰モデル用のデータxとyを作成します。 set.seed(20130919) x <- round(runif(100, max=3)) lambda <- exp(1.1 + 1*x) y <- nume

    oich
    oich 2013/09/24
  • 銀座で働くデータサイエンティストのモデル選択について

    『今さら人に聞けない「重回帰分析の各手法の使い分け」 』と言うブログのエントリーがあって、一般化線形モデル(GLM)の使い分け(Rの関数glmとパッケージMASS)の説明がされているのだが、理系実験室から出てきた人のせいか、色々と怪しく感じる所がある。純粋文系プログラマとして問題点を指摘してみたい。 1. 離散データだから最小二乗法が使えないわけではない 全体として、モデルの説明がおかしい。推定モデルの使い分けが良く分かってい無い気がする。問題のエントリーには、『クリック数という「カウントデータ=離散値データ」』だから『普通の線形回帰』と表現されている一般最小二乗法(OLS)は正しく推定できない可能性があるので、ポアソン回帰モデルや負の二項分布回帰モデルにしようと言っている。しかし、離散データでもプロビットのような二項/多値選択モデルであったり、切り落としのトービット・モデルで無い限りは、

    銀座で働くデータサイエンティストのモデル選択について
    oich
    oich 2013/09/24
  • 生態学データ解析 - FAQ 一般化線形モデル

    ここでは R の glm() を使って解析した場合の説明をしてみます 参照: FAQ 系ペイジ一覧, GLM 参照, summary(glm()) の星 この説明もしっかり読みましょう!信頼区間って難しい… [項目] 研究発表で「GLM を使った」と説明するときにはどうしたらよいでしょうか? GLM で得られた結果を発表・説明するときにはどうしたらよいでしょうか? 説明変数,応答変数って何ですか? family で指定する確率分布は「誤差の分布」ですか? family 指定はどうすればよいのでしょうか? 応答変数のばらつきが family 指定ではうまく表現できないときはどうすればいいのでしょうか? (一般化) 線形モデルは必ず交互作用項を含んでいなければならないのですか? glm() とかで Y ~ X1 + X1:X2 というふうに X2 は使わないときに交互作用項 X1:X2 だけを

    oich
    oich 2013/09/24
  • 生態学データ解析 - FAQ モデル選択

    統計学的なモデル選択 (とくに AIC を使ったモデル選択) についてよくある質問と 久保 によるてきとーなる回答を並べてみました 参照: FAQ 系ペイジ一覧, FAQ stepAIC() モデル選択 [項目] モデル選択とは何ですか モデル選択したあとに検定すればいいのですか? モデル選択規準 AIC が一番小さいモデルは一番あてはまりの良いモデルですか? AIC によって選択された統計モデルってどういう意味で「良い」のですか? AIC で選ばれる統計モデルは標数に影響されますか? AIC が少しでも小さい統計モデルが「良い」モデルなのですか? 統計ソフトウェアが出力する AIC の値だけ確認すればいいのですか? 比較すべき統計モデルの個数が 100 個ぐらいあるんですけど,このときも AIC 最小のモデルを選べばよいのですか? 「パラメーターの重要性」をみるために ``Akaike

    oich
    oich 2013/09/24
  • 「使い分け」ではなく「妥当かどうか」が大事:重回帰分析&一般化線形モデル選択まわりの再まとめ - 六本木で働くデータサイエンティストのブログ

    先日の記事はおかげさまで好評をいただいたんですが、勉強中の身で教科書を確認せずに書いたこともあり多数ツッコミをいただきました。ツッコミをいただけるというのはもちろん大変良い勉強の機会になるということで*1、今回もひとしきり勉強してみました。 ということで、自戒も込めて備忘録的に勉強したことをまとめておこうと思います。今回はあまり広く読んでもらう内容ではないので、不親切かもしれませんがごめんなさい。ただし、あまりにも理論的側面ばかり色々書いても何なので、インターネット広告業界の言葉で喩えて言うなら「クリック数*2をモデリングしたい場合」と「コンバージョン数*3をモデリングしたい場合」とに分けた、と理解してもらえたら良いかなと思ってます。 今回も参考文献は久保です。一般化線形モデルまわりではこのより分かりやすいは依然としてないと思います。 データ解析のための統計モデリング入門――一般化線

    「使い分け」ではなく「妥当かどうか」が大事:重回帰分析&一般化線形モデル選択まわりの再まとめ - 六本木で働くデータサイエンティストのブログ
    oich
    oich 2013/09/24