oichのブックマーク / 2013年9月24日 - はてなブックマーク

ポアソン回帰で推定しているモノはλの式 - 餡子付゛録゛

某所の(1)ポアソン回帰モデルの説明が、(2)対数変換OLSと同じになっている気がします。違うものだと思うのですが、シミュレーションをして(1)と(2)の推定をして確認してみました。 1. モデルポアソン分布はパラメーターで決定されるわけですが、を説明変数で説明するモデルになります。個のパラメータがあり、を説明変数、を係数として、以下のような式ですね。被説明変数の値が0以上の整数のときの確率を、は間接的に決定するわけですね。教科書的には最尤法を用いて求めることになるみたいですが、実用的にはリンク関数を用いて一般化線形回帰モデルで推定できるようです。 2. データ作成まずはポアソン回帰モデル用のデータxとyを作成します。 set.seed(20130919) x <- round(runif(100, max=3)) lambda <- exp(1.1 + 1*x) y <- nume

oich 2013/09/24

統計
R

リンク

銀座で働くデータサイエンティストのモデル選択について

『今さら人に聞けない「重回帰分析の各手法の使い分け」』と言うブログのエントリーがあって、一般化線形モデル（GLM）の使い分け（Rの関数glmとパッケージMASS）の説明がされているのだが、理系実験室から出てきた人のせいか、色々と怪しく感じる所がある。純粋文系プログラマとして問題点を指摘してみたい。 1. 離散データだから最小二乗法が使えないわけではない全体として、モデルの説明がおかしい。推定モデルの使い分けが良く分かってい無い気がする。問題のエントリーには、『クリック数という「カウントデータ＝離散値データ」』だから『普通の線形回帰』と表現されている一般最小二乗法（OLS）は正しく推定できない可能性があるので、ポアソン回帰モデルや負の二項分布回帰モデルにしようと言っている。しかし、離散データでもプロビットのような二項/多値選択モデルであったり、切り落としのトービット・モデルで無い限りは、

oich 2013/09/24

統計
R

リンク

生態学データ解析 - FAQ 一般化線形モデル

ここでは R の glm() を使って解析した場合の説明をしてみます参照: FAQ 系ペイジ一覧, GLM 参照, summary(glm()) の星この説明もしっかり読みましょう！信頼区間って難しい… [項目] 研究発表で「GLM を使った」と説明するときにはどうしたらよいでしょうか? GLM で得られた結果を発表・説明するときにはどうしたらよいでしょうか? 説明変数，応答変数って何ですか? family で指定する確率分布は「誤差の分布」ですか? family 指定はどうすればよいのでしょうか? 応答変数のばらつきが family 指定ではうまく表現できないときはどうすればいいのでしょうか? (一般化) 線形モデルは必ず交互作用項を含んでいなければならないのですか? glm() とかで Y ~ X1 + X1:X2 というふうに X2 は使わないときに交互作用項 X1:X2 だけを

oich 2013/09/24

統計
R

リンク

生態学データ解析 - FAQ モデル選択

統計学的なモデル選択 (とくに AIC を使ったモデル選択) についてよくある質問と久保によるてきとーなる回答を並べてみました参照: FAQ 系ペイジ一覧, FAQ stepAIC() モデル選択 [項目] モデル選択とは何ですかモデル選択したあとに検定すればいいのですか? モデル選択規準 AIC が一番小さいモデルは一番あてはまりの良いモデルですか? AIC によって選択された統計モデルってどういう意味で「良い」のですか? AIC で選ばれる統計モデルは標本数に影響されますか? AIC が少しでも小さい統計モデルが「良い」モデルなのですか? 統計ソフトウェアが出力する AIC の値だけ確認すればいいのですか? 比較すべき統計モデルの個数が 100 個ぐらいあるんですけど，このときも AIC 最小のモデルを選べばよいのですか? 「パラメーターの重要性」をみるために ``Akaike

oich 2013/09/24

R
統計

リンク

「使い分け」ではなく「妥当かどうか」が大事：重回帰分析＆一般化線形モデル選択まわりの再まとめ - 六本木で働くデータサイエンティストのブログ

先日の記事はおかげさまで好評をいただいたんですが、勉強中の身で教科書を確認せずに書いたこともあり多数ツッコミをいただきました。ツッコミをいただけるというのはもちろん大変良い勉強の機会になるということで*1、今回もひとしきり勉強してみました。ということで、自戒も込めて備忘録的に勉強したことをまとめておこうと思います。今回はあまり広く読んでもらう内容ではないので、不親切かもしれませんがごめんなさい。ただし、あまりにも理論的側面ばかり色々書いても何なので、インターネット広告業界の言葉で喩えて言うなら「クリック数*2をモデリングしたい場合」と「コンバージョン数*3をモデリングしたい場合」とに分けた、と理解してもらえたら良いかなと思ってます。今回も参考文献は久保本です。一般化線形モデルまわりではこの本より分かりやすい本は依然としてないと思います。データ解析のための統計モデリング入門――一般化線

oich 2013/09/24

統計
R

リンク

はてなブックマーク

タグ

2013年9月24日のブックマーク (5件)

ポアソン回帰で推定しているモノはλの式 - 餡子付゛録゛

銀座で働くデータサイエンティストのモデル選択について

生態学データ解析 - FAQ 一般化線形モデル

生態学データ解析 - FAQ モデル選択

「使い分け」ではなく「妥当かどうか」が大事：重回帰分析＆一般化線形モデル選択まわりの再まとめ - 六本木で働くデータサイエンティストのブログ

お知らせ

今週のはてなブックマーク数ランキング（2024年9月第4週）

今週のはてなブックマーク数ランキング（2024年9月第3週）

今週のはてなブックマーク数ランキング（2024年9月第2週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス