R の changepoint パッケージの使い方についてです。 第66回R勉強会@東京(#TokyoR)発表資料 https://atnd.org/events/92993
R の changepoint パッケージの使い方についてです。 第66回R勉強会@東京(#TokyoR)発表資料 https://atnd.org/events/92993
6. 統計モデル 関心のある観測値 y を生成する確率分布 f を 別の観測値 x や未知の値 θ を含む数式で近似したもの 現実によくフィットした統計モデルの発見は →将来発生する y の値の予測、観測できない量の推定 →現実の背景にある構造・法則性への理解につながる 定数・説明変数 パラメター 目的変数 統計 モデル p = f (y | x,θ) y p 面積1 7. 統計モデル 関心のある観測値 y を生成する確率分布 f を 別の観測値 x や未知の値 θ を含む数式で近似したもの 現実によくフィットした統計モデルの発見は →将来発生する y の値の予測、観測できない量の推定 →現実の背景にある構造・法則性への理解につながる 定数・説明変数 パラメター 目的変数 統計 モデル p = f (y | x,θ) y p ご注意 この発表では、あらゆる確率(密度)分布の関数を 同じ記号
こんにちは。 私の趣味は歌詞を読むことです。妄想を歌詞に当てはめてその一致を楽しんだり、ツイートをスクレイピングして歌詞と符合させたりして遊んでいます。 そのためにはたくさん知らないといけないことがあります。私はぜんぜん知りません。 そこで、私は、学ぶことにしました。この記事は学びの軌跡です。主に書籍をまとめました。 載せる本を選んだ基準は以下の通りです。 私は、下記のあらゆる分野で初学者です。専門的なことはわからないので、入門書を選びました。 私は、独学でお勉強します。ひとりで読んでも大丈夫だと思う本を選びました。 私は、いろんな本を読みました。今回はその中でも、よかったものだけを選びました。 分野は、おおむね以下のように分かれました。 統計学 プログラミング データマイニング 数学 国語 文学理論 音楽 グッズでは、順番に書いていきます。読むときはお好きなとこからご覧ください。統計学最
ここ数年、私はデータサイエンスについて学んでいます。おすすめの学習資料を紹介したいと思います。 教師用の教科書と初心者用の教科書 私自身、データサイエンスを学ぼうとして色々なソースを試してみました。残念なことに、日本語の良い学習資料は見つけられませんでした。どこかのブログで読んだことがありますが、教科書は教師用と学生用の二週類があるそうです。一つめは内容が既に分かっている教師の為の教科書で、日本はこのタイプです。もう一つのタイプの教科書は自学自習を目的に作られているので、教師なしで学ぶできる教科書になっているということで、アメリカはこのタイプの教科書が多いです。私自身、他の文系・理系の教科書を探した時もアメリカの教科書の方が分かりやすく、その本だけを読めば分かるようになっていると同じ印象を持ちました。 オンライン教育(MOOC) アメリカは科学教育に熱心であり、最近はやりのMOOCでも豊富
┗間隔尺度および順序尺度のための検定 統計は何回勉強しても、すぐ忘れてしまう。一番知りたいことは、どの統計を使うかということ。 しかし、重要な点は、検定を行うのはどういうデータであるか? 得られたデータをグラフにしてみて、「比較すべきポイントは何か?」をつかむ!
某所の(1)ポアソン回帰モデルの説明が、(2)対数変換OLSと同じになっている気がします。違うものだと思うのですが、シミュレーションをして(1)と(2)の推定をして確認してみました。 1. モデル ポアソン分布はパラメーターで決定されるわけですが、を説明変数で説明するモデルになります。個のパラメータがあり、を説明変数、を係数として、以下のような式ですね。 被説明変数の値が0以上の整数のときの確率を、は間接的に決定するわけですね。教科書的には最尤法を用いて求めることになるみたいですが、実用的にはリンク関数を用いて一般化線形回帰モデルで推定できるようです。 2. データ作成 まずはポアソン回帰モデル用のデータxとyを作成します。 set.seed(20130919) x <- round(runif(100, max=3)) lambda <- exp(1.1 + 1*x) y <- nume
『今さら人に聞けない「重回帰分析の各手法の使い分け」 』と言うブログのエントリーがあって、一般化線形モデル(GLM)の使い分け(Rの関数glmとパッケージMASS)の説明がされているのだが、理系実験室から出てきた人のせいか、色々と怪しく感じる所がある。純粋文系プログラマとして問題点を指摘してみたい。 1. 離散データだから最小二乗法が使えないわけではない 全体として、モデルの説明がおかしい。推定モデルの使い分けが良く分かってい無い気がする。問題のエントリーには、『クリック数という「カウントデータ=離散値データ」』だから『普通の線形回帰』と表現されている一般最小二乗法(OLS)は正しく推定できない可能性があるので、ポアソン回帰モデルや負の二項分布回帰モデルにしようと言っている。しかし、離散データでもプロビットのような二項/多値選択モデルであったり、切り落としのトービット・モデルで無い限りは、
ここでは R の glm() を使って解析した場合の説明をしてみます 参照: FAQ 系ペイジ一覧, GLM 参照, summary(glm()) の星 この説明もしっかり読みましょう!信頼区間って難しい… [項目] 研究発表で「GLM を使った」と説明するときにはどうしたらよいでしょうか? GLM で得られた結果を発表・説明するときにはどうしたらよいでしょうか? 説明変数,応答変数って何ですか? family で指定する確率分布は「誤差の分布」ですか? family 指定はどうすればよいのでしょうか? 応答変数のばらつきが family 指定ではうまく表現できないときはどうすればいいのでしょうか? (一般化) 線形モデルは必ず交互作用項を含んでいなければならないのですか? glm() とかで Y ~ X1 + X1:X2 というふうに X2 は使わないときに交互作用項 X1:X2 だけを
統計学的なモデル選択 (とくに AIC を使ったモデル選択) についてよくある質問と 久保 によるてきとーなる回答を並べてみました 参照: FAQ 系ペイジ一覧, FAQ stepAIC() モデル選択 [項目] モデル選択とは何ですか モデル選択したあとに検定すればいいのですか? モデル選択規準 AIC が一番小さいモデルは一番あてはまりの良いモデルですか? AIC によって選択された統計モデルってどういう意味で「良い」のですか? AIC で選ばれる統計モデルは標本数に影響されますか? AIC が少しでも小さい統計モデルが「良い」モデルなのですか? 統計ソフトウェアが出力する AIC の値だけ確認すればいいのですか? 比較すべき統計モデルの個数が 100 個ぐらいあるんですけど,このときも AIC 最小のモデルを選べばよいのですか? 「パラメーターの重要性」をみるために ``Akaike
先日の記事はおかげさまで好評をいただいたんですが、勉強中の身で教科書を確認せずに書いたこともあり多数ツッコミをいただきました。ツッコミをいただけるというのはもちろん大変良い勉強の機会になるということで*1、今回もひとしきり勉強してみました。 ということで、自戒も込めて備忘録的に勉強したことをまとめておこうと思います。今回はあまり広く読んでもらう内容ではないので、不親切かもしれませんがごめんなさい。ただし、あまりにも理論的側面ばかり色々書いても何なので、インターネット広告業界の言葉で喩えて言うなら「クリック数*2をモデリングしたい場合」と「コンバージョン数*3をモデリングしたい場合」とに分けた、と理解してもらえたら良いかなと思ってます。 今回も参考文献は久保本です。一般化線形モデルまわりではこの本より分かりやすい本は依然としてないと思います。 データ解析のための統計モデリング入門――一般化線
(※※※続編記事書きました→「使い分け」ではなく「妥当かどうか」が大事:重回帰分析&一般化線形モデル選択まわりの再まとめ) 今ちょうどadtech tokyo 2013の会期中で、職場からも近い&会社から行ってこいという指示が出たということで僕も色々セッションを聞いたり企業ブースのお話を聞いたりしてる*1ところです。 ところで、いくつかのセッションの中でキーワードとして「重回帰分析」という言葉が出てきてました。ま、それ自体はこのブログでもRによるデータ分析絡みで頻出だし、ぶっちゃけありふれた手法と言って良いでしょう。やりようによっては普通にExcelでもできますし、それだけ人口に膾炙していると言って良いのかもですね。 ただし。意外にも内部のパラメータというか細かい手法の分岐というか、それこそ普通の線形モデルvs.一般化線形モデル(バリエーション多数)があることを無視して漫然と重回帰分析をや
最終更新日:2022年08月24日 前口上へ 第1章へ webmaster@snap-tck.com Copyleft (C) 2000 SNAP(Sugimoto Norio Art Production)
みなさまお久しぶりです。私はけっきょくminor revisionに三ヶ月もかかってしまい他の仕事にしわ寄せキまくってます。 今回は某勉強会で傾向スコアを扱ったのでその勉強会資料をアップしてみます(環境によってはサムネ画像がでないかも)。 傾向スコア:その概念とRによる実装 View more presentations from takehikoihayashi *上のファイルはプレゼン用(差分)なので印刷用PDF資料としてはこちらのファイル( PSAseminar_file20120426.pdf )をどうぞ。 *追記:上記のプレゼン内で使っているRのscriptのfileもどうぞ( PropScore_Rscript.R ) 傾向スコアってなにそれおいしいの? 傾向スコアとは何かというと、実験ができない場合(調査観察データなど)における交絡の調整方法です。(一応言っておきますが交絡を
サービス終了のお知らせ NAVERまとめは2020年9月30日をもちましてサービス終了いたしました。 約11年間、NAVERまとめをご利用・ご愛顧いただき誠にありがとうございました。
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く