ブックマーク / okumuralab.org/~okumura (8)

  • Rで楽しむStan

    Rで楽しむStan(工事中) はじめに 『Rで楽しむベイズ統計入門』は,ベイズ統計の考え方と,Rを使った基的な計算のしかたを,丁寧に説明したです。最後のMCMCの章も,JAGSやStanなどの使い方については一切触れず,MCMCアルゴリズムを素直にRで実行して結果を調べるところまでで止めています。近年はStanが人気ですので,Stanの使い方を含めたい気持ちはありましたが,開発が進行中のソフトですので,現時点での使い方を書いても,すぐに古くなってしまう可能性があります。 そこで,StanについてはWebで補足することにしました。 Stanのアルゴリズム(HMC法)については書でも概要を説明しましたが,かなり複雑です。実装についても,StanのコードをC++に変換してコンパイルして実行するという複雑な仕組みになっています。そのような複雑な仕組みは,複雑な問題で初めて威力を発揮するもので

    wackyhope
    wackyhope 2018/02/12
    『Rで楽しむベイズ統計入門』7.2〜7.7の内容をStanコードにしたものを掲載。著者による補足。
  • 2×2の表,オッズ比,相対危険度

    この表を縦に読んでいくと,次のようになります: c(231, 26, 23036, 10813) [1] 231 26 23036 10813 これを2行2列の行列の形にするには,次のように行数(nrow),列数(ncol)のどちらかを指定します: matrix(c(231,26,23036,10813), nrow=2) [,1] [,2] [1,] 231 23036 [2,] 26 10813 数値を横に(行ごとに)読んでいった場合は,次のように byrow=TRUE というオプションを与えます: matrix(c(231,23036,26,10813), nrow=2, byrow=TRUE) [,1] [,2] [1,] 231 23036 [2,] 26 10813 変数に代入しましょう: x = matrix(c(231,26,23036,10813), nrow=2) x

    wackyhope
    wackyhope 2017/05/18
    Rで算出できる複数の方法と比較もあり。参考に。
  • メタアナリシス(メタ分析・メタ解析)

    メタアナリシスとは 伝統的な統計学では,$p \leq 0.05$ で帰無仮説を棄却(「有意」),そうでなければ帰無仮説を棄却しないといった二分法の考え方が支配的でした。その副作用として,例えばある薬がある病気に有用かどうか調べる研究がいくつか行われ,多くの研究が有意でない結果を出したとすると,「薬の効果はなさそうだ」あるいは「はっきりしない」という結論が出され,せっかくの有用な薬が広く利用されないといったことが起こり得ました。しかし,有意でない結果でも,いくつか合わせれば非常に有意な結果が導けるかもしれないのです。そのためには,「有意か有意でないか」の二分法をやめ,効果量(effect size)とその誤差(標準誤差または信頼区間)あるいはそれらを導くためのデータを報告することが必要になります。 Publication Manual of the American Psychologic

    wackyhope
    wackyhope 2017/01/26
    三重大・奥村晴彦先生の解説。参考に。
  • ロジスティック回帰と変数選択

    ロジスティック回帰とは $n$ 人について $m$ 個の変数を測定した。$i$ 番の人の $j$ 番の変数の値を $x_{ij}$ とする。また,$i$ 番の人がある性質を満たすならば $y_i = 1$,そうでなければ $y_i = 0$ で表す。ここで $y_i$ を $x_{ij}$ から予測するのが問題である。具体的には,模擬試験や内申書の成績から入試の合否を予測する問題や,性別・年齢・血圧などから病気を予測する問題がこれである。 このように結果が 0 か 1 かに限られる場合は,結果が 1 となる確率 $p_i$ を $x_{ij}$ についての線形の式で予測することが考えられる。しかし,確率は $0 \leq p_i \leq 1$ の範囲に限られるので, \[ \mathrm{logit}(p) = \log \frac{p}{1-p}, \qquad p = \mathrm

    wackyhope
    wackyhope 2016/12/10
    得られた予測式の検証の仕方も記載。参考に。
  • Rの初歩

    Rのインストール R(アール)は統計・データ解析・統計グラフ作成のためのオープンソースソフトです。CRAN(「シーラン」または「クラン」、Comprehensive R Archive Network)のミラーサイト(日では統数研 https://cran.ism.ac.jp/ など)からダウンロードし、インストールしてください。Windows用、Mac用、Linux用があります。 最近では下図のような RStudio(アール・スタジオ、英語の発音により忠実に書けばアール・ステューディオまたはアール・ストゥーディオ)という統合開発環境(IDE)を介してRを使う人が増えています。Download RStudio Desktop のページからダウンロードしてインストールします。 RStudio。左上ペインがソースエディタ(この図では隠れている)、左下がRコンソール、右上がグローバル環境のオブ

  • 信頼区間って何?

    「95%信頼区間とは,真の値が入る確率が95%の区間のことです」というような説明をすることがあります。私も,一般のかたに説明するときは,ついそのように言ってしまうことがあります。でも当は真っ赤なウソです。主観確率を扱うベイズ統計学はここでは考えません。 正規分布では,ウソの考え方をしても結論が同じになることがあるので,ここではわざと,左右非対称なポアソン分布を考えます。 ポアソン分布とは,1日に起こる地震の数,1時間に窓口を訪れるお客の数,1分間に測定器に当たる放射線の数などを表す分布です。平均 $\lambda$ のポアソン分布の確率分布は次の式で表されます: \[ p_k = \frac{\lambda^k e^{-\lambda}}{k!} \] $\lambda = 10$ のポアソン分布の確率分布をグラフにすると次のようになります(当は右に無限に延びるのですが,$k = 30

    wackyhope
    wackyhope 2015/08/26
    三重大・奥村晴彦教授の統計学解説のページの一つ。
  • 統計・データ解析

    『Rで楽しむ統計』が出ました。サポートページ 『Rで楽しむベイズ統計入門』が出ました。サポートページ,第7章のRコードをStanで書き直したRで楽しむStan 全国学力・学習状況調査の個票の疑似データがこちらで公開されています。データ分析の練習に使えそうです。SSDSE(教育用標準データセット)も。 R 4.x では stringsAsFactors=FALSE がデフォルトになりましたが,サイトの古い記事ではそうなっていないところがあるかもしれません(read.csv() などで as.is=TRUE は不要になります(あってもかまいませんが))。 R 4.2 ではWindowsでもMac同様UTF-8がデフォルトになりました。もう fileEncoding オプションに "UTF-8","UTF-8-BOM" を指定する必要はなくなりそうです。一方で、SJIS(CP932)データの場

    wackyhope
    wackyhope 2015/06/07
    三重大学・奥村晴彦教授による統計解析の基礎知識・用語解説集。
  • データは自動処理可能な形で提供してほしい | Okumura's Blog

    今回の大震災に伴う原発事故であちこちで放射線の強度が公開されているが,多くはPDF形式で,数値が取り出しにくく,ひどいものは印刷してからスキャンした画像PDFである。いくつか重要なものはExcel/CSV化してとりあえず http://oku.edu.mie-u.ac.jp/~okumura/stat/data/ で公開しているが,もともと機械可読(自動処理可能)な形で提供してほしい。しかも,時間をかけてワープロできれいに罫線を引いて手打ちするのではなく,測定値を実時間で提供する仕組みを作ってほしい。なお,このようなデータ提供のセンスも情報リテラシー教育の一つとして学校で教えてほしい。 一番重要なデータは東京電力が提供する福島第一・第二原子力発電所のモニタリングの結果である。以前はプレスリリースからたどるのがわかりやすかったのでこのページをチェックしていたが,「3月18日福島第二原子力発電

    wackyhope
    wackyhope 2011/03/20
    震災・原発事故からの放射線強度データがPDF等で提供される事に関して。「データ提供のセンスも情報リテラシー教育の一つとして学校で教えてほしい」
  • 1