タグ

ブックマーク / okumuralab.org/~okumura (7)

  • 統計グラフの色

    [TODO] R 4.0.0 以降の色についてはそのうち書きます。とりあえず palette() のヘルプをご覧ください。palette("Okabe-Ito") とするとsafe colorsになります。→ A New palette() for R,Color Universal Design,Essentials of color in R。あと Colorspace 2.0 とその JSS paper。 はじめに 統計グラフに色を付けることは広く行われています。しかし,色は万人に共通のものではありません。日人男性の5%,白人男性の8%は,RGB(赤緑青)のうち赤と緑の区別がうまくできません。その内訳は1:3で赤の感受性がないP型(1型,protanopia)と緑の感受性がないD型(2型,deuteranopia)に分かれます。青を感じない人や,RGBのうち2色以上を感じない人もい

    kazutan711
    kazutan711 2015/08/24
    大切なことなんで定期的に読み返してる。
  • 大阪市における特別区の設置についての投票

    2015年5月17日,大阪都構想の住民投票が行われたが,賛成694844,反対705585の僅差で,大阪市の存続が決まった。 区ごとの開票結果 区ごとの有権者数・投票者数 区ごとの期日前投票・不在者投票者数(前回2011年の市長選挙時の値も参考として挙げられている) これらのデータの冗長な部分を除いたすべてを osaka2015.csv として置いておく(文字コードはUTF-8)。Rでの読み込みは次のようにしてできる。 osaka = read.csv("http://okumuralab.org/~okumura/stat/data/osaka2015.csv") これだけでもいろいろグラフが描けるが,やはり区ごとの年齢構成が重要である。 大阪市市政 年齢別推計人口 このデータはExcelだがやや自動処理がしにくい。Hiroaki Yutaniさん(@yutannihilation)がC

    kazutan711
    kazutan711 2015/05/20
  • Brunner-Munzel検定

    [2019-02-16追記] @TA25140989 さんが brunnermunzel パッケージを作られました。これは,内部を Fortran で高速化し,並べ替え Brunner-Munzel 検定もできる優れものです。 [2019-03-10追記] 上記パッケージがCRANに入りました: brunnermunzel: (Permuted) Brunner-Munzel Test。「lawstatパッケージに由来する不具合は次回更新時に修正します(GitHubでは対応済)」とのことです。 [2019-04-10追記] 上記パッケージに計算のおかしいところがあったようで,これから修正が入るようです修正版が出ました。 はじめに 二つの確率変数 $X_1$,$X_2$ が同じ分布に従うという帰無仮説を検定するには,有名なWMW検定(Wilcoxon-Mann-Whitney test)が使

    kazutan711
    kazutan711 2015/01/23
    こういうのもあったのか…
  • RをIPython Notebookから使う

    ちょっと古くなりすぎたので,いったんトップからのリンクを外しました。そのうち更新します。 はじめに プログラミング言語PythonにはIPythonという対話型のシェルがあり,さらにこれをWebブラウザから使うIPython Notebookという仕組みがあります(Mathematica Notebookみたいなもの)。ここで取り上げるのはIPython 2のNotebookですが,IPython 3が開発中で,さらに次世代のJupyter Projectが始まりました。「Jupyter」の名前に含まれるJuliaPython,Rが便利に使えるシェルになると思われます。 ここでは普通のIPython 2.xからRを使う方法を説明します。 準備 まずはPython,IPythonをインストールする必要があります。また,rpy2というPythonのパッケージが必要です。Pythonがインスト

  • 統計・データ解析

    『Rで楽しむ統計』が出ました。サポートページ 『Rで楽しむベイズ統計入門』が出ました。サポートページ,第7章のRコードをStanで書き直したRで楽しむStan 全国学力・学習状況調査の個票の疑似データがこちらで公開されています。データ分析の練習に使えそうです。SSDSE(教育用標準データセット)も。 R 4.x では stringsAsFactors=FALSE がデフォルトになりましたが,サイトの古い記事ではそうなっていないところがあるかもしれません(read.csv() などで as.is=TRUE は不要になります(あってもかまいませんが))。 R 4.2 ではWindowsでもMac同様UTF-8がデフォルトになりました。もう fileEncoding オプションに "UTF-8","UTF-8-BOM" を指定する必要はなくなりそうです。一方で、SJIS(CP932)データの場

  • 効果量,Cohen's d,検出力,検出限界

    効果量,Cohen's d,検出力,検出限界 未定原稿です。 効果量(effect size) ある薬の効果を調べたら $p < 0.05$ で有意だった。有意差でた! よかった♡ でも,これでは,$p = 0.049$ なのか $p = 0.0000001$ なのかわからない。どうせ $p$ 値を書くのなら,$p < 0.05$ のような不等式ではなく,具体的に $p = 0.023$ などと書くほうがよい(例えば Publication Manual of the American Psychological Association 参照)。 さらに言えば,そもそも,$p$ 値は効果の大きさを表す量ではない。具体的に,例えば「高血圧症の人の収縮期血圧が平均 5mmHg だけ下がった。95% 信頼区間は [1, 9] だった」と書くほうがよい([1, 9] は $1 \leq x \le

  • 信頼区間って何?

    「95%信頼区間とは,真の値が入る確率が95%の区間のことです」というような説明をすることがあります。私も,一般のかたに説明するときは,ついそのように言ってしまうことがあります。でも当は真っ赤なウソです。主観確率を扱うベイズ統計学はここでは考えません。 正規分布では,ウソの考え方をしても結論が同じになることがあるので,ここではわざと,左右非対称なポアソン分布を考えます。 ポアソン分布とは,1日に起こる地震の数,1時間に窓口を訪れるお客の数,1分間に測定器に当たる放射線の数などを表す分布です。平均 $\lambda$ のポアソン分布の確率分布は次の式で表されます: \[ p_k = \frac{\lambda^k e^{-\lambda}}{k!} \] $\lambda = 10$ のポアソン分布の確率分布をグラフにすると次のようになります(当は右に無限に延びるのですが,$k = 30

  • 1