タグ

ブックマーク / aoki2.si.gunma-u.ac.jp (20)

  • 二群の平均値(代表値)の差を検定するとき

    二群の平均値(代表値)の差を検定するとき First upload: Feb 02, 2007 Last modified: Feb 10, 2007 1. はじめに 二群の平均値(代表値)の差の検定をするときに,両群の分散が違うといろいろ問題が残る。 粕谷によれば,そのようなときには,分散の影響を受けない中央値検定を採用すればよいと書いてあるという情報・書き込みがいくつも現れる。 当にそうだろうか。粕谷1)はそのように書いてあるのだろうか。 いろいろ検討してみたが,粕谷は「分散が等しくないから中央値検定」などと単純には言っていないようだし,その後の同じ学会誌に Markus Neuhäuser2) は別の提言をしている。 分散が等しくない場合の二群の代表値の差の検定に困難が伴うのは古くからの議論である。 しかし,だからといって,データ水準や検出力の面から考えて最低位に位置づけられれ中央

  • R -- ローレンツ曲線(ジニ係数)

    ローレンツ曲線(ジニ係数)     Last modified: Jun 28, 2004 目的 ローレンツ曲線を描き,ジニ係数を計算する。 使用法 Gini.index(dat, main="Lorenz curve", xlab="", ylab="") 引数 dat データベクトル main 図のタイトル 省略時は何も書かない xlab x 軸の名前 省略時は何も書かない ylab y 軸の名前 省略時には何も書かない ソース インストールは,以下の 1 行をコピーし,R コンソールにペーストする source("http://aoki2.si.gunma-u.ac.jp/R/src/Gini_index.R", encoding="euc-jp") # ローレンツ曲線を描き,ジニ係数を計算する Gini.index <- function( y, # データベクトル main=""

  • パラメトリックな手法とノンパラメトリックな手法

    パラメトリックな手法とノンパラメトリックな手法     Last modified: May 16, 2002 パラメトリックな手法 母集団の特性を規定する母数についてある仮説を設けるもので,平均値の差の検定($t$ 検定と略称されることが多い)や分散分析($F$ 検定と略称されることがある)などがこれに該当する。これらの検定手法では,母集団の正規性や等分散性が仮定される。 ノンパラメトリックな手法 母集団の分布型(母数)について一切の仮定を設けない。 このため,分布によらない手法と呼ばれることもある。 特に,標サイズが小さい場合には,それから求められた統計量の分布型は不正確なことが多く,パラメトリックな手法を適用することは不適切になりやすい。 しかし,ノンパラメトリックな手法は常に適用可能である。 このほかにも両者の相違点は数多く,それらは表 1 のようにまとめられる。

  • R -- 散布図(各種の描画機能付き)

    散布図(各種の描画機能付き)     Last modified: Aug 13, 2009 目的 散布図を描き,棄却楕円(確率楕円),回帰直線,回帰直線の信頼限界帯,MA,RMA による回帰直線を描く。 使用法 scatter(x, y, ellipse=F, lrl=F, cb=F, ma=F, rma=F, alpha=0.05) 引数 x 独立変数(横軸) y 従属変数(縦軸) ellipse 確率楕円を描くとき ellipse=TRUE を指定 注 lrl 回帰直線を描くとき lel=TRUE を指定 注 cb 回帰直線の信頼限界帯を描くとき cb=TRUE を指定 ma Major Axis regression による回帰直線を描くとき ma=TRUE を指定 注 rma Reduced Major Axis regression による回帰直線を描くとき rma=TRUE

    abrahamcow
    abrahamcow 2014/07/30
    楕円
  • 比率の差の多重比較(対比較)

  • R -- 多角形の面積

    abrahamcow
    abrahamcow 2014/06/04
  • R を使って実際に統計解析をする AtoZ

    連続変数をカテゴリー変数に変換する     Last modified: Mar 28, 2006 連続変数をカテゴリー変数に変換するために使用するのは cut 関数である。オンライン・ヘルプで cut 関数を調べればたいていのことが片づく。 取っつきが悪いかも知れないので簡単な訳を付けておこう。 使用法: cut(x, breaks, labels=NULL, include.lowest=FALSE, right=TRUE, dig.lab=3) x 対象とする連続変数データの入っている数値ベクトル breaks 分割点を意味する複数の値で指定するか,いくつの区間に分割するかを意味する 1 個の値で指定する labels 分割されたデータはカテゴリー・データ(factor)になる。labels でカテゴリーに名前を付けることができる labels = FALSE とすれば,単に整数値で

    abrahamcow
    abrahamcow 2014/05/10
  • R -- 共分散分析

    共分散分析     Last modified: Jun 29, 2004 目的 共分散分析を行う 使用法 covar.test(dat, cp1, cp2, cp3) 引数 dat データ行列(行がケース,列が変数) cp1 独立変数の列番号 cp2 従属変数の列番号 cp3 群変数の列番号 ソース インストールは,以下の 1 行をコピーし,R コンソールにペーストする source("http://aoki2.si.gunma-u.ac.jp/R/src/covar_test.R", encoding="euc-jp") # 共分散分析 covar.test <- function( dat, # データ行列 cp1, # 独立変数の列番号 cp2, # 従属変数の列番号 cp3) # 群変数の列番号 { dat <- subset(dat, complete.cases(dat[,c

    abrahamcow
    abrahamcow 2014/05/01
    AVCOVA“共分散分析”
  • 「統計学関連なんでもあり」の過去ログ---002

    abrahamcow
    abrahamcow 2014/04/23
    残差平方和とAICの関係
  • 二群の比率の差の検定

    二群の比率の差の検定     Last modified: Apr 08, 2006 例題: 「内閣の支持率調査で,男の有権者の 300 人中 145 人,女の有権者 250 人中 157 人が支持していた。男女で支持率に差があるかどうか検定しなさい。」 注意:以下に述べるのは,正規分布を用いる近似的な検定方法である。「近似法」という意味は,「サンプルサイズが大きい場合には」という意味合いである。どの程度のサンプルサイズなら近似が成り立つのか心配ならば,サンプルサイズの大きさに関わりなくいつも正確な検定結果を与えるフィッシャーの正確検定を適用することを勧める。 検定手順: 記号の定義 第 $1$ 群のケース数を $n_1$,ある特性を持つものの数(陽性数と呼ぶことにする)を $r_{1}$,第 $2$ 群のケース数を $n_2$,陽性数を $r_{2}$ とする。 各群の比率を $p_{1

  • JavaScript

  • 「統計学関連なんでもあり」の過去ログ---024

    abrahamcow
    abrahamcow 2014/02/21
    arcsin変換
  • R -- 塗り分け地図を描く

    塗り分け地図を描く     Last modified: Oct 31, 2006 目的 塗り分け地図を描く (単なる白地図も描けるが,その場合には map.draw でもよい) 使用法 map(code, density, color) ただし,このままでは場合によっては使いにくいので,いくつかのレディー・メードの関数(ラッパー;上位関数)を用意している。 引数 code 描画する都道府県コード(1:北海道〜47:沖縄まで) density ハッチングの 1 インチあたりの密度 color 色の指定 density と color の要素数は,描画する都道府県の数(code の要素数)と同じ個数でないといけない density, color を両方とも省略すると,白地図 density のみを指定すると,モノクロのハッチングによる塗り分け地図 color のみを指定すると,その色での塗り

  • 母比率の信頼区間

    母比率の信頼区間     Last modified: Mar 17, 2004 例題: 「内閣の支持率を $500$ 人の有権者に調査したところ $35\%$ であった。支持率の $95\%$ 信頼区間を求めなさい。」 推定手順: 記号の定義 ケース数を $n$,そのうちで対象とする属性を持つもの(陽性数と呼ぶことにする)の数を $r$ とする。標比率を $p$,信頼率を $A$ とする。 例題では,$n = 500$,$p = 0.35$,$r = n\ p = 175$,$A = 0.95$ である。 $(1-\alpha) 100\%$ 信頼限界を求める。信頼率に対応する $\alpha$ を求めておく($\alpha = 1-A$)。 例題では,$\alpha = 0.05$ である。 条件により以下の方法をとる。 $p = 0$ の場合 上側信頼限界 $= 1-\alpha^

  • R -- 母比率の信頼区間

    abrahamcow
    abrahamcow 2014/02/05
  • R -- パレート図

  • 独立性の検定

    表 2 のような $k \times m$ 分割表で,変数 A の第 $i$ カテゴリー,変数 B の第 $j$ カテゴリーの観察値を $O_{ij}$ とする。 また,$n_{i\cdot }$ を第 $i$ 行の合計,$n_{\cdot j}$ を第 $j$ 列の合計とする。 帰無仮説のもとでは,変数 A の第 $i$ カテゴリー,変数 B の第 $j$ カテゴリーの期待値は次式で表される。 \[ E_{ij} = \frac{n_{i\cdot}\ n_{\cdot j}} {n} \] 例題では,O 型の胃癌患者の期待値は,$E_{32} = 50\cdot 30 / 163 = 9.202$ 等のように計算される。 全ての桝目について $\displaystyle \frac {( O_{ij} - E_{ij} ) ^{2}} {E_{ij}}$ の合計をとったものを $\ch

    abrahamcow
    abrahamcow 2012/09/26
  • R -- ワイブル分布のパラメータの最尤推定

    ワイブル分布のパラメータの最尤推定     Last modified: Dec 07, 2004 目的 ワイブル分布のパラメータを最尤推定する。 使用法 weibull.par(x, epsilon=1e-7) 引数 x データベクトル epsilon 収束判定値(省略時には 1e-7 が仮定される) max.loop 収束計算の上限回数(省略時には 500 回が仮定される) ソース 大きさ n の標 x1, x2, ..., xn から,α および m の最尤推定量を求めるには, 1/α = n / Σ xim m = n / (Σ(xim * ln(xi))-Σln(xi)) を,1/α と m に関して反復法により求める。 インストールは,以下の 1 行をコピーし,R コンソールにペーストする source("http://aoki2.si.gunma-u.ac.jp/R/src

    abrahamcow
    abrahamcow 2012/05/09
  • 「統計学関連なんでもあり」の過去ログ--- 042

    No.10526 エラーバーについて  【MIA】 2009/07/29(Wed) 20:16 初めまして。 すごく初歩的ですみませんが,エラーバーについて質問があります。 エラーバーに使われる指標にS.D.とS.E.が多いのはなぜでしょうか。 Cumming. G. et al.(2007). Error bar in experimental biology によると,C.I.を使うことが20年ぐらい前から勧められているようです。 S.D.とS.E.が多いのはただ単に慣習だからでしょうか。 No.10528 Re: エラーバーについて  【青木繁伸】 2009/07/29(Wed) 21:49 > S.D.とS.E.が多いのはただ単に慣習だからでしょうか。 そうでしょう。しかも,S.D. と S.E. では,意味が全く異なる上,当はこっちを使うべしといっている > C.I.を使うこと

  • 「統計学関連なんでもあり」の過去ログ--- 038

    No.00236 標準偏差と標準誤差  【ゲンゴロウ】 2006/06/02(Fri) 10:36 初歩的な質問ですみません。 医学研究機関に携わっているものですが,通常はデータを平均値とSDで表すことが多いと思います。 しかしときたまSEで表されることがあります。定義としてはSDは個々のデータのばらつきをしめし SEは平均値のばらつきをしめすもの,ということですが,今ひとつピンときません。 定義はいいとして,それでは具体的にSEを使うのはどのような場合なのでしょうか。 SDの適用との違いを具体例で説明していただければ助かります。 すみませんがよろしくお願いいたします。 No.00237 Re: 標準偏差と標準誤差  【青木繁伸】 06/06/02(Fri) 14:01 少々長くなりますが,R で実際にシミュレーションしながら(その結果を見ながら)読んでみてください。 まず,最初に標準偏差

  • 1