サクサク読めて、アプリ限定の機能も多数!
トップへ戻る
WWDC24
biolab.sakura.ne.jp
ロバストzスコア:中央値と四分位数で,非正規分布,外れ値を含む標準化 井口豊(生物科学研究所,長野県岡谷市) 最終更新:2022年08月21日 1. 標準化とは 統計学で最もよく知られた標準化あるいは基準化は,確率変数 X を平均 0,標準偏差 1 となるように変数変換することである。変換された確率変数を z で表すと以下のようになる。 \[ z=\frac{(X-\mu)}{\sigma} \] この z は,標準スコアあるいは z スコア と呼ばれることもある。 一般的には,平均 μ,標準偏差 σ の正規分布に従う確率変数 X に対して標準化が行われ, z は μ = 0,σ = 1 の標準正規分布 N(0, 1) に従う確率変数となる。ただし,正規分布以外でも,標準化は行われる。 2. 中央値と四分位数を用いた標準化 平均と標準偏差を用いた標準化は良く知られているが, 中央値と四分位
この表から,以下のことが容易に分かる。 Excel の決定係数はマイナス Excel の Linest 関数と統計ソフト R では,同じ決定係数 Calc の決定係数は,相関係数の 2 乗 それでは, Excel のグラフと Linest 関数,および統計ソフト R の決定係数は,どのように算出されるのだろうか? それを明らかにするためには,まず回帰分散分析として,y 観測値を,以下のような3種類の変動として捉えてみることが必要になる。 回帰変動(回帰平方和, RSS, Regression Sum of Squares) 残差変動(残差平方和, SSR,Sum of Squared Residuals) 全変動(全平方和, TSS,Total Sum of Squares) 全変動は回帰変動と残差変動の和になる。 TSS = RSS + SSR この中で,特に SSR と TSS に焦点
統計学の基準値の由来:5%有意水準,カイ二乗検定,相関係数の出典と引用 井口豊(生物科学研究所,長野県岡谷市) 最終更新:2023 年 10 月 21 日 1. はじめに 統計学において,しばしば用いる基準値というものがある。それにもかかわらず,その由来とか,出典元とかが不明のまま使われる基準値がある。それがあまりにも有名で広く使われているために,かえって原典が不明になってしまったケースと言って良い。ここでは,そのような基準値の原典は何か,という考察である。興味のある人は,実際にその原典までたどって読んでほしい。いくつかの文献には, PDF が読めるサイトをリンクした。なお, 四分位数の定義とその用語の歴史については,別のページの解説参照: 四分位数と四分位群:複数定義と用語の区別,その歴史 なお,本ページは,以下の論文に引用されています。 高野真史・倉持龍彦・久松学・細川正浩・蜂谷仁 (
カイ二乗検定(独立性検定)から残差分析へ:全体から項目別への検定 井口豊(生物科学研究所,長野県岡谷市) 最終更新: 2024 年 1 月 4 日 1. はじめに カイ二乗検定が,独立性の検定,つまり,独立な標本間の比率の差の検定,として用いられることは,よく知られている。しかし,カイ二乗検定は全体としての比率の違いは検出するが,個別の項目のどこに差があるかを示さない。その目的で通常行われるのが残差分析であるが,初等的な教科書には載っていないこともあって,あまり知られていない。 ここでは,カイ二乗検定とは何かを間単に説明し,その後,残差分析を解説する。さらに,多重検定としての Benjamini & Hochberg 法も紹介し,残差分析を行なっている日本語文献も紹介した。 本ウエブサイトは,以下の論文で引用されている。 山下良奈(2015) 新語の理解度の男女差と年齢差 語文 153:
回帰と相関,知っているようで知らない,その本質:Excel の回帰分析を例として 井口豊(生物科学研究所,長野県岡谷市) 最終更新:2024 年 1 月 19 日 1. はじめに このページでは,回帰直線とはどのようなものなのか理論的に考え,最小二乗法による直線回帰の「誤解」について取り上げたい。特に, Microsoft の Excel (エクセル)を用いて回帰分析の具体例を示し,その理論的背景を考えてみたい。 これは,読んで字のごとく,データ点からの二乗和が最小になる近似式(適合式),を求めるものである。ところが,この「データ点からの距離」の取り方が,「くせもの」なのである。 最小二乗法は頻繁に行われる直線近似法である。 Excel などの表計算ソフトでも容易に出来る。しかし,それがゆえに,どんな計算法か知らずに適用されてきているのも事実である。 ここでは,最も単純な2変数x, yのデ
サンプル数とサンプルサイズ n は意味が違う 井口豊(生物科学研究所,長野県岡谷市) 最終更新:2024 年 2 月 14 日 この問題に関しては,黒木玄さんのコメントも非常に参考になる(X 2024年2月14日午前10:08 およびその後の補足)。 特に,以下のコメントである(X 2024年2月14日午前10:08)。 元々の専門用語の作り方が悪いので、読むときには文脈に合わせて寛容な態度で解釈し、書くときには悪しき伝統に頼らずに分かりやすく説明する努力をするべきだと思います。 以上の指摘を十分に念頭に置いた上で,以下の説明も読んでほしい。 統計学の用語には,日常用語に似た語もあるためか,頻繁に誤用される語がある。例えば,別ページに解説した「母数」などは,その最たるもので,朝日新聞の統計記事でも誤用されてる。 統計学の基本用語.母数は分母でも全数でもない!:母数とは母平均や母分散 この母
比率の差Z検定の注意点:統合比率を使う理由 井口豊(生物科学研究所,長野県岡谷市) 最終更新:2019年12月24日 母比率の差の検定(独立2群の比率の差の検定)として, Z 検定を行う場合,基本となる検定統計量は以下の式である。 ここで,n1, n2 は 2 群それぞれの標本サイズであり,p1, p2 は,それぞれの標本比率である。この Z が標準正規分布にしたがうことを利用して検定する。 それぞれの標本で観察された属性の個数を x1, x2 とすれば,p1, p2 は,以下のように書ける。 しかしながら,このとき,帰無仮説が 2 群の母比率に差がない,という場合は,分母には,p1, p2 を別々に使わず,以下のような標本比率をプールした統合比率(pooled proportion) p を用いる。 ここで, x1, x2 は,それぞれの標本で観察された属性である。したがって, Z 検定
ド・モアブル-ラプラスの定理 ある事象 A が確率 p で起きる独立試行を n 回行ったとき, A が現れる回数 X は確率変数であり,それは二項分布 B(n,p) に従う。この確率変数 X は n が十分大きくなると,近似的に,平均 np,分散 np(1-p) の正規分布 N(np,np(1-p)) に従う。また,標本比率 X/n を考えると,それは近似的に正規分布 N(p,p(1-p)/n) に従う。 この定理を使い,帰無仮説 H0: p = 0.65 の下での検定を考える。つまり,「標本比率は 0.65 に等しい」,が帰無仮説になる。 すると, 標本比率(31/43)から 0.65 を引くと平均 0 の確率変数, それを分散 0.65(1-0.65)/43) の平方根,つまり標準偏差で割ると,標本比率は標準化, その結果となる確率変数 Z は,標準正規分布 N(0,1) に従う。 \
統計学の基本用語.母数は分母でも全数でもない!:母数とは母平均や母分散のことである 井口豊(生物科学研究所,長野県岡谷市) 最終更新:2024 年 2 月 14 日 この用語問題に関しては, X (旧 Twitter) での黒木玄さんのコメント (X 2024年2月14日午前10:08 およびその後の補足) も非常に参考になる。 特に,以下のコメントである(X 2022年6月3日 午前7:16)。 現実とモデルの混同のような非科学的な考え方に繋がる曖昧な説明の仕方こそ、徹底殲滅するべき対象であり、「標本数」やら「分母の数の意味での母数」という言葉の使い方にうるさくなってもいいことが全然ないと思う。 以上の指摘を十分に念頭に置いた上で,以下の説明も読んでほしい。 統計学で扱う「母数」を英語にすると, parameter と言う。「パラメータ」は,日本語でも時々使われる単語である。以下に示すよ
標本分散と標本不偏分散,n で割るか n-1 で割るか,不偏標準偏差の話題も含めて 井口豊(生物科学研究所,長野県岡谷市) 最終更新:2021年6月5日 1. はじめに 統計データにおいて,標本を用いて,母集団の分散(母分散)の推定量 U2 を計算するとき,平均 x からの偏差平方和を,標本サイズ n から 1 減じた数,で割った形を用いる。 ここで,なぜ,n でなく,n−1 で割るのか,という疑問をしばしば耳にし,目にする。もちろん,数学的には,母数の平均値(期待値)に位置する推定量として,不偏性が定義され,不偏分散が求まる。数式によるその証明を書くこともできるが,一般の人にとって,そのような数式を読むだけでも大変であり,かえって混乱するだろう。したがって,以下の説明では,厳密な証明ということでなく,概念的な説明として,この話題を展開しようと思う。 なお,母集団確率分布の特徴を表す特性値
このページを最初にブックマークしてみませんか?
『biolab.sakura.ne.jp』の新着エントリーを見る
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く