タグ

statisticsに関するzyxwvのブックマーク (11)

  • scikit-learnで主成分分析(累積寄与率を求める) - 技術メモ

    pythonのライブラリでおなじみ、scikit-learnで主成分分析をする方法。 最終的には累積寄与率をプロットできるようにしたい。 タスクとしては基的な手書き文字認識を題材にする。 基 import matplotlib.pyplot as plt import seaborn as sns sns.set_style("whitegrid") import sklearn.decomposition # PCAで使うはこれだけ import sklearn.datasets data = sklearn.datasets.load_digits(n_class=5) # sklearnに付属の手書き文字データ pca = sklearn.decomposition.PCA(n_components=2) pca.fit(data.data) ここで用意したデータはscikitl

    scikit-learnで主成分分析(累積寄与率を求める) - 技術メモ
  • p値(有意確率)と有意水準を具体例から解説!有意水準を設定するタイミングについて|アタリマエ!

    統計学の中でも特に頭を悩ませることの多い「p値(有意確率)」と「有意水準」。 有意水準は「ある仮説を否定した判断が誤りである確率 \(P(H_0|reject)\) 」と誤解されがちですが、実際には両者は大きく異なる値です。 有意水準は第一種の過誤確率、つまり「帰無仮説が正しい場合に、誤って帰無仮説を棄却(否定)してしまう確率 \(P(reject|H_0)\) 」を意味します。 有意水準5%とは仮説が正しい場合にこの手順を多数回実施して検定を行うとき、間違って帰無仮説を棄却する割合が5%であるという意味であり、特定の判断が間違っている確率が5%ということではない。 出典:改訂版 日統計学会公式認定 統計検定2級対応 統計学基礎(東京図書)p144 かなりややこしい部分のため、誤解されることも少なくない用語ですが、統計的仮説検定を行う上で非常に重要な存在です。 今回は、そんなp値(有意確

    p値(有意確率)と有意水準を具体例から解説!有意水準を設定するタイミングについて|アタリマエ!
    zyxwv
    zyxwv 2018/01/25
    “×(よくある間違い)「このコインは、95 % の確率で偏りのあるコインだ」 →この検定は P(H0|D) を計算するものではありません。有意水準は P(reject|H0) です。P(H0|D) を計算するには情報が足りません。”
  • 「独立」と「無相関」 - NtRand

    An Excel Add-In Random Number Generator Powered By Mersenne Twister Algorithm ENGLISH RSS 「独立」と「無相関」 May 24, 2010 複数の確率変数があるとき、それらがてんでバラバラ好き勝手に変動しているとき「無相関」という言葉を使います。 また「独立」という言葉もあります。 どちらも何となく似たような意味合いなので、混同している(というか気にしていない)場合もあるようですが、もちろんこの2つは異なる定義があります。 では「無相関」と「独立」の関係を見てみましょう。 「独立」なら「無相関」か? その通り!「独立」の方が強いです。これはまぁ言葉通りのイメージではないでしょうか。「独立」しているのに何らかの関連性があるとは考えにくいです。 「無相関」なら「独立」か? これは違います!。お互いに関連せず

    「独立」と「無相関」 - NtRand
    zyxwv
    zyxwv 2018/01/17
    相関係数が 0 のとき無相関という。無相関でも独立とは限らない。
  • 期待値と分散に関する公式一覧 | 高校数学の美しい物語

    まずは期待値・分散の定義および表記を確認します。 X=xiX=x_iX=xi​ となる確率が pip_ipi​ であるような確率変数 XXX を考えます。例えば,サイコロの場合 n=6,xi=i,pi=16 (i=1,⋯ ,6)n=6, x_i=i,p_i=\dfrac{1}{6} \:(i=1,\cdots ,6)n=6,xi​=i,pi​=61​(i=1,⋯,6) です。 以下の式で定義される E[X]E[X]E[X] を期待値と言う: E[X]=∑i=1npixiE[X]=\displaystyle\sum_{i=1}^np_ix_iE[X]=i=1∑n​pi​xi​

    期待値と分散に関する公式一覧 | 高校数学の美しい物語
    zyxwv
    zyxwv 2017/11/24
    確率変数の和の分散 V(X+Y) = V(X) + V(Y) + 2Cov(X, Y) 分散の定数倍 V(aX) = a^2V(X)
  • http://hosho.ees.hokudai.ac.jp/~kubo/stat/2010/Qdai/a/kuboQ2010a.pdf

    zyxwv
    zyxwv 2017/10/02
    "GLM は直線回帰・重回帰・分散分析・ポアソン回帰・ロジスティック回帰その他の「よせあつめ」" 分布やリンク関数を切り替えることで色々なデータに適用できる
  • 中心極限定理 | 高校物理の備忘録

    中心極限定理の具体例 母集団から \( n \) 個の標 \( \left\{X_{i} \mid i=1, 2, \cdots ,n \right\} \) を無作為復元抽出したとき, その期待値 \( \bar{X} \) は次式で定義される. \[\bar{X} = \frac{1}{n} \sum_{i=1}^{n}X_{i} \quad . \notag\] ただし, ここでは \( \bar{X} \) が何個の標の平均であるかを明示的に書き表すために, \[\bar{X}_{n} = \frac{1}{n} \sum_{i=1}^{n}X_{i} \quad . \notag\] と表記することにする. 例えば, \( \bar{X}_{2} \) とは母集団から抽出された \( 2 \) 個の標の平均を, \( \bar{X}_{10} \) とは母集団から抽出された

    中心極限定理 | 高校物理の備忘録
    zyxwv
    zyxwv 2017/09/18
    n=10 程度でも、標本の和は正規分布に近づく
  • F検定(等分散かどうかの検定)

    このページでは、F検定について解説します。 F検定は2群の差の検定を行う前の、2群の母集団が等分散であるどうかを判定する検定です。 (F検定を行う必要があるかどうかは、こちらの2群の差の検定フローを参考にしてみてください。) 母集団が等分散かどうかとは、母集団の分散が等しいかどうかと意味です。 2群のデータの分布をグラフにした場合、形が似ているかどうかに対応するとも言えるでしょう。 F検定の原理と簡易例 F値は2つの母集団のχ2値を自由度で割ったものの比です。(F分布のページにて解説しています)。 中でもF検定では一部式変形を加えた不偏分散の比であるF値(分子≧分母)を使用します。 不偏分散の比から母集団の分散の比(つまり分散が等しいかどうか)を検討する手法がF検定です (等分散であるほど比が1に近づきます)。 検定の流れに沿って、検定を行います。 ①帰無仮説を2群の母集団に差はない(つま

  • 大数の法則と中心極限定理の意味と関係 | 高校数学の美しい物語

    確率変数 X1,X2,⋯X_1,X_2,\cdotsX1​,X2​,⋯ が互いに独立に同一の分布(平均を μ\muμ,分散を σ2\sigma^2σ2 とする)に従うとします。 このとき,サンプル平均 X‾n=X1+X2+⋯+Xnn\overline{X}_n=\dfrac{X_1+X_2+\cdots +X_n}{n}Xn​=nX1​+X2​+⋯+Xn​​ も確率変数です。 nnn が大きいときに X‾n\overline{X}_nXn​ がどのように振る舞うのかを調べるのが大数の法則&中心極限定理です。 この「近づく」という意味を数学的にきちんと述べようとしたときに,二通りの収束の概念が登場します。 大数の弱法則:サンプル平均は真の平均に確率収束する。 式で書くと,任意の ϵ>0\epsilon > 0ϵ>0 に対して lim⁡n→∞P(∣X‾n−μ∣≥ϵ)=0\displaystyl

    大数の法則と中心極限定理の意味と関係 | 高校数学の美しい物語
    zyxwv
    zyxwv 2017/09/13
    標本数が増えると、標本平均は正規分布に従う。(標本平均と母平均の差は正規分布に従いながら減っていく。)
  • 基礎からのベイズ統計学 輪読会資料 第1章 確率に関するベイズの定理

    Kaggle Google Quest Q&A Labeling 反省会 LT資料 47th place solutionKen'ichi Matsui

    基礎からのベイズ統計学 輪読会資料 第1章 確率に関するベイズの定理
  • 藤井四段で学ぶ最尤推定、MAP推定、ベイズ推定 - Qiita

    藤井四段の連勝が止まらないですね。 21日の対局に勝利して、連勝記録を1位タイの28連勝まで伸ばしてきました。26日の対局で勝利すれば単独トップになります。 そんな藤井四段の対戦成績は28勝0負。勝率でいうと1.000です。クラクラするような成績ですが、この「勝率」とは何かを少し数学的にみてみましょう。 単純に言葉だけをみると「藤井四段が勝利する確率」ではないかと考えられます。つまり $$P(\text{勝利}\ |\ \text{藤井四段}) = 1.0$$かのように感じます。 ではここで、26日の対局で藤井四段が勝利する確率はどれだけでしょう? $P(\text{勝利}\ |\ \text{藤井四段}) = 1.0$として考えると、これはつまり藤井四段は必ず勝つので、100%になってしまいます。しかし、もちろんそんなことはありません。藤井四段ですらも負けることはあるはずです。 実はここ

    藤井四段で学ぶ最尤推定、MAP推定、ベイズ推定 - Qiita
  • 【統計学】尤度って何?をグラフィカルに説明してみる。 - Qiita

    統計学や機械学習をを勉強していると「尤度」という概念に出会います。まず読めないというコメントをいくつかいただきましたが、「尤度(ゆうど)」です。「尤もらしい(もっともらしい)」の「尤」ですね。犬 じゃありませんw 確率関数や確率密度関数を理解していれば数式的にはこの尤度を処理できると思うのですが、少し直感的な理解のためにグラフィカルに解説を試みたいと思います。 コードの全文はGithub( https://github.com/matsuken92/Qiita_Contents/blob/master/General/Likelihood.ipynb )にも置いてあります。 正規分布を例にとって 正規分布の確率密度関数は f(x)={1 \over \sqrt{2\pi\sigma^{2}}} \exp \left(-{1 \over 2}{(x-\mu)^2 \over \sigma^2

    【統計学】尤度って何?をグラフィカルに説明してみる。 - Qiita
    zyxwv
    zyxwv 2016/04/27
    尤度の考え方
  • 1