サクサク読めて、アプリ限定の機能も多数!
トップへ戻る
やる気の出し方
avilen.co.jp
統計学にはt検定やカイ二乗検定、ウィルコクソンの順位和検定、 Mann–WhitneyのU検定などなど様々な検定方法が存在します。 それらは検定対象とする母集団の特徴によってパラメトリック手法とノンパラメトリック手法の2種類に分類することができます。 このページでは、パラメトリック手法とノンパラメトリック手法をそれぞれ説明します。 パラメトリック手法とはパラメトリック手法とは、「与えられた母集団が何らかの分布に従っている前提がある」ときに使う手法です。 この時の何らかの分布とは大抵の場合は正規分布を指します。 正規分布に従う母集団の例としては人間の身長と体重などがあります。 パラメトリック手法の代表例として、t検定があります。 パラメトリック手法の特徴パラメトリック手法は、母集団が正規分布に従っていないと使用することができません。 そのため、全く新しい種類の母集団にパラメトリック手法を用い
この記事では、「統計学とはそもそもどのような学問なのか」、「どのような場面で使われているのか」ということについてまとめました。 統計学とは統計学とは、ある1つの群のデータに対してその性質を調べたり、あるいは手持ちのデータからもっと大きな未知のデータや未来のデータを推測するための学問です。 我々は、この情報化が進む社会の中で、様々な情報(データ)を得ることが出来ます。しかし、データはそのままでは理解しにくく、役に立たないものもあります。それらのデータは、分かりやすい表現に置き換えて、初めて理解できるものに変わりますデータを活用するために必要なのが統計学です。 「日本人の身長とアメリカ人の身長を比べる」ことを例にとって考えます。日本人とアメリカ人の伸長をそれぞれ調査してみたとします。 ここで、「日本人の身長」と「アメリカ人の身長」をわかりやすく比較する表現として算出した代表的な値が「平均身長」
G検定合格に必要な知識(AI・機械学習・ディープラーニング)が どの程度あるかを判定する、簡易試験問題です。 このテストは、G検定*に合格するために抑えておくべきAI・機械学習・ディープラーニングの 知識が、どの程度身についているかチェックするための簡易試験です。 問題を解いたら自分の答えをメモしていただき、解答を見て自己採点を行ってください。 合計点数からあなたの現在の知識レベルを判定し、おすすめの試験対策方法が分かります。 *G検定(AIジェネラリスト検定)とは、日本ディープラーニング協会が主催する、 AIや機械学習・深層学習の網羅的な知識を検定する試験です。 問1. AI(人工知能)とは次の文章を読み、空欄に最もよく当てはまる選択肢を選べ。 「AI」や「人工知能」と聞いてイメージするものは人によって異なる。 (ア)型人工知能は「(イ)AI」とも呼ばれ、特定のタスクに限定せず、人間と同
不偏推定量とは統計的推定には様々な手法がありますが、中でもよく用いられるのが、普遍性という基準に基づいた推定です。普遍性とは、推定量の期待値が母数と等しくなる性質であり、母数θθθの推定量をθ^\hat{θ}θ^と表すと、 E(θ^)=θE(\hat{θ}) = θE(θ^)=θ を満たすようなものです。また、この時の推定量θ^\hat{θ}θ^を不偏推定量と言います。これは点推定の一種です。 平均と分散の不偏推定量例として、無作為標本x1,x2,...,xnx_1,x_2,...,x_nx1,x2,...,xnから推定できる、母集団の平均μμμと分散σ2σ^2σ2の不偏推定量を考えてみます。 平均の不偏推定量標本平均をxˉ\bar{x}xˉとすると、 E(xˉ)=E(1n∑i=1n xi)=1n∑i=1n E(xi)=1n×nμ=μE(\bar{x}) = E(\frac{1}{n
ロジスティック回帰分析とはロジスティック回帰分析は、商品の購入確率、病気の発症確率といった二値判別問題に対して回帰分析を考えたいときに有用な手法です。 二値判別問題とは、0か1であるダミー変数を予想、分析するような問題です。 ロジスティック回帰分析を以下の式で表します。 p= 11+ exp(−(a1x1 + a2x2 + ⋯ + anxn + b)) p = \frac{ 1 }{ 1 + \exp ( -(a_1x_1 + a_2x_2 + \cdots + a_nx_n + b) ) } p= 1+ exp(−(a1x1 + a2x2 + ⋯ + anxn + b))1 ... ① 目的変数は確率であるため p p pと置きました。 この式を見ると、xix_ixiがどんな値をとっても目的変数pppが
これらの言葉の意味を考えるときに注意すべきなのは,「サンプル」という用語の意味です。 サンプルとは「標本」、「群」の意味で、ひとまとまりの観測データを指します。 サンプル数とは「群の数」、サンプルサイズとは「一つの群のサイズ,大きさ」という意味になります。 例題:各都道府県の男子高校生の身長例題 47 都道府県の男子高校生の身長の平均を比較するという調査を行います。各都道府県から無作為に 1000 人を選んで平均を算出したとき、この調査におけるサンプル数、サンプルサイズをそれぞれ考えましょう。 解答 サンプル数(群数):47 サンプルサイズ(各群のサイズ):1000 人 / 群 標本抽出を 47 回行ったためサンプル数は 47、各標本の個体数が 1000 人のためサンプル数は 1000 となります。 例題:マウスの投薬実験例題 癌を発症したマウスに対して、コントロール、薬 A、薬 B(それ
正規分布の確率密度関数の式正規分布の確率密度関数は、次の式で表されます。 f(x)=12πσ2exp[−(x−μ)22σ2]f(x) = \frac{1}{\sqrt{2πσ^2}}\exp{[-\frac{(x-μ)^2}{2σ^2}]}f(x)=2πσ21exp[−2σ2(x−μ)2] 以下で、この式の導出過程を見ていきましょう。 確率密度関数の成り立ち確率密度関数の土台世の中の多くの事象は平均値を取る確率が一番大きく、平均値から離れるにつれその値を取る確率は小さくなることが知られています。 このような現象を簡単に表せる関数が以下です。 f(x)=e−x2f(x)=\mathrm{e}^{-x^2}f(x)=e−x2 式の操作過程①f(x)=e−x2f(x)=\mathrm{e}^{-x^2}f(x)=e−x2は、1通りのグラフしか描けず汎用性に欠けます。そこで、式に任意定数を
標準偏差は分散の平方根であることを念頭において、以下のように計算を進めましょう。 ①平均を算出 90+80+40+60+905=72\frac{90+80+40+60+90}{5} = 72590+80+40+60+90=72 ②分散を算出 s2=(90−72)2+(80−72)2+(40−72)2+(60−72)2+(90−72)25=376s^2 = \frac{(90-72)^2+(80-72)^2+(40-72)^2+(60-72)^2+(90-72)^2}{5} = 376s2=5(90−72)2+(80−72)2+(40−72)2+(60−72)2+(90−72)2=376 ③標準偏差を算出 s=376≒19.39071s = \sqrt{376} ≒ 19.39071s=376≒19.39071 標準偏差を求める意義分散も標準偏差も、観測したデータのばらつきを表現すると
最尤推定量は点推定の一種で、重要な役割を果たしています。また、ベイズ推定との関係性においても議論されます。 事前の知識として、統計的推定の点推定という考え方を知っていると、理解しやすくなります。 最尤推定量とは?最尤推定量とは、文字の如く、最も尤もらしい推定量のことです。 最尤推定量の定義最尤推定量の定義は以下のようになります。 パラメータθ\thetaθに従う分布の密度関数をf(x;θ)f(x;\theta)f(x;θ)とする。尤度関数をL(θ;x)=f(x;θ)L(\theta;x)=f(x;\theta)L(θ;x)=f(x;θ)とすると、L(θ;x)L(\theta;x)L(θ;x)を最大にするような推定量θ=θ^\theta=\hat{\theta}θ=θ^をθ\thetaθの最尤推定量という。 コイン投げの例で最尤推定量を考えるでは「尤もらしい」というのはどういう意味なのでしょ
最尤推定とベイズ論の考え方最尤推定とベイズ推定はよく比較されます。 最尤推定は頻度論に基づいた推定であるのに対し、ベイズ推定はベイズ論に基づいた推定です。 ベイズ論と頻度論の違いについては「ベイズ統計学の考え方〜ベイズ論と頻度論の違い〜」で解説しているので、あわせてご確認ください。 最尤推定とベイズ推定の共通点ベイズ論と頻度論は一見全く違う考え方のように思えますが、非常に重要な関連があります。 これは、ベイズ推定と最尤推定の考え方の基礎部分である「データを固定してパラメータを動かす」という点が一致しているからです。 まず、最尤推定量の定義を確認しましょう。 パラメータθ\thetaθに従う分布の密度関数をf(x;θ)f(x;\theta)f(x;θ)とする。尤度関数をL(θ;x)=f(x;θ)L(\theta;x)=f(x;\theta)L(θ;x)=f(x;θ)とすると、L(θ;x)L(
具体例を用いて、頻度論とベイズ論の違いを解説します。 例)男性の身長について、平均μ\muμ、分散10210^2102の正規分布に従う母集団から、30人調査して、標本平均177cmを得たとします。 頻度論の考え方 母平均がμ\muμ(未知だが、実際に存在する値=定数)である母集団に対し、得られたデータ(標本平均177cm)がどのくらいの確率で得られるか、さらには得られたデータから母平均を推測、検定・・・ということを考えます。 ベイズ論の考え方 177cmというデータが、どのような(母平均がμ\muμである)母集団から得られる確率が高いか、ということを考えます。 例えば、母平均が177cmである母集団からデータ177cmが得られる確率は高いですが、母平均が165cmである母集団からデータ177cmが得られる確率は低くなります。 このように、母平均μ\muμを動かして考える、つまり、パラメータ
データ×AIで ビジネスに 変革をもたらすAVILENは「データ利活用できる組織の構築」と 「AI技術の企画・開発・導入」で事業成長を実現する、 AIソリューションを提供しています。
ベイズ統計学とはベイズ統計学とは、ベイズの定理をもとにした統計的な考え方の一種です。 記述統計学・推計統計学とは異なる考え方をします。 ベイズ統計学が注目されている理由ベイズ統計学の基になっているベイズの定理は1700年代から存在していました。古い歴史のあるこの領域が、今再注目されている理由を解説します。 ベイズ統計学の歴史ベイズ統計学は、1700年中頃にトーマズベイズによる、ベイズの定理の発表により、産声をあげました。その後、1800年代後半に再び現在のベイズ統計の考え方の基礎となる考え方をする人々が現れました。 しかし、推計統計学論者のフィッシャーらが、「主観確率を扱うのは科学的でない」とし、ベイズ統計学は闇に葬り去られてしまったのです。 科学的であるかないかは別として、ベイズ統計学は現実に役に立つ学問であるということがが徐々に認められ、1950年代に入り再び研究され注目を浴びるように
ベルヌーイ分布とはベルヌーイ分布とは、「成功か失敗か」「表か裏か」「勝ちか負けか」のように2種類のみの結果しか得られないような試行(ベルヌーイ試行)の結果を0と1で表した分布を指します。 1である確率がpppであるとき、0である確率は1−p1-p1−pとなる、非常にシンプルな確率分布です。 ベルヌーイ分布の公式ベルヌーイ分布にまつわる公式を確認しておきましょう。
分散とは(Variance)分散とは数値データのばらつき具合を表すための指標です。ある一つの群の数値データ(観測値)において、個々のデータと平均値の差の2乗の平均を求めることによって計算されます。 分散を文字式で表す場合、標本分散をs2s^2s2、母分散をσ2σ^2σ2と表現することが多いです。 分散には、平均値から離れたデータが多ければ分散は大きくなり、平均値に近いデータが多ければ分散は小さくなるという特徴があります。 分散の公式分散はデータと平均値の差の2乗の平均であることから、公式は以下のようになります。 s2=1n∑i=1n(xi−x‾)2s^2 = \frac{1}{n}\displaystyle \sum_{ i = 1 }^{ n } (x_i-\overline{x})^2s2=n1i=1∑n(xi−x)2 nnn:データの数 xix_ixi:各データ(x1,x2…
まず、帰無仮説と対立仮説をそれぞれ、以下のように置きます。 帰無仮説H0H_0H0:性別と病気Aの感染経験は独立である(関連性はない) 対立仮説H1H_1H1:性別と病気Aの感染経験は独立ではない(何らかの関連性がある) このとき、帰無仮説の下で分割表の各セルの期待度数を考え、観測度数との差に基づいて検定を行うのが、独立性のカイ二乗検定の基本的な考え方です。 ちなみに、この手法を提唱したピアソンという人の名を取って、ピアソンのカイ二乗検定と呼ばれることもあります。 2つの変数が独立であれば、「各セルに入る数字はこのような値になるだろう」という期待度数を考え、観測データが期待度数と大きく異なっていたとき、「期待と異なるいうことは2つの変数は独立ではない」と結論づけます。 ここで、セル番号(i,j)i,j)i,j)の期待度数をEijE_{ij}Eijとし、セル番号(i,j)i,j)i,j
カイ二乗検定とはカイ二乗検定とは帰無仮説が正しいとしたもとで、検定統計量が(近似的に)カイ二乗分布に従うような仮説検定手法の総称です。 代表的なものとして、ピアソンのカイ二乗検定、カイ二乗の尤度非検定、マンテル・ヘンツェルのカイ二乗検定、イェイツのカイ二乗検定などがあります。 独立性のカイ二乗検定独立性のカイ二乗検定は、2つの変数に関連があるかを判断するためのものです。 帰無仮説H0H_0H0と対立仮説H1H_1H1は以下のように定義されます。 H0H_0H0:二つの変数は独立である。 H1H_1H1:二つの変数は独立ではない(何らかの関連がある。) 次のような分割表を考えます。 独立ならば同時確率は確率の掛け算で表せることを利用して、先ほど立てた帰無仮説と対立仮説を数式化すると次のようになります。 H0 pij=pi.p.jH_0\ \ \ \ p_{ij} = p_{i.
共役事前分布とは共役事前分布とは、ベイズ統計を扱う際に、複雑な計算を回避するために考えられた事前分布です。 共役事前分布を用いて事後分布を求めると、事後分布が事前分布と同じ分布になるという特性があります。 具体例で考えてみましょう。 ベイズ統計で解析しようと考えるとき、必ず事前分布を設定しなければなりません。事前分布は事前情報を元に設定されます。 例えば、二項分布に従う母集団からデータを取得することを考えます。ここで事前情報から、事前分布を指数分布の形でおいたとします。 このときの事後分布の平均は、以下となります。 E(θ∣x)=∫01θ×θx(1−θ)n−xe−λθdθ∫01θx(1−θ)n−xe−λθdθE(\theta|x)=\frac{\int_{0}^{1}\theta×\theta^x(1-\theta)^{n-x}e^{-\lambda\theta}d\theta}{\int
着目するべきポイントは、服用前後の体重差です。よって、体重の変化平均値が0かどうかについて考えます。 帰無仮説H0H_0H0は、体重の変化量の母平均μμμを用いて以下のように置きます。 H0H_0H0:μ=0μ=0μ=0(体重の変化が0なので、ダイエット薬に効果がない) これに対して対立仮説は3通り考えられます。 ①H1H_1H1:μ≠0μ≠0μ=0(ダイエット薬には、何らかの効果がある)→両側対立仮説 ②H1H_1H1:μ<0μ\lt0μ<0(ダイエット薬には、体重減少の効果がある)→片側対立仮説 ③H1H_1H1:μ>0μ\gt0μ>0(ダイエット薬には、体重増加の効果がある)→片側対立仮説 ①は両側対立仮説、②③は片方のみを評価しているので片側対立仮説となります。 新薬による何らかの効果(体重の減少だけでなく増加も含めた効果)を確かめる場合は、①の両側対立仮説を利用して両
仮説検定(hypothesis testing)とは仮説検定とは「とある仮説に対して、それが正しいのか否かを統計学的に検証する」という推計統計学の手法の一つです。 統計的仮説検定もしくは省略して検定と呼ぶこともあります。 仮説検定を利用する場面仮説検定がどのような場面で使えるのか、その具体例を見ていきましょう。 例 ”自称”予知能力のある占い師がいます。その能力が本物かを検証すべく、野球の試合の勝ち負け予想をさせたところ、5試合連続で予想を的中させました。 さて、ここで占い師の予知能力は本物であると言えるでしょうか? (※なお試合の勝率は常に12\frac{1}{2}21とします) これを統計学を用いて客観的に判断するのが、仮説検定と呼ばれる手法です。 まずは前提条件として、仮説H0H_0H0と、H0H_0H0の逆のH1H_1H1を以下のように置いてみます。 H0H_0H0:この
正規分布(ガウス分布)に関するあらゆる特徴を、分かりやすくまとめました。目次から気になるトピックをご覧ください。 また正規分布の関連記事はこちらからご確認ください。 正規分布(ガウス分布)とは正規分布とは、統計学を理解する上で最も大切な確率分布の一つです。 正規分布はガウス分布と呼ばれることもしばしばあります。これは18世紀から19世紀に渡って活躍した数学者C.F.ガウスに由来します。ガウスは天文学の観測データの研究から測定誤差がある法則に従うことを導き出し、誤差理論を確立しました。これが正規分布の基礎となったと言われています。 正規分布の基本的な性質正規分布には以下のような基本的な性質があります。 平均値と最頻値と中央値が一致する。平均値を中心にして左右対称である。(直線x=μに関して対称)x軸が漸近線である。分散(標準偏差)が大きくなると、曲線の山は低くなり、左右に広がって平らになる。
t検定とはt検定は、母分散が未知の正規分布に従う場合に利用する検定手法です。 Z検定は、母分散が既知の正規分布に従う場合に利用する検定手法なので、t検定とZ検定の違いは母分散が未知であるか既知であるかという点になります。 現実では母分散が未知である場合が大多数なので、t検定のほうが有用な検定手法として利用されます。 母分散が未知の正規分布の性質正規分布に従うと仮定したデータに対して仮説検定を行う場合、帰無仮説の下で標準化する必要があります。 標準化の計算過程に母分散が必要になりますが、母分散が未知の場合、代わりに標本分散による推定値「標本不偏分散」を使います。 標本不偏分散を使って標準化した場合、正規分布は標準正規分布ではなくt分布に従うことが知られています。 また、この操作によって得られた値をt値といい、t値とt分布表によって得られる値をp値(有意確率)といいます。 p値が有意水準より小
このページを最初にブックマークしてみませんか?
『AVILEN|データ×AIでビジネスに変革をもたらす』の新着エントリーを見る
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く