サクサク読めて、アプリ限定の機能も多数!
トップへ戻る
大谷翔平
bellcurve.jp
統計WEBでは、統計検定2級までの内容をカバーする「統計学の時間」を掲載しています。 この記事では、統計WEBを管理している私、石村が統計検定を受験した際の話をご紹介します。 私のこれまでの勉強のあゆみ 私はゆとり世代ど真ん中の教育カリキュラムを受けてきた世代です。 高校・大学は文系で、高校では数ⅡBの授業を受けていましたが、ほとんど記憶に残っていません。大学受験の際は数学を使わずに受験できる学科を選んだほど理系は苦手でした。 大学4年間は一切数式と関わることなく卒業。統計学との接点は、マーケティングの授業で正規分布を見たことと、社会学の授業でローレンツ曲線を見たことくらいです。 まずは統計検定3級から まず、自分の数学のレベルの現在地を知るために、「統計学の時間」の中の「1-3. 統計学に必要な数学」を読みました。 私の場合、Σ(シグマ)や∫(インテグラル)の意味は覚えていたのですが、肝
概要 Excel 2016には、箱ひげ図を作成する機能が搭載されています。Excel 2013までは箱ひげ図の作り方(棒グラフ編)で紹介したように、棒グラフと誤差範囲のバーを組み合わせて箱ひげ図のように見せていました。 ここでは、Excel 2016を用いて箱ひげ図を作る方法と各オプション機能の説明を行います。 データの選択 1. データ範囲を選択します。箱ひげ図の作り方(棒グラフ編)で用いたデータをここでも使用しますが、Excel 2016の機能で箱ひげ図を作成する場合、データを表形式ではなく下図のように2列にまとめる必要があります。このデータのセル範囲(B3:C81)を選択します。
日差しの強い7月―――今日は猫稲荷神社のお祭りです。神社の境内にはたくさんの屋台が並んでいます。町中の猫たちが陽気な祭囃子に誘われて続々と集まってきています。 ■平均 どれもこれも魅力的に見えてしまう屋台ですが、子猫たちは自分のお小遣いと相談しながら何を買おうか吟味しているようです。次の表はランダムに選んだ5匹の子猫のお小遣いの金額を集計したものです。
母分散の推定量として標本分散を用いる場合に、標本分散が「一致性」及び「不偏性」を満たしているかどうかを確認してみます。 ■不偏性について 標本分散 は次の式から求めることができます。
不偏分散は母分散の不偏推定量であることが知られています。では、不偏分散の正の平方根は母標準偏差の不偏推定量、つまり「不偏標準偏差」であると言えるでしょうか。結論から言うと、「不偏推定量ではない」が答えです。以下では、正規分布の場合を例にしてそれを確認します。 最初に、不偏分散の式について確認しましょう。不偏分散は次のような推定量です。 以下では、個の確率変数は独立に同一の正規分布に従うとします。これらから、の母標準偏差を推定することについて考えます。不偏性の定義よりが成立すれば、は標準偏差の不偏推定量であると言えます。では、の値を具体的に計算してみましょう。 まず、カイ二乗分布の定義から、を次のように変形したは、自由度のカイ二乗分布に従うことが分かっています。も確率変数であると考えることができます。
12-3章では確率変数の期待値について、12-5章では確率変数の分散について学びました。この章では、2つの確率変数の和、差、共分散、相関係数について学びます。 ■2つの確率変数の期待値 2つの確率変数とYの和、差の期待値は、次に示すように、それぞれの期待値、の和、差に等しくなります。
例題: 日本人の0.01%が罹患しているある病気について考えます。この病気の検査方法では、実際に病気に罹患している人が陽性と判定される確率が95%、逆に罹患していない人が陰性と判定される確率は80%であると言われています。 ある人がこの病気の検査を受けて陽性という判定を受けた時、本当にこの病気に罹患している確率はいくらでしょうか。 検査で陽性になる事象を事象、検査で陰性になる事象を事象(事象Aの余事象)、実際に病気に罹患している事象を事象、罹患していない事象を事象とします。ベイズの定理を使うと、求める確率はとなります。 問題文から、それぞれの確率は次のようになります。 病気に罹患している確率: 病気に罹患していない確率: 実際に罹患している人が検査で陽性となる確率: 実際に罹患していない人が検査で陰性となる確率: 実際に罹患していない人が検査で陽性となる確率: これらの値を①の式に当てはめ
このグラフを見ると、同じような形が3回繰り返されていることが分かります。1日のうち昼は気温が高くなり夜は気温が下がるので、気温の変化の傾向は似通っており、ある程度の周期性が見て取れます。 ここで、「元のデータ」と「元のデータから時間をずらしたデータ」との相関係数を計算します。そして、元データからずらした量(ラグ)を横軸にとり、計算した相関係数を縦軸に取ると、次のようなグラフができます。 元データと時間をずらしたデータとの相関のことを「自己相関」と言います。また、ラグと自己相関を表したグラフを「コレログラム」と言います。コレログラムを見ると、データが周期性をもつかどうかを調べることができます。 このグラフの自己相関係は、コサインカーブが減衰していくような規則正しい形を描いています。データが「24」、「48」ずれたところで自己相関が極端に高くなっており、「12」、「36」で自己相関が極端に低く
■決定係数 決定係数はデータに対する、推定された回帰式の当てはまりの良さ(度合い)を表します。決定係数は一般にで示され、0から1までの値をとります。1に近いほど、回帰式が実際のデータに当てはまっていることを表しており、説明変数が目的変数をよく説明していると言えます。 ■決定係数の例 いくつかの単回帰式とその決定係数を見てみます。決定係数は上から順に「0.9」「0.6」「0.3」です。 ■決定係数の求め方 決定係数を求めるにためには、実際のデータと推定された回帰式から「全変動」「回帰変動」「残差変動」の3つを求める必要があります。ここでは実際のデータを()、回帰式から推定されたデータを()、データ全体から求められる平均値を()とします。 「全変動」:実際のデータとデータ全体の平均値との差を表します(上の図の緑の部分) 「回帰変動」:推定された回帰式から得られた予測値とデータ全体の平均値の差を
23-1章では、次に示すようにコインを用いた検定の流れについて学びました。 50%の確率で表が出る普通のコインと、10%の確率でしか表が出ない不正なコインがどちらも2枚ずつあり、「普通のコインだよ」と言ってどちらかのコイン2枚組を渡されたとします。渡された2枚のコインを投げる試行を2回繰り返したところ、2回ともすべて裏でした。 「“稀である”と判断する確率の基準」を10%とした場合、この結果を元に検定を行うと「渡されたコインは普通のコインであるとは考えられない」という結論になります。すなわち、「渡されたコインは普通のコイン」が正しいと仮定したとき、観測した事象が起こる確率は6.25%であり、6.25%は10%より小さいためです。 このコインの問題を使って、検定で使われる用語について解説します。 ■帰無仮説と対立仮説 検定を行うため立てる仮説のことを「帰無仮説」といいます。帰無仮説に対する仮
25-1章では母比率の検定方法について学びました。この章では、2つの標本から得た標本比率を使って母比率が等しいかを検定する方法について学びます。 例題: あるドラマの視聴率を調査したところ、関東地区では5,000世帯中1,000世帯が視聴していたことが分りました。一方、関西地区では3,000世帯中540世帯が視聴していました。この結果から、2地区の視聴率に差があるといえるでしょうか。
統計的仮説検定(単純に「検定」とも言います)は、確率をもとに結論を導く方法です。検定について本格的に学習する前に、まずは検定の基本的な考え方について学びます。 検定は「最初に仮説を立て、実際に起こった結果を確率的に検証し、結論を導く」という手順で行います。結論を導くには「背理法(はいりほう)」を用います。背理法とは「最初に仮説を設定し、仮説が正しいとした条件で考えて矛盾が起こった場合に仮説が間違っていると判断する」方法のことです。具体的な例を用いて検定の流れを見てみます。 例題: 50%の確率で表が出る普通のコインと、10%の確率でしか表が出ない不正なコインがどちらも2枚ずつあるとします。なお、この4枚のコインは全て見た目が同じで見分けることはできません。 「普通のコインだよ」と言われ、普通か不正のどちらかのコイン2枚組を渡されたとします。渡された2枚のコインを投げる試行を2回繰り返したと
母比率の95%信頼区間は、標本比率の両側にずつ幅を取ったものであると考えることができます。つまり、95%信頼区間の幅は次のようになります。この式を使うと、必要なサンプルサイズを算出できます。 例題: テレビ番組の視聴に関する街頭アンケートを行います。信頼係数を95%とし、A番組の視聴率の信頼区間の幅を5%以下にするためには、何人以上の人にアンケートを行わなくてはならないでしょうか。ただし、A番組の視聴率は事前調査により10%以下であることが分かっているものとします。 A番組の視聴率の推定値=0.1を①の式に代入し、nを求めます。①式が5%(=0.05)以下であればいいので、次の関係が成り立ちます。 この式から、母比率の信頼区間について次の3点が成り立つことが分かります。 nが大きくなると信頼区間の幅は狭くなり、より正確な推定ができる 信頼区間の長さがに反比例しているためです。例えば、nが4
・「感度(真陽性率)」:a/(a+c) 実際にその病気に罹患している人の中で、検査で陽性になった人の割合のこと。 ・「特異度(真陰性率)」:d/(b+d) その病気に罹患していない人の中で、検査で陰性になった人の割合のこと。 ・「陽性的中率(PPV)」:a/(a+b) 検査で陽性になった人の中で実際にその病気に罹患している人の割合のこと。 ・「陰性的中率(NPV)」:d/(c+d) 検査で陰性になった人の中でその病気には罹患していない人の割合のこと。 ・「偽陽性率」:b/(b+d) その病気に罹患していない人の中で、検査で陽性になった人の割合のこと。 ・「偽陰性率」:c/(a+c) 実際にその病気に罹患している人の中で、検査で陰性になった人の割合のこと。 ・「陽性尤度比」:{a/(a+c)}/{b/(b+d)}=感度/{1-特異度}=感度/偽陽性率 検査結果が陽性の人に着目したときに、罹患
以下の3つの値を用いて、2つのデータの平均値からの「ばらつき具合」を比較してみます。 「平均値から各データの差を全て足した値」の平均値 「平均値から各データの差の絶対値を全て足した値」の平均値 「平均値から各データの差の2乗を全て足した値」の平均値 1. 「平均値から各データの差を全て足した値」の平均値 下の表は平均値とそれぞれのデータとの差をまとめたものです。この差の平均はデータAもデータBも0となりました。
ある事象が起こるという条件のもとで、別のある事象が起こる確率のことを「条件付き確率」と言います。例えば、事象Bが起こるという条件のもとで事象Aが起こる場合、この条件付き確率はと表され、次の式により計算できます。 例題1: 次の図の袋の中には、赤い玉が3つ、白い玉が3つ入っています。赤い玉のうち2つには「1」、残りの1つには「2」と書かれています。一方、白い玉のうち2つには「2」、残りの1つには「1」と書かれています。この袋の中から玉を1つ取り出す時、「1」と書かれた赤色の玉が取り出される確率はいくらでしょうか。 6個の玉の中に「1」と書かれた赤色の玉は2個あるので、となります。 例題2: 例題1と同じ袋の中から玉を1つ取り出した時、その玉は赤色でした。この赤い玉に「1」と書かれている確率はいくらでしょうか。 この問題は例題1と同じように、「玉は全部で6個、赤い玉で「1」と書かれた玉は2個あ
■歪度(わいど) 分布が正規分布からどれだけ歪んでいるかを表す統計量で、左右対称性を示す指標のことです。サンプルサイズをn、各データの平均値を、標準偏差をsとすると歪度は次の式から求められます。 「右裾が長い」もしくは「右に歪んだ」もしくは「左に偏った」分布のときには正の値を、「左裾が長い」もしくは「左に歪んだ」もしくは「右に偏った」分布のときには負の値をとります。左右対称の分布(例えば正規分布)の場合には0になります。 例えば、3-2章で用いた生徒の身長のデータから歪度を算出すると次のようになります(※この図に示した歪度は、すべてのデータが階級値をとった場合の値です)。 ■尖度(せんど) 分布が正規分布からどれだけ尖っているかを表す統計量で、山の尖り度と裾の広がり度を示します。サンプルサイズをn、各データの平均値を、標準偏差をsとすると尖度は次の式から求められます。 正規分布より尖った分
変動係数(Coefficient of Variation)は、標準偏差を平均値で割った値のことで、単位の異なるデータのばらつきや、平均値に対するデータとばらつきの関係を相対的に評価する際に用いる単位を持たない(=無次元の)数値です。変動係数はCVで表されることがあります。 変動係数=標準偏差÷平均値 例題1: 次の表は、あるスーパーマーケットで肉の値段を10日間調査した結果をまとめたものです。この調査の結果、鶏ささみは100gあたり平均80円、標準偏差は20円でした。一方、牛ステーキ肉は100gあたり平均1800円、標準偏差は300円でした。どちらの肉の方が値段のばらつきが大きいでしょうか。
一般的な平均、つまりデータの値を全て足してデータの数で割ったもの、は「算術平均」と呼ばれます。平均にはこの算術平均以外に「幾何平均」や「調和平均」といったものがあります。 ■幾何平均 幾何平均は次の式から求めます。 幾何平均は比率や割合で変化するものに対してその平均を求めるときに使います。例えば過去3年間で家賃が20%、10%、15%上昇したときに、1年で平均何%上昇したかを算出する際に用いられます。 この時の平均は幾何平均の式に当てはめて次のように求められます。(この計算は一般的な電卓ではできませんので関数電卓もしくはExcelで行ってください。)
実験を行う際には実験計画を立てる必要があります。実験計画とは、よい結果を得るために最も効果的な実験を計画し、その実験で得られたデータに対して最適な解析手法を採択する手順のことです。実験計画を立てずに闇雲に実験を行ってしまうと、お金や時間や労力がかかってしまうだけではなく、信頼できる結果が得られない可能性があります。 そのため、R.A. Fisherがこの実験計画法に関して3つの原則を確立しました。この原則は次の3つから成ります。 反復(replication) 無作為化(randomization) 局所管理(local control) ■反復 複数の処理を比較する際に、それぞれの処理に対して同じ条件で2回以上の繰り返し実験(評価)を行うことです。1回の測定では、測定値に違いがあっても「系統誤差(処理の違いによる差)」なのか、それとも「偶然誤差(たまたま生じる誤差)」なのかは判断できませ
■有意水準 有意水準は、検定において帰無仮説を設定したときにその帰無仮説を棄却する基準となる確率のことです。(アルファ)で表され、5%(0.05)や1%(0.01)といった値がよく使われます。有意水準は検定を行う前に設定しておきます。 有意水準を0.05に設定するということは、「5%以下の確率で起こる事象は、100回に5回以下しか起こらない事象だ。したがってこのようなまれな事象が起こった場合、偶然起こったものではないとしてしまおう」という意味です。したがって、P値が0.05(5%)を下回った場合、そのP値は偶然取る値ではないと結論付けられます。言い換えると、「極めて珍しいことが起こった」あるいは「何かしら意味があることである(=”有意である”)」ということを表します。 しかし、P値が5%以下となったとしても本当に偶然まれな事象が起こった場合もあるので、有意水準は「本当は帰無仮説が正しいのに
パーセンタイル percentile データを小さい順に並べたとき、初めから数えて全体の%に位置する値をパーセンタイルと言う。 65パーセンタイルであれば、最小値から数えて65%に位置する値を指す。第一四分位数は25パーセンタイル、中央値は50パーセンタイル、第三四分位数は75%パーセンタイルである。
※コラム「統計備忘録」の記事一覧はこちら※ 英語には平均値を表す言葉としてaverageとmeanの2つがあります。一般に、averageも mean も特にことわりがなければ「算術平均(Arithmetic mean)」を意味します。 統計学の世界では average と mean を使い分けており、いわゆる平均値には mean を用いるのが常識です。 average には mean よりも広い意味を持たせていて、「代表値」という訳語をあてます。代表値とは「分布の中心的位置を表す数値(measure of central tendency)」を意味し、平均値以外に、中央値(median、50パーセンタイル値)や最頻値(mode)も含まれます。平均値であることを明確にするために、統計学ではmeanを使うようになったのではと思います。 ところで、Microsoft(R) Excel で平均値
母平均の推定と同じように、母比率についても区間推定を行うことができます。成功確率がである試行をn回行うときに成功する回数をとすると、は二項分布に従うことは13-1章で既に学びました。このが母比率に対応します。 また、二項分布に従う確率変数の期待値と分散はそれぞれ次のようになることは13-2章で既に学びました。 nがある程度大きい時は、中心極限定理によって、は正規分布に近似できます。これにより、が二項分布に従う場合、を標準化した値はnが十分に大きいときにはは標準正規分布に従います。
※コラム「統計備忘録」の記事一覧はこちら※ 最小値が2、最大値が12の33個のデータがあったとします。33個のデータを小さい方から順に1番から33番まで番号を振っておきます。一本の定規の上に、各データを、データが持っている値と定規の目盛りが一致するように積み上げたところをイメージしてください。 この定規(上図の黒い棒)の左右のバランスが取れるところ、この例では7が平均値です。平均値とはてこの原理における支点です。一方、中央値はデータの並びにおいてちょうど真ん中のところ、この例なら17番のデータの置かれた7が中央値になります。このように平均値を中心に左右均等に散らばる場合は平均値も中央値も同じになります。 それでは33番のデータの値が12ではなく45だったとしましょう。33番が右に大きくずれたことで、てこの原理が働いて平均値は8になります。平均値は外れ値の影響を受けやすいことが分かります。中
サンプルサイズの設計および検出力分析とは、信頼性の高い実験を行うために実験の前後で行う分析のことです。「有意水準」と「検出力」と「サンプルサイズ」と「効果量」はサンプルサイズの設計や検出力分析を行うための4大因子で、このうち3つの因子の値が決まると、残りの1つの因子の値が決まります。 ■事前分析(A priori)-サンプルサイズの設計 実験前に、検出したい差(=効果量)から最適なサンプルサイズを算出することです。サンプルサイズが小さすぎると、得られた結果がサンプルサイズの小ささに起因するものか、実験そのものに起因するものなのかが分からなくなります。サンプルサイズが小さすぎると、本来は差が検出できるはずなのに、その差が検出できず実験自体に意味がなくなってしまうかもしれません。 また、サンプルサイズが大きすぎると、コストや安全性の問題が発生したり統計的に有意になりやすくなるという問題がありま
■標準偏差 標準偏差は母集団から得られた個々のデータのばらつきを表すものであり、分散の正の平方根で定義されます。不偏分散が次の式から求められることは、18‐4章で既に学びました。 ■標準誤差 標準誤差(SE:standard error)は推定量の標準偏差であり、標本から得られる推定量そのもののバラつき(=精度)を表すものです。標準誤差は、一般的に「標本平均の標準偏差」を意味します。 17‐4章ですでに学びましたが、平均μ、分散に従う母集団からサンプルサイズnの標本を抽出する時、その平均値の分布はnが大きくなるにつれて正規分布に近づきます(これを中心極限定理といいます)。すなわち、サンプルサイズが大きくなるにつれて標本平均の標準偏差は
ある確率変数が平均、分散の正規分布に従う時、から平均を引いて標準偏差(※ 標準偏差=√分散)で割った値をとおくと、は「平均が、分散がの標準正規分布」に従います。したがって、標準化を行うことにより、単位や平均値などが異なるデータ同士を単純に比較できるようになります。 このような計算(データ変換)のことを「標準化」といいます。標準化した値を「値」、あるいは「標準化得点」と呼びます。 例題: あるクラスの数学と国語のテストの結果は次の通りでした。 数学 平均点:点 標準偏差:点 国語 平均点:点 標準偏差:点 太郎君は数学が点、国語が点でした。順位がより上なのはどちらの教科でしょうか。ただし、このクラスの数学および国語の点数はそれぞれ異なる(独立な)正規分布に従うものとします。 点数だけを見ると、数学のほうが国語に比べて高くなっています。一方、国語のほうが数学に比べて平均点が低いので、国語のほう
20章では、母分散が分からない場合の母平均の区間推定について説明します。19章では母分散が分かっている場合の母平均の信頼区間の算出方法について学びましたが、母平均が分からないのに母分散だけは分かっているという状況は現実にはほとんどありません。したがって、通常母平均の区間推定を行う場合にはこの章で説明するt分布(あるいはStudentのt分布ともいいます)を用いた方法が使われます。 まず、ここまでの章で学んだ統計量の記号を次の表にまとめます。母分散を表すと不偏分散を表すは、今後もよく出てくるので覚えておくと便利です。
次のページ
このページを最初にブックマークしてみませんか?
『BellCurve(ベルカーブ)─統計解析ソフト・アンケート集計ソフト』の新着エントリーを見る
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く