並び順

ブックマーク数

期間指定

  • から
  • まで

1 - 40 件 / 173件

新着順 人気順

正規分布の検索結果1 - 40 件 / 173件

  • イチローの安打数がポアソン分布にならず正規分布になる理由を考察してみた | ロジギーク

    滅多に起こらない現象を表すポアソン分布はイチローの安打数にも当てはまるのか? 1994年、プロ3年目のイチローはシーズン210安打、打率.385を記録して、一気にスーパースターになりました。 この年の打率10傑は次の通りです。 (年度別成績 1994年パシフィックリーグ|NPB.JP 日本野球機構 より抜粋) 1位と2位以下の差が凄いですね。 いかにイチローが図抜けていたかが分かります。 今年のパ・リーグの規定打席以上の打者29人の安打数を見ると、試合数より少なくなっていて安打数÷試合数=0.93です。 これくらいだと、1試合当たりの安打数は「滅多に起こらない事象の確率分布」であるポアソン分布に従います。 しかし、普通でない打者のイチローは、1試合当たり1.6本以上の安打を打っています。 そのような場合もポアソン分布に従うのでしょうか? それを調べてみました。 比較対象として1994年打率

      イチローの安打数がポアソン分布にならず正規分布になる理由を考察してみた | ロジギーク
    •  数学者ポアンカレは毎日買っている公称1kgのパンがしばしば軽目なのに気づいた。そこで重さを一年間計り続け、それが平均950gの正規分布にほぼ従うことを確認し、警察に届け出てパン屋に警告させた。つまりパン屋は最初から1kgのパンを目標にしていなかった!  それからまた一年間重さを計り続けたポアンカレは、今度はその分布が正規分布とは異なり、右に裾が長いことを見出し、再び警察に届けでてパン屋の不正を告発した。つまり、パン屋は反省することなく、単に目方の重そうなパンを選んでポアンカレ家に売っていただけであること

      数学者ポアンカレは毎日買っている公称1kgのパンがしばしば軽目なのに気づいた。そこで重さを一年間計り続け、それが平均950gの正規分布にほぼ従うことを確認し、警察に届け出てパン屋に警告させた。つまりパン屋は最初から1kgのパンを目標にしていなかった! それからまた一年間重さを計り続けたポアンカレは、今度はその分布が正規分布とは異なり、右に裾が長いことを見出し、再び警察に届けでてパン屋の不正を告発した。つまり、パン屋は反省することなく、単に目方の重そうなパンを選んでポアンカレ家に売っていただけであることをデータから見抜いたわけである。 数学セミナー 2010年9月号 通巻 588号 P.35 ソースは不明。だが面白すぎる。 →たまたま―日常に潜む「偶然」を科学する: レナード・ムロディナウ, 田中 三彦: 本 この本に同じ記述発見。 (via deltam) (via matakimika)

         数学者ポアンカレは毎日買っている公称1kgのパンがしばしば軽目なのに気づいた。そこで重さを一年間計り続け、それが平均950gの正規分布にほぼ従うことを確認し、警察に届け出てパン屋に警告させた。つまりパン屋は最初から1kgのパンを目標にしていなかった!  それからまた一年間重さを計り続けたポアンカレは、今度はその分布が正規分布とは異なり、右に裾が長いことを見出し、再び警察に届けでてパン屋の不正を告発した。つまり、パン屋は反省することなく、単に目方の重そうなパンを選んでポアンカレ家に売っていただけであること
      • 偏差値とは?母集団、平均、正規分布からわかりやすく説明します - おまきざるの自由研究

        はじめに 偏差値のおおもとは平均値 偏差値の計算には平均値と標準偏差が欠かせない 偏差値とはなんぞや? 標準化得点とは 偏差値とは 実際のデータを使って偏差値を計算してみよう 偏差値を作った男 おわりに:こんなときは注意しよう 標準偏差の求め方の参考HPと書籍 その他の参考HP等 はじめに 大学受験,高校受験,あるいは中学受験のとき,偏差値という言葉を聞いたことがない日本人はいないと思います. 中には偏差値で人生が変わった人も少なからずいることでしょう. うちの子たちの受験でも『進学レーダー』に添付されてる各校偏差値一覧を何度も何度も何度も何度も目にしました. でも受験が終わってふと我に返るとその偏差値はいったいどんな計算をしてはじきだされるのか私は説明できませんでした. 筆者は統計検定について仕事の都合で否応なくそれなりに勉強しましたが,偏差値はスルーしていたのです. そこで,このエント

          偏差値とは?母集団、平均、正規分布からわかりやすく説明します - おまきざるの自由研究
        • 正規分布の意味するところを教えてください。…

          正規分布の意味するところを教えてください。どんな式であるかはわかりますが、 ・なぜこれが重要な確率分布とよくいわれるのか ・実際にどのような事象がこれに従うのか (これは一様分布だけどこれは正規分布、といった具体例が示されると助かります) について教えてください。

          • 横山 明日希 on Twitter: "二項分布が正規分布になる様子 https://t.co/CsGDHJogzQ"

            二項分布が正規分布になる様子 https://t.co/CsGDHJogzQ

              横山 明日希 on Twitter: "二項分布が正規分布になる様子 https://t.co/CsGDHJogzQ"
            • 正規分布の公式と特徴まとめ |AVILEN

              正規分布(ガウス分布)に関するあらゆる特徴を、分かりやすくまとめました。目次から気になるトピックをご覧ください。 また正規分布の関連記事はこちらからご確認ください。 正規分布(ガウス分布)とは正規分布とは、統計学を理解する上で最も大切な確率分布の一つです。 正規分布はガウス分布と呼ばれることもしばしばあります。これは18世紀から19世紀に渡って活躍した数学者C.F.ガウスに由来します。ガウスは天文学の観測データの研究から測定誤差がある法則に従うことを導き出し、誤差理論を確立しました。これが正規分布の基礎となったと言われています。 正規分布の基本的な性質正規分布には以下のような基本的な性質があります。 平均値と最頻値と中央値が一致する。平均値を中心にして左右対称である。(直線x=μに関して対称)x軸が漸近線である。分散(標準偏差)が大きくなると、曲線の山は低くなり、左右に広がって平らになる。

              • 正規分布 - Wikipedia

                正規分布(せいきぶんぷ、英: normal distribution)またはガウス分布(英: Gaussian distribution)は、確率論や統計学で用いられる連続的な変数に関する確率分布の一つである[1]。データが平均の付近に集積するような分布を表す。主な特徴としては平均値と最頻値、中央値が一致する事や平均値を中心にして左右対称である事などが挙げられる[1][2]。 中心極限定理により、独立な多数の因子の和として表される確率変数は正規分布に従う。このことによって正規分布は統計学や自然科学、社会科学の様々な場面で複雑な現象を簡単に表すモデルとして用いられている[1]。 たとえば、実験における測定の誤差は正規分布に従って分布すると仮定され、不確かさの評価が計算されている。 正規分布の確率密度関数のフーリエ変換は再び正規分布の密度関数になることから、フーリエ解析および派生した様々な数学

                  正規分布 - Wikipedia
                • マクドナルドのポテトの長さが正規分布になっているか気になり、実際に統計を取ってみたら、こんな分布になった。

                  マクドナルドのポテトの長さが正規分布になっているか気になり、実際に統計を取ってみたら、こんな分布になった。

                    マクドナルドのポテトの長さが正規分布になっているか気になり、実際に統計を取ってみたら、こんな分布になった。
                  • Javascriptで正規分布の実装まとめ(乱数、累積分布関数など)

                    Javascriptで正規分布の 乱数発生(rnorm)、確率密度関数(dnorm)、累積分布関数(pnorm)、累積分布の逆関数(qnorm) を実装する(逆関数は参照で)。すべて標準正規分布を想定。 Javascriptに限らず使えるアルゴリズムだが、日本語でまとまっている情報があまりないのと、ブラウザ上でA/Bテストなど有意性をみる検定などできたら面白いということでJSでやってみる。 正規乱数の生成(rnorm) 1行でBox-Muller法で。 Box-Muller法とは?

                      Javascriptで正規分布の実装まとめ(乱数、累積分布関数など)
                    • 多変量(多次元)正規分布のKLダイバージェンスの求め方 - EchizenBlog-Zwei

                      機械学習界隈では多変量正規分布のKLダイバージェンスの導出は自明らしく、とくに説明もなく「はいこうなりますね〜簡単ですね〜ははは〜」みたいな感じで軽く流されて死にそうになる。 軽く流されると私のように死んでしまう人もいるかもしれないので導出方法をメモしておく。 前準備 KLダイバージェンスは分布Pに対して分布Qがどれだけ近いかを表し、定義は以下のとおり。 KL(P(x) || Q(x)) = ∫P(x) log(P(x) / Q(x)) dx = ∫P(x) log(P(x)) dx - ∫P(x) log(Q(x)) dxまた多変量正規分布の定義は以下のとおり。 P(x | μ, Σ) = ((2π)^d * |Σ|)^(-1/2) * exp(-1/2 * (x - μ)T Σ^-1 (x - μ)) μ: 平均(d次元(縦)ベクトル) Σ: 共分散行列(d次正方行列) x: データ点

                        多変量(多次元)正規分布のKLダイバージェンスの求め方 - EchizenBlog-Zwei
                      • ぐりこさん on Twitter: "そもそもスペクトラムってさ、発達障害のスペクトラムのこと考えてもさ、正規分布になるでしょ。スペクトラムの両端よりその中間の方が多くなるわけじゃん。そしたら性がスペクトラムってのは男でも女でもない人の方が多いのかよ。何でそんなすぐわかる嘘つくのよ。嘘でしかないでしょ。"

                        そもそもスペクトラムってさ、発達障害のスペクトラムのこと考えてもさ、正規分布になるでしょ。スペクトラムの両端よりその中間の方が多くなるわけじゃん。そしたら性がスペクトラムってのは男でも女でもない人の方が多いのかよ。何でそんなすぐわかる嘘つくのよ。嘘でしかないでしょ。

                          ぐりこさん on Twitter: "そもそもスペクトラムってさ、発達障害のスペクトラムのこと考えてもさ、正規分布になるでしょ。スペクトラムの両端よりその中間の方が多くなるわけじゃん。そしたら性がスペクトラムってのは男でも女でもない人の方が多いのかよ。何でそんなすぐわかる嘘つくのよ。嘘でしかないでしょ。"
                        • 標準正規分布のグラフ

                          Excel のグラフを用いて正規分布曲線を作成する方法を紹介します。 概要 正規分布曲線は次の式で表されます。 ここで、は平均、は標準偏差を表しています。(は「ミュー」、は「シグマ」と読みます。)正規分布曲線の形は平均と分散の値によって変わります。 また、平均が0、分散が1の正規分布を特に標準正規分布と言います。標準正規分布は以下の式で表されます。

                          • [AI・機械学習の数学]正規分布とベータ分布、確率分布とベイズ統計の関係を理解する

                            [AI・機械学習の数学]正規分布とベータ分布、確率分布とベイズ統計の関係を理解する:AI・機械学習の数学入門 統計学や機械学習で使われるさまざまな確率分布のうち、連続分布の例として正規分布とベータ分布について見ていく。また、最近主流になりつつあるベイズ統計の関係についても簡単に紹介する。

                              [AI・機械学習の数学]正規分布とベータ分布、確率分布とベイズ統計の関係を理解する
                            • 厚労省,「正規分布っぽい」カーブに根拠なしと認める|WADA/開示請求

                              ようやく厚労省から,開示・不開示の決定通知が届きました。あっちも連休前に片付けたかったんだな,きっと。 1件,注目すべき不開示決定が出ています。それは,感染者数の推移が,正規分布のカーブのように描かれていることの根拠について,不存在としたものです。 厚労省が示した正規分布っぽいカーブというのは,これは日経の記事ですけども,こういうのです。 私の専門は開示請求ではなく医療統計ですが,正規分布を見たら疑えと叩きこまれています。そもそも正規分布というのは,「独立で同一の標本」という前提があります。たとえば,一斉に行った模擬試験の結果は,独立(カンニングしない)で同一(同じ問題を解いている)の標本(点数)で,十分大きな数あれば正規分布になります。これは「偏差値」の前提です。 しかし,模試の点数の「推移」,つまり時系列データとなると,話は違ってきます。これが正規分布,つまり上がって下がるようだったら

                                厚労省,「正規分布っぽい」カーブに根拠なしと認める|WADA/開示請求
                              • 正規分布かどうかを見極める3つのステップ(Pythonでの検定実践あり) - 俺、サービス売って家買うんだ

                                学校の授業や資格のテストでは、「正規分布をしている」ことを前提に、検定や推定が行われることが多いですよね。 しかし、実際に自分でデータをとって分析する時は、当然ですが誰もそのデータ郡が「正規分布をしている」とは保証してくれないわけです。 そのため、データ解析を始めるその前に「正規性の検定(正規分布しているかどうかの確認)」をしなければなりません。 今回は、正規分布かどうかを見極めるための検定と手法を、Pythonを用いてやっていきたいと思います。 注)* 標準偏差・ヒストグラムなどを理解していない初学者の方はまずこちらから参照することをおすすめします。 www.ie-kau.net 目次:正規分布かどうか見極める手順 まずはサンプルデータの作成から ヒストグラムとQQプロットで視覚的に確認する 法則を使って正規性を検定する 1. まずはサンプルデータの作成から データがあったほうがわかりや

                                  正規分布かどうかを見極める3つのステップ(Pythonでの検定実践あり) - 俺、サービス売って家買うんだ
                                • 正規分布の何がいいの? - Okumura's Scrapbox

                                  「テスト問題は正規分布になるように作るのがよい」とか「偏差値は正規分布を仮定している」とか言われることがあるが,そんなことはない。全国規模のテストでも正規分布にならない。また,偏差値は平均50,標準偏差10に揃える線形変換であり,分布とは無関係に使える——「偏差値50〜60には全体の34.1%が入るべきだ」などという無理を言わない限り。 次の図は『Rで楽しむ統計』 p.28に載せた2015年度全国学力テスト(全国学力・学習状況調査)の中学理科の正答数分布である。同じ平均・分散の正規分布の密度関数を重ね書きしてある。 ご覧のように,正規分布とは似ても似つかない。全国の中学生が受ける試験でもこれである。人数が増えたら正規分布に近づくなんてことはない。なお,全国学力テストの分布は国立教育政策研究所で公開されている。 センター試験の得点分布はあまり公開されていないが,やはり正規分布とは似ても似つか

                                    正規分布の何がいいの? - Okumura's Scrapbox
                                  • ◇正規分布◇

                                    ■はじめに 統計の基本となる最も重要な確率分布が正規分布. 正規分布の解説に登場する関数や記号が分からなくても,実際の問題は「ノリとハサミ」で切り紙・張り紙する感覚で誰でも簡単に解ける.(小数の足し算,引き算ができればよい.) ■解説(視覚的なイメージでつかむと分かりやすい)■ ○ 正規分布は,統計でしばしば登場する確率分布で,右のように「富士山型」「釣り鐘型」のグラフになる. 正規分布は,これを最初に研究したドイツの数学者の名前をとってガウス分布とも呼ばれる. ○ 期待値(平均値)がm,標準偏差がσの正規分布を表わす確率分布関数は で表わされる.特に,期待値(平均値)が0,標準偏差が1の正規分布は標準正規分布と呼ばれ,確率分布関数は になる. <実務上はこの式自体を使うことはなく,正規分布表<を使う.(正規分布表は,数学や統計の書物の巻末に付いていることが多い.手元になければ[このページ

                                    • 第7回 正規分布という王様が誕生する|2014年11月号|統計の落とし穴と蜘蛛の糸|羊土社:実験医学online

                                      前回の記事では,パラメトリック統計学に歩み入るための“お守り”として「確率変数」と「確率分布」を読者の皆さんにお渡ししました.観察されたデータという限られた情報源から,いかにして未知の母集団の属性を探ることができるのか.ある確率分布に従う確率変数という考え方は,母集団のふるまいをモデル化するためにパラメトリック統計学が提唱する基本方針といえます. 18世紀はじめにジャック・ベルヌーイによって打ち立てられた近代確率論は,偶然性に支配されたできごと(事象)を数学によって記述するという選択肢を研究者に選ばせました.それは同時に,得られた知見を数値化することによって客観性と普遍性をもたせるという知の歴史の大きな流れにも合致していたに違いありません. 前回導入した確率分布という概念にはもっと説明すべきことがらがたくさん残されています.コインやサイコロを投げることだけが確率分布が扱える問題ではありませ

                                        第7回 正規分布という王様が誕生する|2014年11月号|統計の落とし穴と蜘蛛の糸|羊土社:実験医学online
                                      • PRML 11章 二変量正規分布からのギブスサンプリング - Qiita

                                        はじめに Machine Learning Advent Calendar 2012の2日目を担当させていただく@yag_aysです.機械学習ガチ勢の皆様に囲まれて非常にガクブル((((;゜Д゜)))しておりますが,少しでも何か皆さんの印象に残るような記事を書ければと思います. 今回の内容 今回は「パターン認識と機械学習」11章で紹介されているサンプリング法・MCMCの中でも,ギブスサンプリングについて取り上げたいと思います.1日目のnaoya_tさんがメトロポリス・ヘイスティング法について書かれており,偶然にも続き物のような形になりました.ギブスサンプリングは,メトロポリス・ヘイスティング法というおおまかな枠組みの中の特殊なケースです.とは言うものの,実際のアルゴリズムは外見上かなり違ったものになるので,メトロポリス・ヘイスティング法をあまり知らないという人でもこの記事は問題なく読むこと

                                          PRML 11章 二変量正規分布からのギブスサンプリング - Qiita
                                        • YS@GPCR on Twitter: "ただ奇しくもこの「フツメンレベルにも達しない男が8割」という感覚はマッチングサイトでの研究と一致している。男性は平均的な女性を平均的、魅力的な女性を魅力的と評価し、正規分布カーブを描くのに対して、女性は大部分の男性を下位に判定し異… https://t.co/ZHgL5DwGwO"

                                          ただ奇しくもこの「フツメンレベルにも達しない男が8割」という感覚はマッチングサイトでの研究と一致している。男性は平均的な女性を平均的、魅力的な女性を魅力的と評価し、正規分布カーブを描くのに対して、女性は大部分の男性を下位に判定し異… https://t.co/ZHgL5DwGwO

                                            YS@GPCR on Twitter: "ただ奇しくもこの「フツメンレベルにも達しない男が8割」という感覚はマッチングサイトでの研究と一致している。男性は平均的な女性を平均的、魅力的な女性を魅力的と評価し、正規分布カーブを描くのに対して、女性は大部分の男性を下位に判定し異… https://t.co/ZHgL5DwGwO"
                                          • 標準正規分布表

                                            農林水産省近畿農政局と大阪ガスネットワーク(株)主催「Cooking Challenge!! 2023」にて管理栄養士専攻3年生のチームが「銅賞」を受賞しました

                                            • 正規分布にならない例や理由 NPSの非正規分布は信頼できるデータ? | 顧客ロイヤルティを測る経営指標「NPS」

                                                正規分布にならない例や理由 NPSの非正規分布は信頼できるデータ? | 顧客ロイヤルティを測る経営指標「NPS」
                                              • 第4回 正規分布[前編] | gihyo.jp

                                                今回と次回では前後編に分けて、統計においてもっともよく使われる確率分布である「正規分布」のお話をします。 第2回・第3回の復習 最初に、前回までのおさらいを簡単にしておきましょう。 まず確率を定義するものとして、確率変数 X と確率分布 p(X) を紹介しました。これが「確率」であるためには、以下の2つの重要な条件を満たしている必要がありました。 確率の値は0以上1以下 すべての取り得る値の確率の合計は1 これらの条件は、今後機械学習を学んでいく上で、常に意識しておかないといけません。今回も使いますよ。 それから、確率変数が複数ある場合の「同時確率」「⁠条件付き確率」「⁠周辺確率⁠」⁠、そして「事後確率」を導入し、「⁠確率の加法定理と乗法定理」という2つの定理と、「⁠ベイズの公式」を導きました。加法定理と乗法定理については、今回も使いますのでその時に確認しましょう。 最後に、「⁠条件付き独

                                                  第4回 正規分布[前編] | gihyo.jp
                                                • パターン認識 04 混合正規分布

                                                  PRML上巻勉強会 at 東京大学の資料です。 この資料はChristopher M. Bishop 著「Pattern Recognition and Machine Learning」の日本語版「パターン認識と機械学習 上 - ベイズ理論による統計的予測」について補足説明を入れた上でなるべくわかりやすくしたものです。 本資料では第3章の前半、特に3.1節を中心に解説しています。 詳しくはこちらのサイト(外部)を御覧ください。 http://ibisforest.org/index.php?PRML

                                                    パターン認識 04 混合正規分布
                                                  • 正規分布と正規乱数 - chmod 777 myknowledge

                                                    ノイズを付加する場合に確率密度関数として正規分布を用いることがある。 これを実際にやってみたくなったので実現方法を調べてみた。自分への覚え書きとして以下に示す。 正規分布の説明は以下を参照。 http://ja.wikipedia.org/wiki/%E6%AD%A3%E8%A6%8F%E5%88%86%E5%B8%83 正規分布を表す式は以下。 正規分布に従うノイズを発生させるためには、上式における x をノイズ量として x 軸上の各点におけるノイズを f(x) で表される確率で発生させればよい。 一方、多くのプログラミング言語で提供されているのは一様乱数(ある有限の区間を区切って、その区間内で全ての実数が同じ確率(濃度)で現れるような乱数 by Wikipedia)を発生させるメソッドである。C言語でいえば stdlib.h で提供される rand() が相当する。 0より大きく(0は

                                                    • Microsoft Mathematicsを使ってみたら賢いのかアホの子なのかよくわからないが多分WordやExcelの補完ツールとして使うのが適切なのかなと思った(後編:正規分布編) - 🍉しいたげられたしいたけ

                                                      Microsoft Mathematics が標準正規分布関数を計算してくれないのは、わかった。ではどこまでなら計算してくれるのかを、やってみた。 まずはf(x)=xの、区間 [-1,1] での定積分。いくらなんでもこれはやってくれなきゃ。 スポンサーリンク 「⊕ 解法」というのまで出してくれた。「⊕」をクリックすると、次のように説明してくれた。 次に、f(x)=exp(x)の、やはり区間 [-1,1] での定積分を求めてみた。 計算はしてくれた。ただし解法までは表示してくれなかった。 次は、f(x)=exp(-x)をやってみた。 これも、できた。 いよいよf(x)=exp(-x^2)。 ここで力尽きたか! ちなみにこの積分には「ガウス積分」という名前がついていて、Wordの数式のメニューの「Office.com のその他の数式(M)」からワンクリックで挿入できてしまう! Wordドキュメ

                                                        Microsoft Mathematicsを使ってみたら賢いのかアホの子なのかよくわからないが多分WordやExcelの補完ツールとして使うのが適切なのかなと思った(後編:正規分布編) - 🍉しいたげられたしいたけ
                                                      • コイン投げから分かる二項分布。正規分布やポアソン分布との関係性と近似について|アタリマエ!

                                                        コインを投げると、試行結果は基本的に「表」か「裏」かの2通りだけですよね。 ※試行:コイン投げのように同じ条件で何度も繰り返す事ができ、その結果が偶然により決まる実験・観測のこと このように、試行結果が「〇 か × か」や「成功か失敗か」といった2種類しかない試行のことを、統計学ではベルヌーイ試行と呼びます。 ここで「互いに独立したベルヌーイ試行を n 回行ったときにある事象が何回起こるかの確率分布」のことを、二項分布と言います。※英語では Binomial Distribution たとえば、 「30%の確率で表が出る特殊なコインを 4 回投げたときに、表が k 回でる確率の分布」 「サイコロを200回投げたときに、1の目が k 回でる確率の分布」 などが二項分布にあたります。 エクセルでは、BINOM.DIST関数で求められます。 二項分布は、その定義や数式をみるとややこしく感じるかも

                                                          コイン投げから分かる二項分布。正規分布やポアソン分布との関係性と近似について|アタリマエ!
                                                        • べき分布、正規分布メモ - finalventの日記

                                                          直感的にはロングテール現象の数学(統計学)的な説明は実は冗談なのではないかとqうぇrちゅいおp ⇒池田信夫 blog:ロングテール ⇒[悪徳商法?支店]: ロングテールは、正規分布だった! ⇒[悪徳商法?支店]: 全ての分布は「べき分布」に変換可能 ⇒望湖庵日記: ロングテールとべき分布 ⇒ロングテール現象はパレートの法則とまったく対立しない:DESIGN IT! w/LOVE ⇒MarkeZine:第4回 ロングテールを誤解していませんか? つまり⇒MarkeZine:第4回 ロングテールを誤解していませんか? ⇒ビジネス戦略を考える | べき分布、正規分布、S字カーブとMOT

                                                            べき分布、正規分布メモ - finalventの日記
                                                          • Rで異常検知(2): 正規分布に従うデータからの異常検知(ホテリング理論・MT法) - 渋谷駅前で働くデータサイエンティストのブログ

                                                            さて、気紛れから始まったこのシリーズですが。今回は第2章を取り上げます。 入門 機械学習による異常検知―Rによる実践ガイド 作者: 井手剛出版社/メーカー: コロナ社発売日: 2015/02/19メディア: 単行本この商品を含むブログ (4件) を見る 多変量かつ非正規データの異常検知は少し後の方になるので、例のwater treatment plantのデータセットを持ち出すのは後回しにして、今回は適当に生成したデータセットを使うことにしました。 ちなみに、今回のシリーズではあまりあれこれ引用しまくると引用の範囲を超えてしまいそうな気がしたので(笑)、要点をちろっとまとめてRスクリプトを並べるだけに留めておきます。故に、皆さんご自身がお手元で試される場合には必ず井手先生のテキストをご用意下さい、ということで。 ホテリングの(1次元) これはオーソドックスに正規分布する1次元のデータの中か

                                                              Rで異常検知(2): 正規分布に従うデータからの異常検知(ホテリング理論・MT法) - 渋谷駅前で働くデータサイエンティストのブログ
                                                            • 正規分布とは何なのか?その基本的な性質と理解するコツ|アタリマエ!

                                                              「サイコロを何回も投げたときの出目の合計の分布」 「全国の中学生の男女別の身長分布」 「大規模な模試の点数分布」 皆さんは、こういったデータのグラフを見せられたとき『平均付近が一番高く、平均から離れるにつれて緩やかに低くなっていく、左右対称な釣り鐘型の分布』であるケースが多いな、と感じたことはありませんか? こういった、左右対称・釣り鐘型の性質をもつ分布として代表的なものが、正規分布(ガウス分布)です。 正規分布は英語で Normal distribution と言うことからも分かるように『この世でもっとも一般的な分布』であり、「誤差の大きさの出現確率」をはじめ、さまざまな社会現象や自然現象に当てはまる確率分布です。 つまり、正規分布を知れば「その発生確率を計算できる現象」がグッと増えてくるということ。 今回は、そんな正規分布の基本的な性質について書いていきます。 photo credit

                                                                正規分布とは何なのか?その基本的な性質と理解するコツ|アタリマエ!
                                                              • 二変量正規分布の2D/3Dグラフィクス

                                                                多変量同時確率分布を描画することにより,各変量それぞれの変動(variation)だけでなく,変量間の共変動(covariation)についての直感的な理解を深まるだろう.以下では,〈R〉の多変量正規分布パッケージ〈mvtnorm〉と三次元描画パッケージ〈scatterplot3d〉: mvtnorm: Multivariate Normal and T Distribution (version 0.8-1) scatterplot3d: 3D Scatter Plot (version 0.3-25) を用いて,二変量正規分布の点の散布パターンと密度関数の描画を行なう〈R〉スクリプトを書いた. 1. 基本事項 p次元の変量ベクトル x を考える: x の同時確率密度関数 f(x) は下記の通りである: この式の平均ベクトルμと分散共分散行列Σはそれぞれ次式で定義される: 分散共分散行列

                                                                • 正規分布の基礎的な知識まとめ | 高校数学の美しい物語

                                                                  正規分布(ガウス分布)とは,図のような左右対称の連続型の確率分布です。正確な定義(確率密度関数)については後述します。 正規分布は最も代表的な分布の一つです。例えば物理などの実験における測定の誤差,テストの点数などは(ほぼ)正規分布に従う(ことが多い)と考えられています。 また,コイン投げのように,反復試行の成功回数が従う確率分布も(反復試行が多いとき,近似的に)正規分布になります。 →二項分布の正規近似(ラプラスの定理) この記事では,正規分布について,確率密度関数の式の意味や,平均・分散の導出を中心に解説します。 正規分布(ガウス分布)の確率密度関数は, f(x)=12πσexp⁡{−(x−μ)22σ2}f(x)=\dfrac{1}{\sqrt{2\pi}\sigma}\exp\left\{-\dfrac{(x-\mu)^2}{2\sigma^2}\right\}f(x)=2π​σ1​

                                                                    正規分布の基礎的な知識まとめ | 高校数学の美しい物語
                                                                  • 二元論やカテゴライズではなく正規分布で考えてみる - セカイノカタチ

                                                                    世の中には、善か悪か、右か左か、きのこかたけのこか、など、物事を2つに分けたり、幾つかの型に分類して考えるという事が日常的に行われています。 時には、各陣営に別れて侃々諤々の議論が展開されるわけですが、各個人の状況を見てみると、それぞれ考えていることや立場は千差万別であり、簡単にカテゴライズできるものではありません。 そして、このように個別には離散的(バラバラ)であるが、全体としては群れをなすような値の集合を見た時に、それが正規分布することが多いことが経験上知られています。 正規分布とは下のグラフのような散らばりを見せます。 大概の値は、中央値近辺に集まり、両端に近づくにつれ急激に個体数が減っていきます。 典型的な例で行くと、テストの点数や身長なんかが標準偏差すると考えられています。 それ以外にも、睡眠時間や年収、足の速さや読書のスピード、色々なものが正規分布するものと思われますが、このよ

                                                                      二元論やカテゴライズではなく正規分布で考えてみる - セカイノカタチ
                                                                    • 正規分布間のKLダイバージェンスの導出 - 唯物是真 @Scaled_Wurm

                                                                      多変量(多次元)正規分布のKLダイバージェンスの求め方 - EchizenBlog-Zwei 上の記事を読んで勉強になったのですが、数式がテキストで読みづらかったのと、多変量でない1次元の正規分布の導出の段階でよくわからなかったので調べて記事にまとめました 注意 数式はMathJax(JavaScriptのライブラリ)を使って表示しています SVGが描画できないと表示されないので、最近のブラウザで閲覧してください KLダイバージェンス(Kullback–Leibler divergence) 確率分布の差の大きさを測る尺度。 機械学習の分野だとパラメータの最適化などは、結局KLダイバージェンスの最小化と同じになることが多い。 本とか論文を読んでいるとよく出てくる 式 2つの確率分布\(P, Q\)を考える 確率分布が連続確率分布の時KLダイバージェンスは以下のようになる $$D_{\mat

                                                                      • 3σと不良品発生の確率を予測する「標準正規分布表」

                                                                        バラツキの要因「4M」 前回は、正規分布を説明する上で必要となる用語について話しました。ここで話をしていたのは、“バラツキ”についてでした(連載バックナンバーはこちら)。 さてバラツキの要因は何だったでしょうか? まずは復習です。バラツキの要因は「4M」です。 これらの要因によって、加工されるものにはバラツキが生じます。 ところが「今の時代、バラツキ0でモノが作れる」と言う人はいないでしょうか? 確かに、最新の技術、最新の設備、最適な環境下で製造することによって、そのバラツキは最小限になるのでしょう。しかしどんなに優れたツールであっても、そのツールを駆動させるための機構があり、その機構と制御によって部品は加工されます。また同一環境においても、温度というパラメータは存在します。±0℃という制御は困難ですので、部品加工においてバラツキ0というのは、あり得ない世界です。 こんな話もあります。 「

                                                                          3σと不良品発生の確率を予測する「標準正規分布表」
                                                                        • 標本 n が「十分に大きい」の大きさは?(正規分布・t分布)

                                                                          統計学の教科書で「標本 n が十分に大きい場合は、t分布ではなく標準正規分布にしたがう」といった記述を見かけたことがありませんか? 数学の応用の統計学にしては「十分」とは、ずいぶん抽象的な表現に感じます。できれば具体的に、「標本数が○○以上の場合は〜」として欲しいところですね。そこで今回は、この「十分に大きい」の大きさは、数値にするといくつなのかを調べてみました。

                                                                            標本 n が「十分に大きい」の大きさは?(正規分布・t分布)
                                                                          • ニコニコ動画再生数は対数正規分布に従う - 小人さんの妄想

                                                                            公開されている約830万件のデータから、ニコニコ動画再生数の度数分布は、対数正規分布に従うと判明。 ニコニコ動画の再生数を幾つかのキーワード検索結果から調べたところ、どうやらベキ乗則に従うのではないか、 といったことを前回の記事に書きました >> [id:rikunora:20140311] ところが、このデータを詳しく調べて、「対数正規分布に基づいているのではないか」とコメントしてくれた方がいました。 『な ば せ  』さんという方です >> http://t.co/tPfSqyO7wS そこで、公開されているニコニコ動画の全動画データを調べたところ、 動画再生数の分布は確かに対数正規分布によく一致することが確認されました。 * ニコニコデータセット >> http://www.nii.ac.jp/cscenter/idr/nico/nico.html ニコニコ動画に2012年11月初旬

                                                                              ニコニコ動画再生数は対数正規分布に従う - 小人さんの妄想
                                                                            • 第5回 正規分布[後編] | gihyo.jp

                                                                              統計的機械学習では解きたい問題にあわせて様々な分布を扱いますが、中でももっとも重要なのは、今回紹介する正規分布です。 まずはウォーミングアップ代わりに、前回のおさらいです。前回は、確率変数の値を実数のような「連続な数」で表す「連続確率」について説明しました。 連続確率は、サイコロの目ような「離散確率」とは異なり、「⁠確率密度関数」というものを導入し、「⁠確率密度関数 f(x) の積分値=面積=確率」として定義します。確率を「点」に対して考えるといろいろと都合が悪いので、「⁠範囲」に対して考えるのでしたね。 分布が確率であるためには「足して1になる」などの重要な条件がありましたが、連続確率にも同様に「重要な2条件」があります。 確率密度関数 f(x) の値は常に0以上 「取り得る値の全範囲」にわたって、確率密度関数 f(x) を積分すると1になる。つまり p(全範囲)=1 となる 重要なポイ

                                                                                第5回 正規分布[後編] | gihyo.jp
                                                                              • Box-Cox変換で変数を正規分布に近づける - About connecting the dots.

                                                                                よくある問題 実データを使って分析するときによくあるのが,すっごく偏った分布のデータで,正規性を仮定した分析を行いたいという状況です.具体的には,回帰分析の独立変数に年収とかを使う場合なんかです.回帰分析だと,独立変数が正規分布をしていないと正しく係数や有意性の推定を行えないことがあります*1. Box-Cox変換 そんなときに役立つのが,データを正規分布に近づけてくれるBox-Cox変換という手法です.具体的な数式は以下の通り*2.偏った分布を持つxを正規分布に近づけるようなλを推定しましょう,という話なわけです. Rでこれを行うには,{car}パッケージにあるpowerTransform関数を使います*3*4.データはヘルプの例にも出ているWool$cyclesを使います.このデータについては,めっちゃ分布が右に偏ってますね. > install.packages("car") > l

                                                                                • 対数正規分布 - NtRand

                                                                                  An Excel Add-In Random Number Generator Powered By Mersenne Twister Algorithm ENGLISH RSS 対数正規分布(Log normal distribution) 勝ち組への道対数正規分布 金融工学 オプションの価格公式として有名なブラック=ショールズ式では対数正規分布が決定的に重要な役割を果たしています。 この理論では、株価の変動は幾何ブラウン運動によって支配されていると仮定しています。そしてこの仮定から、株価の収益率(= 前日の終値/当日の終値 – 1)は対数正規分布に従っているということが分かるのです。 では簡単に、実際の例を見てみましょう。 下の図の左側は、TOPIX の収益率の分布です。 一方右の図は、対数収益率(= log(前日の終値/当日の終値) )です。 なるほど、確かに収益率の対数が正規分布に