並び順

ブックマーク数

期間指定

  • から
  • まで

1 - 40 件 / 76件

新着順 人気順

正規分布の検索結果1 - 40 件 / 76件

  • 日本人の6人に1人は偏差値40以下、5人に1人しか役所の書類を申請できない…“見えない格差”をつくった知識社会のザンコク | 文春オンライン

    日本人の3人に1人は日本語が読めない? 集団ですぐれた意思決定をするための条件は、人種、民族、国籍、宗教、性別、性的指向などが異なるメンバーを集める多様性と、その全員が一定以上の能力をもっていることだ。このふたつの条件を満たすと、多様な意見が「化学反応」を起こし、とてつもないイノベーションが生まれる可能性がある。 ところが、自然に生まれる集団ではこれとは逆のことが起こる。 ひとは生得的に、自分と似た者に惹かれる性質があるので、アメリカのような多文化社会では、人種や民族、宗教ごとにコミュニティがつくられるが、知能や学力で選別するようなことはない。知識社会は産業革命以降に成立したので、そんなグループ分けをする本能は脳に埋め込まれていない。だからこそ有名大学やシリコンバレーのIT企業は、人為的な方法(入学試験や高報酬)で能力の高い者だけを集めているのだ。 その結果わたしたちは、なんの多様性もなく

      日本人の6人に1人は偏差値40以下、5人に1人しか役所の書類を申請できない…“見えない格差”をつくった知識社会のザンコク | 文春オンライン
    • 統計学

      この単元では,高校「数学C」で扱う分野を,幅広くとらえ,「各種分布」の単元を除き,高校数学程度の知識で十分対応できるように工夫してあります。 このソフトの特徴は,二項分布において,ある時は正規分布で近似したり,ある時はポアソン分布で近似したりします。どうしてこのような時に,正規分布で近似するのか,または,ポアソン分布で近似したりするのか疑問に思う時があります。このような疑問に対し,なるべくグラフを用いて,また,シュミレーションを用いて表現するようにいろいろな工夫を行ないました。

      • 「一様乱数の平均値を正規乱数として代用する」という話をゆるふわ統計的に検証する

        「一様乱数を足し合わせて平均値をとった値は正規分布っぽくなるよ」というツイートを見かけて、「それって統計的にどうなんだろう?」という疑問が湧いたので検証してみました。 はじめに 昨日・一昨日ぐらいに Twitter 上でちょっとした話題になっていた アニメーションの監修で、「 Random();の代わりに、(Random()+Random()+Rrandom()+Random()+Random())/5.0f; を使うと、動きにコクが出る」と言ったら、ピュアオーディオ扱いされるのですが・・・これは根拠のあるアルゴです。 — 深津 貴之 (@fladdict) 2016年11月3日 というツイートに関連して、「一様乱数の平均値を正規乱数として代用する」的なツイートをちらほら見かけて気になっていたので、統計的に検証してみましたよ、というブログエントリです (このツイート自体に対して揶揄するつも

          「一様乱数の平均値を正規乱数として代用する」という話をゆるふわ統計的に検証する
        • <h2>C言語によるアルゴリズム(コメント付き)</h2>

          • シ・マウマ@休日観劇 on Twitter: "センター国語の得点分布は、ありえないほど美しかった。 http://t.co/q1kAaZ7Nzg"

            センター国語の得点分布は、ありえないほど美しかった。 http://t.co/q1kAaZ7Nzg

              シ・マウマ@休日観劇 on Twitter: "センター国語の得点分布は、ありえないほど美しかった。 http://t.co/q1kAaZ7Nzg"
            • 正規分布の公式と特徴まとめ |AVILEN

              正規分布(ガウス分布)に関するあらゆる特徴を、分かりやすくまとめました。目次から気になるトピックをご覧ください。 また正規分布の関連記事はこちらからご確認ください。 正規分布(ガウス分布)とは正規分布とは、統計学を理解する上で最も大切な確率分布の一つです。 正規分布はガウス分布と呼ばれることもしばしばあります。これは18世紀から19世紀に渡って活躍した数学者C.F.ガウスに由来します。ガウスは天文学の観測データの研究から測定誤差がある法則に従うことを導き出し、誤差理論を確立しました。これが正規分布の基礎となったと言われています。 正規分布の基本的な性質正規分布には以下のような基本的な性質があります。 平均値と最頻値と中央値が一致する。平均値を中心にして左右対称である。(直線x=μに関して対称)x軸が漸近線である。分散(標準偏差)が大きくなると、曲線の山は低くなり、左右に広がって平らになる。

              • 小標本問題と t検定 - ほくそ笑む

                統計を学び始めると「t検定」というのが最初のほうで出てくると思います。 t検定は、20世紀前半に活躍した統計学者、ウィリアム・ゴセットによって「小標本問題」というのを解決するために考案されました。 小標本問題とは、正規分布の平均値の検定に正規分布を用いると、サンプルサイズが小さい場合にαエラーを過小評価してしまうという問題です。 今日はこの小標本問題とそれを解決する t検定について R によるシミュレーションを使って説明してみたいと思います。 正規分布の平均値の検定 確率変数 が正規分布に従うとき、その平均値もまた、正規分布に従います。 数式で書くと、 となります。(分散が されていることに注意) なので、正規分布の平均値の検定には正規分布を使用すれば良いように思われます。 これを R でシミュレートしてみましょう。 # 正規分布を使用して平均値が 0 と等しいかの p値を求める norm

                  小標本問題と t検定 - ほくそ笑む
                • 確率統計-機械学習その前に v2.0

                  確率統計の勉強会資料を大幅に改定しました。数式を最小限にし、統計分析のためのトピックを総覧的に資料化しています。 2021/11/20 内容や記載を拡充しました(合わせて SpeakerDeckに移動しました) https://speakerdeck.com/hidekatsu_izuno/que-lu-tong-ji-ji-jie-xue-xi-sofalseqian-ni

                    確率統計-機械学習その前に v2.0
                  • そのABテストの判断は本当に正しいのか?|アナグラム株式会社

                    リスティング広告運用者とユーザーとの接点は、PC・タブレット・スマートフォンの画面に表示されるテキストの広告文やバナーだけです。管理画面上の入札単価をいくら執念深く細かく調整しようとも、ユーザーとの唯一の接点であるものが適切でなければ、ユーザーの心を揺さぶるのは難しいでしょう。 この大事な大事な広告文やバナーを改善していく方法が、皆様もご存じABテストです。ABテストというと「悪い方を止めればいいんでしょ!かんたんかんたん!」と思ってしまいます。しかし、自分の勘だけで判断を下すのは危険です。 ABテストは統計学でいう「標本調査」と同じなので、さわりだけでも統計の知識を付けたうえで判断を下すのが賢明であると言えます。「標本調査」とは、調べたい母集団の全体を逐一調べてまわるのではなく、全体から抽出した一部分である標本を調査し、そこから母集団全体の性質を推定することです。 ただし、リスティング広

                      そのABテストの判断は本当に正しいのか?|アナグラム株式会社
                    • 3分LifeHacking:“キャズム”グラフをExcelで描く方法――アドイン不要 - ITmedia Biz.ID

                      イノベーターとアーリーアダプタで構成される初期市場と、アーリーマジョリティとレイトマジョリティによるメジャー市場の間にある言われる“深いミゾ”――それが「キャズム」だ。正規分布グラフで表現されることの多いキャズムだが、このグラフがExcelで、しかもアドインなしで描ける方法があるのだ。 「キャズムのグラフを描きたいんだけど、どうしたらいい?」。「Business Media 誠」のY編集長がそう尋ねてきた。イノベーターとアーリーアダプタで構成される初期市場と、アーリーマジョリティとレイトマジョリティによるメジャー市場の間にあると言われる“深いミゾ”――それが「キャズム」だ。こうした人々の集まり具合をグラフで表すと、両端が少なく中央に行くに従って数が増える山なりのグラフ――すなわち正規分布グラフになる。Y編集長もこうした正規分布のグラフが描きたいというわけだ。 実は、マイクロソフトのサポート

                        3分LifeHacking:“キャズム”グラフをExcelで描く方法――アドイン不要 - ITmedia Biz.ID
                      • イェンセン(Jensen)の不等式の直感的理解 - Qiita

                        確率変数に関するイェンセン(Jensen)の不等式を、例を用いて直感的に理解してみようという記事です。 $x$を確率変数、$p(x)$をxの確率密度関数とすると、その期待値$E[x]$は が成り立つことを、 イェンセン(Jensen)の不等式と呼びます。この証明は既に色々なところで解説(例えばこちら)されていますのでここでは省略します。 この不等式 $f(E[x]) \ge E[f(x)]$ を直感的に理解するために、乱数を用いた例をグラフで表現してみます。 まず、xが正規分布に従う確率変数だとして、そこから発生する乱数を作ってみます。また、そのxを $f(x)=-x^2+10$ という上に凸な関数で変換します。 下記のグラフの上部にあるヒストグラムが正規分布に従うxの分布で、右側にあるヒストグラムが$x^2$が従う分布です。 つまり、イェンセンの不等式は下記の赤い丸(期待値をとってから、

                          イェンセン(Jensen)の不等式の直感的理解 - Qiita
                        • ブートストラップ法 - Wikipedia

                          統計学におけるブートストラップ法(ブートストラップほう、英: bootstrap method)とは、様々な目的に用いられる統計的推論の手法であり、再標本化法に分類されるもののひとつである。モンテカルロ法の一つ。 概要[編集] ブートストラップ法は母集団の推定量(分散など)の性質を、近似分布にしたがって標本化したときの性質を計算することで推定する手法である。近似分布としては、測定値から求められる経験分布を用いるのが標準的である。また仮説検定に使う場合もある。仮定される分布が疑わしい場合や、パラメトリックな仮定が不可能ないし非常に複雑な計算を必要とするような場合に、パラメトリックな仮定に基づく推計の代わりに用いられる。 ブートストラップ法の利点は解析的な手法と比べて非常に単純なことである。母集団分布の複雑なパラメータ(パーセンタイル点、割合、オッズ比、相関係数など)の複雑な推定関数に対して標

                            ブートストラップ法 - Wikipedia
                          • U Miyazaki: Akira Date

                            This page is written in English. Japanese page here. Last modified: Thu May 22 14:37:16 JST 2008 Akira Date Associate Professor Department of Computer Science and Systems Engineering Faculty of Engineering University of Miyazaki Miyazaki 889-2192 JAPAN . Tel +81-985-58-7986 Email: Breif CV Papers I wtote Graphs and Computing Neural Net with Gnuplot !! U. Miyazaki [our dept] NICT: [social] [center]

                            • 標準正規分布のグラフ

                              Excel のグラフを用いて正規分布曲線を作成する方法を紹介します。 概要 正規分布曲線は次の式で表されます。 ここで、は平均、は標準偏差を表しています。(は「ミュー」、は「シグマ」と読みます。)正規分布曲線の形は平均と分散の値によって変わります。 また、平均が0、分散が1の正規分布を特に標準正規分布と言います。標準正規分布は以下の式で表されます。

                              • 正規分布かどうかを見極める3つのステップ(Pythonでの検定実践あり) - 俺、サービス売って家買うんだ

                                学校の授業や資格のテストでは、「正規分布をしている」ことを前提に、検定や推定が行われることが多いですよね。 しかし、実際に自分でデータをとって分析する時は、当然ですが誰もそのデータ郡が「正規分布をしている」とは保証してくれないわけです。 そのため、データ解析を始めるその前に「正規性の検定(正規分布しているかどうかの確認)」をしなければなりません。 今回は、正規分布かどうかを見極めるための検定と手法を、Pythonを用いてやっていきたいと思います。 注)* 標準偏差・ヒストグラムなどを理解していない初学者の方はまずこちらから参照することをおすすめします。 www.ie-kau.net 目次:正規分布かどうか見極める手順 まずはサンプルデータの作成から ヒストグラムとQQプロットで視覚的に確認する 法則を使って正規性を検定する 1. まずはサンプルデータの作成から データがあったほうがわかりや

                                  正規分布かどうかを見極める3つのステップ(Pythonでの検定実践あり) - 俺、サービス売って家買うんだ
                                • エクセルを用い平均値と標準偏差から偏差値を計算する

                                  n人のクラスでテストをしました。その結果をt1,t2,t3・・・・・tn点とします。 このクラスの平均値(Av)は全点を合計し、人数で割ります。 平均値(Av) = ( t1 + t2 + ・・・・ + tn ) / n Aクラスでは全員が50点でした。Bクラスでは半数が0点で半数が100点でした。 この場合、A,Bクラスとも平均点は50です。でも、Bクラスはずいぶん点数がばら ついているので、先生はたいへんですね。 このばらついている程度を示す指標が標準偏差(σ)です。 各点数と平均値の差を平均すればばらつきがわかります。 { ( t1- Av ) + ( t2 - Av ) + ・・・・・+( tn - Av ) } / n しかしながら、この計算では(点数ー平均値)の正、負が相殺し、0となります。 そこで、負数がなくなるよう、(点数-平均値)を2乗してから合計し、

                                  • scipy.stats - scipyの統計関数群のAPI - keisukeのブログ

                                    scipyにはstatsという統計関数をまとめたモジュールがあります. statsにはいろいろな統計関数が用意されていますが,APIは統一されていますので,それについてちょっとまとめてみます. どんな統計関数があるの? かなりの種類があり,すべてを書くわけにはいかないので, 公式のリファレンスへのリンクを置いておきます. 連続確率変数 離散確率変数 API 各統計関数は,scipy.stats.hogeとしてアクセスできます. 例えば,正規分布なら,scipy.stats.normです. APIはすべての統計関数で共通なので,以下では正規分布の例を使います. from scipy.stats import norm # 正規分布 rvs (Random variates) 確率変数 x = norm.rvs(loc=0, scale=1, size=1) 期待値loc,標準偏差scaleの

                                      scipy.stats - scipyの統計関数群のAPI - keisukeのブログ
                                    • ◇正規分布◇

                                      ■はじめに 統計の基本となる最も重要な確率分布が正規分布. 正規分布の解説に登場する関数や記号が分からなくても,実際の問題は「ノリとハサミ」で切り紙・張り紙する感覚で誰でも簡単に解ける.(小数の足し算,引き算ができればよい.) ■解説(視覚的なイメージでつかむと分かりやすい)■ ○ 正規分布は,統計でしばしば登場する確率分布で,右のように「富士山型」「釣り鐘型」のグラフになる. 正規分布は,これを最初に研究したドイツの数学者の名前をとってガウス分布とも呼ばれる. ○ 期待値(平均値)がm,標準偏差がσの正規分布を表わす確率分布関数は で表わされる.特に,期待値(平均値)が0,標準偏差が1の正規分布は標準正規分布と呼ばれ,確率分布関数は になる. <実務上はこの式自体を使うことはなく,正規分布表<を使う.(正規分布表は,数学や統計の書物の巻末に付いていることが多い.手元になければ[このページ

                                      • 標準正規分布表

                                        農林水産省近畿農政局と大阪ガスネットワーク(株)主催「Cooking Challenge!! 2023」にて管理栄養士専攻3年生のチームが「銅賞」を受賞しました

                                        • 第4回 正規分布[前編] | gihyo.jp

                                          今回と次回では前後編に分けて、統計においてもっともよく使われる確率分布である「正規分布」のお話をします。 第2回・第3回の復習 最初に、前回までのおさらいを簡単にしておきましょう。 まず確率を定義するものとして、確率変数 X と確率分布 p(X) を紹介しました。これが「確率」であるためには、以下の2つの重要な条件を満たしている必要がありました。 確率の値は0以上1以下 すべての取り得る値の確率の合計は1 これらの条件は、今後機械学習を学んでいく上で、常に意識しておかないといけません。今回も使いますよ。 それから、確率変数が複数ある場合の「同時確率」「⁠条件付き確率」「⁠周辺確率⁠」⁠、そして「事後確率」を導入し、「⁠確率の加法定理と乗法定理」という2つの定理と、「⁠ベイズの公式」を導きました。加法定理と乗法定理については、今回も使いますのでその時に確認しましょう。 最後に、「⁠条件付き独

                                            第4回 正規分布[前編] | gihyo.jp
                                          • 指数型分布族とはなんぞ - Fire and Motion

                                            皆さん,ご存じの指数型分布族(exponential family)について私の拙い理解をまとめておきたいと思います.指数型分布族といえば,難しめの統計学や機械学習の本を読んだときに突如出てきて,「え,何それ,指数分布じゃないの?僕,指数分布しか知らないよ−」と思っている読者を撲殺し,しかし,殺されている本人は「まぁ,たぶん指数分布みたいなものだろう,とりあえず読み進めよう」と見ない振りをしているアレです.えぇ.私もそういう理解です.しかし,このままではいかんので,そこらへんにあった文献を元に簡単な理解をまとめておきたいと思います.ちなみに私の初エンカウンターはPRMLでした.てか,(私が学んだゆるい)大学時代の講義ではこんなもの習わなかったのですが,この指数型分布族とはどういう統計の授業では学ぶモノなのでしょう….単なる勉強不足かもしれませんが…. あいつもこいつも指数型分布族 まず,P

                                              指数型分布族とはなんぞ - Fire and Motion
                                            • なんちゃって!DCGANでコンピュータがリアルな絵を描く - PlayGround

                                              最近、Deepな生成モデルが熱いです。 中でもDeep Convolutional Generative Adversarial Networks (DCGAN) は、写真並みの画像を生成できるということで、非常に有名になりました。以前書いた記事でも少し触れましたが、計算の果てに画像を生成できるってところになんか惹かれますね。 Deepな生成モデルの歴史的な流れについては以下のPFNの動画が参考になります。 www.youtube.com ということで、DCGANの元となるGANについて説明しつつ実装し、そのあとDCGANもどきを実装し、画像生成を行おうと思います。 Generative Adversarial Nets (GAN) GANでは、2つのNNを学習させることによって、生成モデルを構築します。2つのNNは、それぞれDiscriminatorとGeneratorと呼ばれていて、こ

                                                なんちゃって!DCGANでコンピュータがリアルな絵を描く - PlayGround
                                              • 正規分布と正規乱数 - chmod 777 myknowledge

                                                ノイズを付加する場合に確率密度関数として正規分布を用いることがある。 これを実際にやってみたくなったので実現方法を調べてみた。自分への覚え書きとして以下に示す。 正規分布の説明は以下を参照。 http://ja.wikipedia.org/wiki/%E6%AD%A3%E8%A6%8F%E5%88%86%E5%B8%83 正規分布を表す式は以下。 正規分布に従うノイズを発生させるためには、上式における x をノイズ量として x 軸上の各点におけるノイズを f(x) で表される確率で発生させればよい。 一方、多くのプログラミング言語で提供されているのは一様乱数(ある有限の区間を区切って、その区間内で全ての実数が同じ確率(濃度)で現れるような乱数 by Wikipedia)を発生させるメソッドである。C言語でいえば stdlib.h で提供される rand() が相当する。 0より大きく(0は

                                                • コイン投げから分かる二項分布。正規分布やポアソン分布との関係性と近似について|アタリマエ!

                                                  コインを投げると、試行結果は基本的に「表」か「裏」かの2通りだけですよね。 ※試行:コイン投げのように同じ条件で何度も繰り返す事ができ、その結果が偶然により決まる実験・観測のこと このように、試行結果が「〇 か × か」や「成功か失敗か」といった2種類しかない試行のことを、統計学ではベルヌーイ試行と呼びます。 ここで「互いに独立したベルヌーイ試行を n 回行ったときにある事象が何回起こるかの確率分布」のことを、二項分布と言います。※英語では Binomial Distribution たとえば、 「30%の確率で表が出る特殊なコインを 4 回投げたときに、表が k 回でる確率の分布」 「サイコロを200回投げたときに、1の目が k 回でる確率の分布」 などが二項分布にあたります。 エクセルでは、BINOM.DIST関数で求められます。 二項分布は、その定義や数式をみるとややこしく感じるかも

                                                    コイン投げから分かる二項分布。正規分布やポアソン分布との関係性と近似について|アタリマエ!
                                                  • べき分布、正規分布メモ - finalventの日記

                                                    直感的にはロングテール現象の数学(統計学)的な説明は実は冗談なのではないかとqうぇrちゅいおp ⇒池田信夫 blog:ロングテール ⇒[悪徳商法?支店]: ロングテールは、正規分布だった! ⇒[悪徳商法?支店]: 全ての分布は「べき分布」に変換可能 ⇒望湖庵日記: ロングテールとべき分布 ⇒ロングテール現象はパレートの法則とまったく対立しない:DESIGN IT! w/LOVE ⇒MarkeZine:第4回 ロングテールを誤解していませんか? つまり⇒MarkeZine:第4回 ロングテールを誤解していませんか? ⇒ビジネス戦略を考える | べき分布、正規分布、S字カーブとMOT

                                                      べき分布、正規分布メモ - finalventの日記
                                                    • マン・ホイットニーのU検定 - Wikipedia

                                                      この記事は検証可能な参考文献や出典が全く示されていないか、不十分です。出典を追加して記事の信頼性向上にご協力ください。(このテンプレートの使い方) 出典検索?: "マン・ホイットニーのU検定" – ニュース · 書籍 · スカラー · CiNii · J-STAGE · NDL · dlib.jp · ジャパンサーチ · TWL(2015年9月) マン・ホイットニーのU検定(マン・ホイットニーのユーけんてい、英: Mann–Whitney U test)はノンパラメトリックな統計学的検定の一つであり、特に特定の母集団がもう一方よりも大きな値を持つ傾向にある時に、2つの母集団が同じであるとする帰無仮説に基づいて検定する。ウィルコクソンの順位和検定と呼ばれるのも実質的に同じ方法であり、まとめてマン・ホイットニー・ウィルコクソン検定とも呼ばれる。 マン・ホイットニーのU検定は、正規分布の混合とい

                                                      • 長期投資でリスクは下がるのかを確認してみた

                                                        長期投資でリスクは下がるのか下がらないのか。 今までの自分は「こっちが正しい!」もしくは「どっちも正しい!」を自信をもって判断することができずスッキリできていませんでした。 でも、前回のリスクはリターンの敵 – リスクとリターンと複利の関係の記事で得た前提と知識をもとにすれば、今度こそちゃんと理解できるはず…。 前回の記事で得た、前提と知識をもとにして、たびたび議論になるこの話題について、改めて確認してみることにします。 「長期投資はリスクを下げる」by バートン・マルキール「いや、それは間違いだ」 by 山崎元・・・どういうこと? 長期投資はリスクを下げるのか下げないのかの議論は、私にとっては古くて新しい問題。 というのも、バートン・マルキールさんは、2011年出版のウォール街のランダム・ウォーカー <原著第10版>―株式投資の不滅の真理の「リスクは投資期間に依存する」という節にて以下の

                                                          長期投資でリスクは下がるのかを確認してみた
                                                        • [PDF]30分だけでは決してよくわからない とてもとても難しい 一般化線形モデル with R

                                                          30分だけでは決してよくわからない とてもとても難しい 一般化線形モデル with R M1 白砂優希 今回は尺が短いので • とにかく、ざっくりと説明して、こんな方法もあ るよねと言うことを確認 • 数学的な導出は省きまくります – (数式が好きな変態さんにはごめんなさい) – ふぇぇ:;(∩´﹏`∩);: – だって、行列がどうとか、ベクトルがどうとか、線 形性がうんぬんかんぬんゆーても皆さん嫌で しょ? どうしてモデリング? • 検定のような「差が有る」ことを示すだけでな く、データ全体の構造を知りたい – 検定だけでは分からない • よくわかんない割り算や変数変換から脱出し たい – そこまでして有意差にこだわるよりかは、モデリン グと言う手段を考えてもよいのでは? http://hosho.ees.hokudai.ac.jp/~kubo/ce/LinksGlm.html 線形モデ

                                                          • 二変量正規分布の2D/3Dグラフィクス

                                                            多変量同時確率分布を描画することにより,各変量それぞれの変動(variation)だけでなく,変量間の共変動(covariation)についての直感的な理解を深まるだろう.以下では,〈R〉の多変量正規分布パッケージ〈mvtnorm〉と三次元描画パッケージ〈scatterplot3d〉: mvtnorm: Multivariate Normal and T Distribution (version 0.8-1) scatterplot3d: 3D Scatter Plot (version 0.3-25) を用いて,二変量正規分布の点の散布パターンと密度関数の描画を行なう〈R〉スクリプトを書いた. 1. 基本事項 p次元の変量ベクトル x を考える: x の同時確率密度関数 f(x) は下記の通りである: この式の平均ベクトルμと分散共分散行列Σはそれぞれ次式で定義される: 分散共分散行列

                                                            • データ解析その前に: 分布型の確認と正規性の検定 #rstatsj - Qiita

                                                              対象としている手持ちのデータが、どのような特徴をもっているかを理解しておくことは、統計解析をおこなう際にとても重要。本当は、データを集める前に理解しておいたほうがいいのだろうけど、どこからともなくやってきたデータと向き合わなくてはいけない場合もあるし、そういうときに心得ておくと良いこと。そんなメモ。 多くの統計的検定の手法は、データが正規分布に従うことを仮定している。いわゆるパラメトリック手法といわれるやつ(母集団の分布型に一定の仮定をおく... 正規分布でなくてもおk?)がそれだ。 データが正規分布に従うかどうか(正規性)を確認する方法は、大きく分けて2つある。度数分布図(ヒストグラム)や正規確率グラフを用いて視覚的に確認するか、統計的手法を用いて客観的な評価をおこなうかである。もちろんRではどちらの方法も実行できるのでやってみる。

                                                                データ解析その前に: 分布型の確認と正規性の検定 #rstatsj - Qiita
                                                              • 二元論やカテゴライズではなく正規分布で考えてみる - セカイノカタチ

                                                                世の中には、善か悪か、右か左か、きのこかたけのこか、など、物事を2つに分けたり、幾つかの型に分類して考えるという事が日常的に行われています。 時には、各陣営に別れて侃々諤々の議論が展開されるわけですが、各個人の状況を見てみると、それぞれ考えていることや立場は千差万別であり、簡単にカテゴライズできるものではありません。 そして、このように個別には離散的(バラバラ)であるが、全体としては群れをなすような値の集合を見た時に、それが正規分布することが多いことが経験上知られています。 正規分布とは下のグラフのような散らばりを見せます。 大概の値は、中央値近辺に集まり、両端に近づくにつれ急激に個体数が減っていきます。 典型的な例で行くと、テストの点数や身長なんかが標準偏差すると考えられています。 それ以外にも、睡眠時間や年収、足の速さや読書のスピード、色々なものが正規分布するものと思われますが、このよ

                                                                  二元論やカテゴライズではなく正規分布で考えてみる - セカイノカタチ
                                                                • 3σと不良品発生の確率を予測する「標準正規分布表」

                                                                  バラツキの要因「4M」 前回は、正規分布を説明する上で必要となる用語について話しました。ここで話をしていたのは、“バラツキ”についてでした(連載バックナンバーはこちら)。 さてバラツキの要因は何だったでしょうか? まずは復習です。バラツキの要因は「4M」です。 これらの要因によって、加工されるものにはバラツキが生じます。 ところが「今の時代、バラツキ0でモノが作れる」と言う人はいないでしょうか? 確かに、最新の技術、最新の設備、最適な環境下で製造することによって、そのバラツキは最小限になるのでしょう。しかしどんなに優れたツールであっても、そのツールを駆動させるための機構があり、その機構と制御によって部品は加工されます。また同一環境においても、温度というパラメータは存在します。±0℃という制御は困難ですので、部品加工においてバラツキ0というのは、あり得ない世界です。 こんな話もあります。 「

                                                                    3σと不良品発生の確率を予測する「標準正規分布表」
                                                                  • Loading...

                                                                      Loading...
                                                                    • 第5回 正規分布[後編] | gihyo.jp

                                                                      統計的機械学習では解きたい問題にあわせて様々な分布を扱いますが、中でももっとも重要なのは、今回紹介する正規分布です。 まずはウォーミングアップ代わりに、前回のおさらいです。前回は、確率変数の値を実数のような「連続な数」で表す「連続確率」について説明しました。 連続確率は、サイコロの目ような「離散確率」とは異なり、「⁠確率密度関数」というものを導入し、「⁠確率密度関数 f(x) の積分値=面積=確率」として定義します。確率を「点」に対して考えるといろいろと都合が悪いので、「⁠範囲」に対して考えるのでしたね。 分布が確率であるためには「足して1になる」などの重要な条件がありましたが、連続確率にも同様に「重要な2条件」があります。 確率密度関数 f(x) の値は常に0以上 「取り得る値の全範囲」にわたって、確率密度関数 f(x) を積分すると1になる。つまり p(全範囲)=1 となる 重要なポイ

                                                                        第5回 正規分布[後編] | gihyo.jp
                                                                      • 【統計学】中心極限定理のイメージをグラフで掴む - Qiita

                                                                        1.中心極限定理とは 統計学を勉強していると、中心極限定理という何やらお堅い名前の定理が出てきます。Wikipedia先生によると、 大数の法則によると、ある母集団から無作為抽出された標本平均はサンプルのサイズを大きくすると真の平均に近づく。これに対し中心極限定理は標本平均と真の平均との誤差を論ずるものである。多くの場合、母集団の分布がどんな分布であっても、その誤差はサンプルのサイズを大きくしたとき近似的に正規分布に従う。 http://ja.wikipedia.org/wiki/中心極限定理 と書かれているのですが、よくわからないですね^^; 元の分布が、どんな形であれ、そこから取り出した標本の標本平均は正規分布に近いものになる、と言うことですね。標本分散も同じく正規分布に近いものになるそうです。(正確に言うとカイ二乗分布に従いNが多いと正規分布で近似できる) 言葉で説明しても、数式で証

                                                                          【統計学】中心極限定理のイメージをグラフで掴む - Qiita
                                                                        • ガウス関数 - Wikipedia

                                                                          この項目では、正規分布に関連した関数について説明しています。ガウス記号 [·] で表される関数については「床関数」をご覧ください。 この記事は検証可能な参考文献や出典が全く示されていないか、不十分です。出典を追加して記事の信頼性向上にご協力ください。(このテンプレートの使い方) 出典検索?: "ガウス関数" – ニュース · 書籍 · スカラー · CiNii · J-STAGE · NDL · dlib.jp · ジャパンサーチ · TWL(2023年10月)

                                                                            ガウス関数 - Wikipedia
                                                                          • Twitter上の話題を発見するアルゴリズム - Qiita

                                                                            以下では自分の修士研究で開発した話題解析システム( https://twitter.com/lamrongol/lists/trend-analysis )について解説していきます。 そもそも話題とはなにか さて、話題を解析する前にまず「話題」とは何か、を定義しなければいけません。例えば地震が起きた時みんなが一斉に地震だとつぶやきます。さらに大きさや震源なども言及されるでしょう。つまりあるものが話題になってるとは、それに関連する 単語の出現数がいつもより大きくなっている ということを意味します。 異常検知アルゴリズム 「そんなの当たり前じゃないか」と思うかもしれませんが、ではどうやったら「単語の出現数がいつもより大きくなっている」と判断できるかを考え始めると実はこれが意外に厄介な問題であることに気が付きます。例えば簡単に思いつくものとして(単語の出現数)-(普段の単語の出現数)とすればどう

                                                                              Twitter上の話題を発見するアルゴリズム - Qiita
                                                                            • 「格差」を考える 第1回:競争が「格差」を作るのか(前編)

                                                                              • エクセルでの正規分布の計算(正確)

                                                                                1.エクセルの関数NORMDISTの使い方 エクセルにはいくつか正規分布に関する関数があります.ここではNORMDIST関数を使ってみましょう. NORMDIST関数は,平均μ,標準偏差σの正規分布において,確率変数がx以下になる割合(確率)を計算します(下図).NORMDIST(x, μ, σ, true)の形式でエクセルに入力します. 例えば,20歳日本人男性の身長の分布はほぼ正規分布にあてはまり,平均が170.5cm,標準偏差が5.9cmであるとしましょう.そのとき身長160cm以下は,全体のどれだけいるでしょうか? NORMDIST(160, 170.5, 5.9, true)と入力して,計算できます.

                                                                                • 標準正規分布グラフを作成する−NORMDIST関数:Excel(エクセル)の使い方/グラフ

                                                                                  ▼操作手順:-6σから6σまでの標準正規分布グラフを作成する ※A1:A121セルに-6から6までの値を0.1刻みで入力、B1:B121セルに確率密度関数の値を求め、標準正規分布グラフを作成する例 A1:A121セルに「-6」から「6」までの値を「0.1」刻みで入力 ↓ B1セルに 「=NORMDIST(A1,0,1,FALSE)」 という数式を入力 ↓ B1セルをB121セルまでオートフィル ↓ A1:B121セルを元に、散布図(平滑線)グラフを作成 ▼サンプルファイル(003121.xls 84KByte)ダウンロード サンプルファイルには、上記の手順で作成したほとんどそのままのグラフと、数値軸や目盛線を削除したり、プロットエリアの書式設定などを行ったグラフとが作成してあります。 NORMDIST関数は、指定した平均と標準偏差に対する正規分布関数の値を返してくれる関数で、 第2引数に平