タグ

統計学に関するshiumachiのブックマーク (24)

  • A/Bテストの数理 - 第1回:人間の感覚のみでテスト結果を判定する事の難しさについて - - doryokujin's blog

    データ解析の重要性が認識されつつある(?)最近でさえも,A/Bテストを始めとしたテスト( = 統計的仮説検定:以後これをテストと呼ぶ)の重要性が注目される事は少なく,またテストの多くが正しく実施・解釈されていないという現状は今も昔も変わっていないように思われる。そこで,シリーズではテストを正しく理解・実施・解釈してもらう事を目的として,テストのいろはをわかりやすく説明していきたいと思う。 スケジュール スケジュール 第1回 [読み物]:『人間の感覚のみでテスト結果を判定する事の難しさについて』:人間の感覚のみでは正しくテストの判定を行うのは困難である事を説明し,テストになぜ統計的手法が必要かを感じてもらう。 第2回 [読み物]:『「何をテストすべきか」意義のある仮説を立てるためのヒント』:何をテストするか,つまり改善可能性のある効果的な仮説を見いだす事は,テストの実施方法うんぬんより

    A/Bテストの数理 - 第1回:人間の感覚のみでテスト結果を判定する事の難しさについて - - doryokujin's blog
  • 統計学を勉強するときに知っておきたい10ポイント - Issei’s Analysis ~おとうさんの解析日記~

    googleさんやマイクロソフトさんは「次の10年で熱い職業は統計学」と言っているようです。またIBMは分析ができる人材を4,000人増やすと言っています(同記事)。しかし分析をするときの基礎的な学問は統計学ですが、いざ統計学を勉強しようとしてもどこから取りかかればいいか分からなかくて困るという話をよく聞きます。それに機械学習系のは最近増えてきましたが、統計学自体が基礎から学べるはまだあまり見かけないです。 そこで今回は、統計学を初めて勉強するときに知っておいた方が良い10ポイントを紹介したいと思います。 1. 同じ手法なのに違う呼び名が付いている 別の人が違う分野で提案した手法が、実は全く同じだったということがあります。良く聞くのは、数量化理論や分散分析についてです。 数量化理論 数量化I類 = ダミー変数による線形回帰 数量化II類 = ダミー変数による判別分析 数量化III類 =

    統計学を勉強するときに知っておきたい10ポイント - Issei’s Analysis ~おとうさんの解析日記~
  • サンプリングについてのひとつのお話 - 社会学者の研究メモ

    世論調査などでもしばしば「層化二段無作為抽出」という言葉を目にする人は多いのではないだろうか。この手続を簡潔に説明することはなかなか難しいので、何度テキストを読んでもピンとこない、という人は意外に多いようである。その理由の一つは、「単純ランダムサンプリング(unrestricted random sampling)」を最初に説明して、それからその他の抽出法を応用として説明しようとしているからではないか、という気がする。そのせいか、一般の方の中には「母集団の正しい姿を捉えるには単純ランダム抽出が最善で、それ以外は亜流」といった考え方をしている人も多いようだ。 ところが、統計に関わる研究者のほとんどは、実際には「単純ランダム抽出は最善というよりも次善」ということを理解した上でデータを扱っている。それが一般の人には理解しにくい思考プロセスを踏まえているために、いろいろな誤解が生じているようである

    サンプリングについてのひとつのお話 - 社会学者の研究メモ
    shiumachi
    shiumachi 2011/04/11
    バイアスと誤差の違いについての図がわかりやすい
  • 統計の基礎

    平均値 $n$ 個の数値 $x_1$,$x_2$,...,$x_n$ が与えられたとき,これらの値を代表する値(代表値)として最もよく使われるのが平均値(mean,average) \[ \bar{x} = \frac{x_1 + x_2 + \cdots + x_n}{n} \] です。$\bar{x}$(エックス・バー)は $x$ の平均値を意味します。 平均値を意味する英語は mean と average の二通りがあります。平均値を求めるのにExcelでは average() という関数を使いますが,Rでは短いほうの mean() が関数名になっています。 > x = c(0, 7, 8, 9, 100) > mean(x) [1] 24.8 上で定義したものを相加平均または算術平均(arithmetic mean)ともいいます。これに対して,積の $n$ 乗根 \[ \sqrt[

    shiumachi
    shiumachi 2011/03/27
    奥村先生による統計学のページ
  • t検定 - Wikipedia

    この記事は検証可能な参考文献や出典が全く示されていないか、不十分です。 出典を追加して記事の信頼性向上にご協力ください。(このテンプレートの使い方) 出典検索?: "T検定" – ニュース · 書籍 · スカラー · CiNii · J-STAGE · NDL · dlib.jp · ジャパンサーチ · TWL (2015年9月) t検定(ティーけんてい)とは、帰無仮説が正しいと仮定した場合に、統計量がt分布に従うことを利用する統計学的検定法の総称である。母集団が正規分布に従うと仮定するパラメトリック検定法であり、t分布が直接、もとの平均や標準偏差にはよらない(ただし自由度による)ことを利用している。2組の標について平均に有意差があるかどうかの検定などに用いられる。統計的仮説検定の一つ。日産業規格では、「検定統計量が,帰無仮説の下でt分布に従うことを仮定して行う統計的検定。」と定義して

  • 統計学復習メモ10: なぜ共分散行列の固有ベクトルが単位主成分なのか - Weblog on mebius.tokaichiba.jp

    かつてJR横浜線 十日市場駅近くのMebius (CPU:Pentium 150MHz)より発信していたウェブログです。 前項に書いた通り、主成分分析における主成分の単位ベクトルは、共分散行列の固有ベクトルとして求まる。そのこと自体に昔から興味があったので、主成分分析の復習ついでに考察してみる。 まず、最小2乗法で考えてみる。簡単のために2次元で考える。n個のサンプルデータを とし、第1主成分の単位ベクトルを とすると、Xに対応する主成分軸上の第1主成分Yは であり、そのYを元の座標系に戻したものX~は である。このことは、高校で習った一次変換を思い出してやってみるとわかる。このX~が、Xを第1主成分の軸上に射影したものであり、これとXとの距離が、最小にしたい誤差ということになる。その誤差Eを、Xを直交座標とした場合の距離の2乗とすると、 であり、p12+p22=1に注意すると、これは と

    統計学復習メモ10: なぜ共分散行列の固有ベクトルが単位主成分なのか - Weblog on mebius.tokaichiba.jp
  • How Not To Sort By Average Rating

    By Evan Miller February 6, 2009 (Changes) Translations: Dutch  Estonian  German  Russian  Ukrainian PROBLEM: You are a web programmer. You have users. Your users rate stuff on your site. You want to put the highest-rated stuff at the top and lowest-rated at the bottom. You need some sort of “score” to sort by. WRONG SOLUTION #1: Score = (Positive ratings) − (Negative ratings) Why it is wrong: Supp

    How Not To Sort By Average Rating
    shiumachi
    shiumachi 2011/01/09
    "CORRECT SOLUTION: Score = Lower bound of Wilson score confidence interval for a Bernoulli parameter"
  • 2005年新春 終了番組評価 - エネルギー吸収と発散

    http://www.planning-ai.com/~yuuki/special/index.htm しつこくも再び。うちのサイトにもここから来ている人が何人かいて、なかなか嬉しかったり。 ところで、「評価点ランキング」。俺はこういう統計が大好きなので、平均点の90%信頼区間を計ってみました。90%信頼区間というのは、簡単に言うと「100回感想調査をやったとき、90回は平均点がこの範囲にくるだろう」という統計量です。例えば攻殻機動隊だと、100回のうち90回は平均点が「3.47」〜「4.36」の間にくるだろう、ということになります。ということは、当然、信頼区間が狭いほうが信頼性のある統計量ということになりますね。あと、下側の90%信頼区間を比較することで、「9割方は最低でもこれ以上の評価になるだろう」という結果がわかるので、ランキングとしてはかなり信頼できるんじゃないかなあ、って思います

    2005年新春 終了番組評価 - エネルギー吸収と発散
    shiumachi
    shiumachi 2011/01/09
    "下側の90%信頼区間を比較することで、「9割方は最低でもこれ以上の評価になるだろう」という結果がわかるので、ランキングとしてはかなり信頼できる"
  • 独断と偏見によるノンパラ入門 - 木曜不足

    「ノンパラメトリック」って言うくらいだからパラメータ無いんかと思ってたら、パラメータめっちゃあるし。 機械学習のネーミングのひどさはこれに始まった話じゃあないけど、それにしたって。 ノンパラの一番素朴なやつ( K-means とか)は当にパラメータ無くてデータだけだから納得なんだけど、だんだん欲が出てパラメータ足しちゃったり派生させちゃったりしてるうちに、よくわかんなくなってきちゃったんだろうかねえ。まったく。 どれどれ、と英語Wikipedia の "Non-parametric statistics" を見たら、なんか意味が4種類くらい書いてあるし。じゃあ名前分けろよ。 en.wikipedia.org とりあえずここで言う「ノンパラ」とは、変数の個数決めなくていい「分布の分布」なメタっぽいやつのこと。つまりディリクレ過程とか、ディリクレ過程とか、そこらへん。 「あー、ノンパラベ

    独断と偏見によるノンパラ入門 - 木曜不足
  • UC Berkeley Webcasts | Video and Podcasts: Fall 2010 Courses

    UC Berkeley's Webcast and Legacy Course Capture Content is a learning and review tool intended to assist UC Berkeley students in course work. Content is available to UC Berkeley community members with an active CalNet and bConnected (Google) identity. UC Berkeley Log-in UC Berkeley members please log into the new search directory website with your CalNet identity and passphrase(link is external) t

    shiumachi
    shiumachi 2010/11/08
    "Statistics 21, 001 - Introductory Probability and Statistics for Business" おすすめと聞いて
  • EMアルゴリズム - Wikipedia

    EMアルゴリズム(英: expectation–maximization algorithm)とは、統計学において、確率モデルのパラメータを最尤推定する手法の一つであり、観測不可能な潜在変数に確率モデルが依存する場合に用いられる。EM法、期待値最大化法(きたいちさいだいかほう)[1][2]とも呼ばれる。その一般性の高さから、機械学習音声認識、因子分析など、広汎な応用がある[1]。 EMアルゴリズムは反復法の一種であり、期待値(英: expectation, E)ステップと最大化(英: maximization, M)ステップを交互に繰り返すことで計算が進行する。Eステップでは、現在推定されている潜在変数の分布に基づいて、モデルの尤度の期待値を計算する。Mステップでは、E ステップで求まった尤度の期待値を最大化するようなパラメータを求める。M ステップで求まったパラメータは、次の E ステ

    EMアルゴリズム - Wikipedia
    shiumachi
    shiumachi 2010/10/04
    "確率モデルのパラメータを最尤法に基づいて推定する手法のひとつであり、 観測不可能な潜在変数に確率モデルが依存する場合に用いられる"
  • Yule–Simon distribution - Wikipedia

    shiumachi
    shiumachi 2010/06/24
    "the tail of the Yule–Simon distribution is a realization of Zipf's law"
  • Zipf's law - Wikipedia

    A plot of the frequency of each word as a function of its frequency rank for two English language texts: Culpeper's Complete Herbal (1652) and H. G. Wells's The War of the Worlds (1898) in a log-log scale. The dashed line is the ideal law . Zipf's law (/zɪf/; German pronunciation: [tsɪpf]) is an empirical law stating that when a list of measured values is sorted in decreasing order, the value of t

    Zipf's law - Wikipedia
    shiumachi
    shiumachi 2010/06/24
    " the most frequent word will occur approximately twice as often as the second most frequent word, which occurs twice as often as the fourth most frequent word, etc."
  • 統計学へのお誘い本リスト

    趣旨 大学での講義や統計研修の受講生から,「統計学の参考図書を紹介してほしい」との依頼があったので,下記のような「お誘いリスト」をつくってみた.すべて日語のである.“門前”から“門”までの「参道」がやや長い気がするが,そこは気の迷いや逡巡が憑いてまわる相手のために,ということでご容赦いただきたい.また,いったん“入門”してしまった後は,統計手法ごとにそれぞれ特化したより適切な(中級書以上)がきっとあると思うが,下のリストはまったく網羅的ではない.個人的に,生物系・農学系の学生や研究員を相手に講義をする機会が多いので,リストの最初の方はできるだけ“数式汚染”されていない統計を中心に挙げてある.下記の内容についてご意見やご指摘がありましたらご連絡ください. 門前でまだ迷っている人のための誘惑 結城浩/たなか鮎子[イラスト]『数学ガールの秘密ノート:やさしい統計』(2016年11月7

  • Amazon.co.jp: 統計学を拓いた異才たち(日経ビジネス人文庫) (日経ビジネス人文庫 ブルー さ 12-1): デイヴィッド・サルツブルグ (著), 竹内惠行、熊谷悦生 (翻訳): 本

    Amazon.co.jp: 統計学を拓いた異才たち(日経ビジネス人文庫) (日経ビジネス人文庫 ブルー さ 12-1): デイヴィッド・サルツブルグ (著), 竹内惠行、熊谷悦生 (翻訳): 本
  • Bayesian network - Wikipedia

    A Bayesian network (also known as a Bayes network, Bayes net, belief network, or decision network) is a probabilistic graphical model that represents a set of variables and their conditional dependencies via a directed acyclic graph (DAG).[1] While it is one of several forms of causal notation, causal networks are special cases of Bayesian networks. Bayesian networks are ideal for taking an event

    Bayesian network - Wikipedia
    shiumachi
    shiumachi 2010/02/16
    "a probabilistic graphical model that represents a set of random variables and their conditional independencies via a directed acyclic graph (DAG)"
  • Inverse-chi-squared distribution - Wikipedia

    shiumachi
    shiumachi 2010/02/13
    "the probability distribution of a random variable whose multiplicative inverse (reciprocal) has a chi-square distribution. It is also often defined as the distribution of a random variable whose reciprocal divided by its degrees of freedom is a chi-square distribution."
  • 最尤推定 - Wikipedia

    最尤推定(さいゆうすいてい、英: maximum likelihood estimationという)や最尤法(さいゆうほう、英: method of maximum likelihood)とは、統計学において、与えられたデータからそれが従う確率分布の母数を点推定する方法である。 この方法はロナルド・フィッシャーが1912年から1922年にかけて開発した。 観測されたデータからそれを生んだ母集団を説明しようとする際に広く用いられる。生物学では塩基やアミノ酸配列のような分子データの置換に関する確率モデルに基づいて系統樹を作成する際に、一番尤もらしくデータを説明する樹形を選択するための有力な方法としても利用される。機械学習ではニューラルネットワーク(特に生成モデル)を学習する際に最尤推定(負の対数尤度最小化として定式化)が用いられる。 最尤推定が解く基的な問題は「パラメータ が不明な確率分布に

    shiumachi
    shiumachi 2010/02/13
    "最尤法は母数 θ の一番尤もらしい値を探す(つまり θ のすべての可能な値の中から、観察されたデータセットの尤度を最大にするものを探す)方法である"
  • Fisher's method - Wikipedia

    Under Fisher's method, two small p-values P1 and P2 combine to form a smaller p-value. The darkest boundary defines the region where the meta-analysis p-value is below 0.05. For example, if both p-values are around 0.10, or if one is around 0.04 and one is around 0.25, the meta-analysis p-value is around 0.05. In statistics, Fisher's method,[1][2] also known as Fisher's combined probability test,

    Fisher's method - Wikipedia
  • Amazon.co.jp: パターン認識と学習の統計学―新しい概念と手法 (統計科学のフロンティア 6): 俊一,甘利, 麻生英樹, 津田宏治, 村田昇: 本

    Amazon.co.jp: パターン認識と学習の統計学―新しい概念と手法 (統計科学のフロンティア 6): 俊一,甘利, 麻生英樹, 津田宏治, 村田昇: 本