統計学に関するmatsuken92のブックマーク (9)

  • 超訳 PyMC3 Tutorial (マルコフ連鎖モンテカルロ法フレームワーク)その1 - Qiita

    Pythonでマルコフ連鎖モンテカルロ法(MCMC)を実行できるライブラリ、PyMC3のチュートリアルの訳を書いてみました。タイトルにあるように、原文をそのままではなく意訳を超えた「超訳」です 原文のURL http://pymc-devs.github.io/pymc3/getting_started/ イントロダクション(だいぶ省略) 確率的プログラミング(Probabilistic programming : PP)は柔軟なベイズ統計モデルをプログラムで行うことを可能にします。 PyMC3は新しいオープンソースの確率プログラミングフレームワークで、No-U-Turn Sampler (NUTS; Hoffman, 2014)や、ハミルトニアンモンテカルロ法 (HMC; Duane, 1987)のパラメーターの自己チューニングなど、次世代のマルコフ連鎖モンテカルロ法(MCMC)が使える

    超訳 PyMC3 Tutorial (マルコフ連鎖モンテカルロ法フレームワーク)その1 - Qiita
  • 【統計学】一般化線形混合モデル(GLMM)を理解するための可視化。 - Qiita

    「データ解析のための統計モデリング入門」(通称:みどりぼん)のp157 にある、「分布を混ぜる」の考え方について、分布で考えるのではなく乱数ベースでシミュレーションを行いアニメーションで可視化をしてみましたので紹介したいと思います。 結果のアニメーションはこちらです。文でこの内容を説明していきます。 (コードはこちら) 詳細な説明はこの「みどりぼん」に全てわかりやすく書いてあるので、ここでは可視化するにあたっての解説のみを行います。なんだか面白そうな話だと思いましたら是非ご購入ください! 前置き ある植物において種子が最大8個作られるのですが、その種子の生存個数が二項分布、 p(y_i) ={8 \choose y_i}\ q_i^{y_i} (1-q_i)^{8-y_i} \quad \mbox{for}\ q_i=0,1,2,\dots,8 に従っているとします。$y_i$は個体$i

    【統計学】一般化線形混合モデル(GLMM)を理解するための可視化。 - Qiita
  • Machine Learning with Scikit Learn | SciPy 2015 Tutorial | Andreas Mueller & Kyle Kastner Part I

    Machine Learning with Scikit Learn | SciPy 2015 Tutorial | Andreas Mueller & Kyle Kastner Part I
  • https://github.com/amueller/scipy_2015_sklearn_tutorial/tree/master/notebooks

    https://github.com/amueller/scipy_2015_sklearn_tutorial/tree/master/notebooks
  • 【統計学】初めての「標準偏差」(統計学に挫折しないために) - Qiita

    統計をこれから学ぼうという方にとって、非常に重要な概念ですが理解が難しいものに「標準偏差」があると思います。「平均」くらいまでは馴染みもあるし、「わかるわかるー」という感じと思いますが、突如現れる「標準偏差」 の壁。結構、この辺りで、「数学無理だー」って打ちのめされた方もいるのではないでしょうか。 先にグラフのイメージを掲載すると、下記の赤い線の長さが「標準偏差」です。なぜこの長さが標準偏差なのか、ということも解き明かしていきます。 (code is here) 記事では数学が得意でない方にもわかるように1から標準偏差とはなにか、を説明してみようという記事です。 数式はわかるけど、イマイチ「標準偏差」の意味わからんという方にも直感的な理解がしてもらえるような説明もしていきますので、ぜひご覧ください。 (※ この記事では標準偏差の分母に $n$を使用しています。$n-1$を使用するケースも

    【統計学】初めての「標準偏差」(統計学に挫折しないために) - Qiita
  • 【統計学】【R】分位点回帰を使ってみる。 - Qiita

    分位点回帰、という手法のご紹介です。 通常の回帰直線は、$x$が与えられた時の$y$の条件付き期待値(平均)と解釈できますが、分位点回帰では、25%分位点、とか95%分位点、等で使われる "分位点" をベースに回帰直線を引いてみようというものです。 何はともあれ、まずはこれを使ってグラフを書いて可視化を試みます。 1.誤差の分散が説明変数に依存した正規分布の例 説明変数$x$が小さいところでは誤差の分散が小さく、大きいところでは誤差の分散も大きくなるようなケースです。そんなデータを生成して試しています。 分位点回帰では、分位点ごとに異なる $\beta$が設定されるので、それぞれ傾きが異なります。 分位点回帰の実行結果 下から順に5%, 10%, 25%, 75%, 90%, 95%の分位点回帰直線と、通常の回帰直線です。 まずはデータを生成して散布図を描きます。 # 未インストールならイ

    【統計学】【R】分位点回帰を使ってみる。 - Qiita
  • 【数学】固有値・固有ベクトルとは何かを可視化してみる - Qiita

    線形代数に固有値という概念が出てきます。最初はイメージしにくいのでは、と思うのですが重要な概念かつ、統計学でも頻繁に利用されるので、これもこの可視化シリーズとしてアニメーショングラフを書いて説明することを試みたいと思います。 このようなグラフの意味を読み解いていきます。 1.固有値・固有ベクトルとは? まず、固有値・固有ベクトルとはなんぞや。数式で表すと下記のことです。 ${\bf x}\neq {\bf 0}$の${\bf x}$で、行列Aをかけると、長さが$\lambda$倍になるような${\bf x}$の事を固有ベクトル, $\lambda$を固有値と言います。 知らない人は???で、これだけではよくわからないですね。 早速、グラフィカルな説明も交えて説明していきたいと思います。 2.行列Aによる線形変換 固有値・固有ベクトルの説明の前に、行列による線形変換について取り上げます。 例

    【数学】固有値・固有ベクトルとは何かを可視化してみる - Qiita
  • data distribution

    よく使われる分布の確認方法にヒストグラムがある。 ぱっと見で特徴をつかみやすい利点があるけれど、やや厳密さに欠ける。 どんなヒストグラムが何を表すのかがわかりにくいからだ。 もっと厳密に確認するための図示の方法にQ-Q Plotがある。 これは、1対のデータセットの分布が同じなのか違うのかを確かめる方法である。 それぞれのデータセットの同じ分位数(パーセンタイル等)を比較する。 もし分布が一致するなら、当然、同じ分位数は一致する。 たとえば、ふたつの街が同じくらい豊かなら、それぞれから抽出したサンプルのうち 上位1, 2, 3, ... 99, 100パーセンタイルの人々の年収はおよそ一致するだろう。 そこでQ-Q Plotは y=x の直線になる。 Q-Q Plotを使って、ある実験データを数理モデルと比較することもできる。 たとえばデータを正規分布(という数理モデル)と比較すれば、 そ

  • ROC曲線とは何か、アニメーションで理解する。 - Qiita

    統計学、パターン認識等で、ROC(Receiver Operating Characteristic;受信者動作特性)曲線という概念が出てきます。また、データ分析・予測のコンペティションサイトKaggleでも、提出されたアルゴリズムの識別性能評価にこのROC曲線に基づくAUC(Area Under the Curve)というものを使っています。(例えばココ) このROC曲線、ちょっとわかりにくいので、まとめてみました。また、アニメーションでグラフを動かしてイメージを付けるということもやってみます。 1. ROC曲線に至る前説 まず、例として健康に関するとある検査数値データがあったとします。 この検査数値は健康な人は平均25, 標準偏差2の正規分布に従い分布しています。(下記図の緑の曲線) 病気の人は平均30、標準偏差4の正規分布に従い分布しています。(下記の図の青の曲線) グラフにすると下

    ROC曲線とは何か、アニメーションで理解する。 - Qiita
  • 1