タグ

ブックマーク / hoxo-m.hatenablog.com (11)

  • 「5分でわかるベイズ確率」というタイトルで発表しました - ほくそ笑む

    先日行われた第35回R勉強会@東京(Tokyo.R)にて、「5分でわかるベイズ確率」というタイトルで発表させて頂きました。 スライドは下記にアップしています。 5分でわかるベイズ確率 from hoxo_m 5分の発表枠に対して32枚のスライドは多すぎだったと思います。調子にのって作りすぎました。 これに懲りずにまた参加させて頂けたらと思います。よろしくお願いいたします。 参考文献 史上最強図解 これならわかる!ベイズ統計学 作者: 涌井良幸,涌井貞美出版社/メーカー: ナツメ社発売日: 2012/02/21メディア: 単行購入: 19人 クリック: 40回この商品を含むブログを見る 入門ベイズ統計―意思決定の理論と発展 作者: 松原望出版社/メーカー: 東京図書発売日: 2008/06メディア: 単行購入: 107人 クリック: 2,061回この商品を含むブログ (46件) を見る

    「5分でわかるベイズ確率」というタイトルで発表しました - ほくそ笑む
  • ベイズ最適化についての入門記事を書きました - ほくそ笑む

    ベイズ最適化 (Bayesian Optimization) についての入門記事をマイナビのサイトに寄稿しました。 第3回 機械学習のためのベイズ最適化入門|Tech Book Zone Manatee ベイズ最適化は大域的最適化手法 (Global Optimization) の一種であり、これをグリッドサーチの代わりに使うことで、効率的に機械学習のハイパーパラメータ探索ができる、という内容です。 この記事ではベイズ最適化の基的な部分についてポイントを絞って説明したつもりです。 R言語にはベイズ最適化のためのパッケージ rBayesianOptimization があり、この使い方については下記の記事が詳しいです。 {rBayesianOptimization}パッケージによるベイズ最適化で機械学習パラメータチューニングをお手軽に - 六木で働くデータサイエンティストのブログ また、

    ベイズ最適化についての入門記事を書きました - ほくそ笑む
    lEDfm4UE
    lEDfm4UE 2016/08/27
  • ベイズ統計の入門書が出版ラッシュなのでまとめてみた - ほくそ笑む

    【宣伝】2016/09/14 このページに来た方へ。あなたが求めているはこれです。 StanとRでベイズ統計モデリング (Wonderful R) 作者: 松浦健太郎,石田基広出版社/メーカー: 共立出版発売日: 2016/10/25メディア: 単行この商品を含むブログ (10件) を見るまずこれを予約してから下記を読むといいです。 【宣伝終】 最近、ベイズ統計の入門書がたくさん出版されているので、ここで一旦まとめてみようと思います。 1. 基礎からのベイズ統計学: ハミルトニアンモンテカルロ法による実践的入門 (2015/6/25) 基礎からのベイズ統計学: ハミルトニアンモンテカルロ法による実践的入門 作者: 豊田秀樹出版社/メーカー: 朝倉書店発売日: 2015/06/25メディア: 単行この商品を含むブログ (6件) を見る データ分析業界ではかなり有名な豊田秀樹先生のです

    ベイズ統計の入門書が出版ラッシュなのでまとめてみた - ほくそ笑む
    lEDfm4UE
    lEDfm4UE 2015/12/28
  • 可視化で理解する「負の二項分布」 - ほくそ笑む

    みどりぼんでカウントデータの過分散対策のために使われると書かれている負の二項分布ですが、Wikipediaの説明を読んでもよく分かりません。 そこでおススメなのが、このスライドです。 負の二項分布について from Hiroshi Shimizu ようするに、負の二項分布は、 がガンマ分布に従うようなポアソン分布だと思えばだいたい OK みたいです。 今日はこれを可視化してみます。 負の二項分布(Negative Binomial Distribution) 負の二項分布はパラメータを 2つ持ちます。成功回数を表す と成功確率を表す です。 統計言語 R には負の二項分布に従う乱数を生成する関数 rnbinom() があり、これらのパラメータはそれぞれ引数 size と prob に対応しています。 したがって、, の負の二項分布は次のようにして描画できます。 negative_binom

    可視化で理解する「負の二項分布」 - ほくそ笑む
  • log 変換する?しない?AICでモデル比較するときの注意点 - ほくそ笑む

    データを分析にかける前に、出力変数を log 変換する、というのはよくあることだと思います。 次のデータを見て下さい。 このデータ、線形モデルに当てはめる前に log 変換したほうがよさそうだなーというのが見てとれます。 それもそのはず、このデータは次のように作っています。 N <- 100 x <- runif(N, min = 1, max = 2) y <- exp(x + rnorm(N, sd = 0.3)) data <- data.frame(x, y) それでは、log 変換しないバージョンと、するバージョンでモデルを作成して、AIC を比較してみましょう。 model <- lm(y ~ x, data) model.log <- lm(log(y) ~ x, data) aic <- AIC(model, model.log) print(aic) ## df AIC

    log 変換する?しない?AICでモデル比較するときの注意点 - ほくそ笑む
  • ほくそ笑む

    ロジスティック回帰について調べている。 ロジスティック回帰モデルのパラメータの最尤推定量は、不偏推定量ではなく、バイアスがある。 例として、サンプルサイズ 、入力変数の数 のときを考える。 パラメータ 300個の真の値を、最初の 100個は 、次の 100個は 、残りの 100個は に設定して推定してみよう。 n <- 1500 p <- 300 # データの生成 set.seed(314) x <- rnorm(n * p, mean = 0, sd = sqrt(1/n)) X <- matrix(x, nrow = n, ncol = p) beta <- matrix(c(rep(10, p/3), rep(-10, p/3), rep(0, p/3))) logistic <- function(t) 1 / (1 + exp(-t)) prob <- logistic(X %*

    ほくそ笑む
  • 統計的消去で擬似相関を見抜こう! - ほくそ笑む

    今日は初心者向け記事です。 はじめに ある範囲の年齢の小学生32人を無作為に選び、算数のテストを受けてもらい、さらにその身長を測定しました。 身長に対する算数の点数のグラフは次のようになりました。 なんと、身長の高い子供の方が、算数の点数が高いという結果になりました! 身長が算数の能力に関係しているなんて、すごい発見です! しかしながら、結論から言うと、この結果は間違っています。 なぜなら、抽出したのは「ある範囲の年齢の小学生」であり、年齢の高い子も低い子も含まれているからです。 年齢が高いほど算数能力は高くなり、年齢が高いほど身長も高くなることは容易に推測できます。 この関係を図で表すと次のようになります。 つまり、年齢と算数能力に相関があり、年齢と身長にも相関があるため、身長と算数能力にも見かけ上の相関が見えているのです。 このような相関を擬似相関と言います。 統計解析では、このような

    統計的消去で擬似相関を見抜こう! - ほくそ笑む
  • 統計言語 R の公式ヘルプでさらっと目を通しておくと良いトピックまとめ - ほくそ笑む

    『アート・オブ・Rプログラミング』の日語訳が出たので早速買いました。 細かい仕様の解説が多くちりばめられていて結構いい感じです。 プログラミング初心者向けではないですが、他の言語になじんでる人が R に入門したい場合には、他の入門書よりもこっちを読んだ方が手っ取り早いのではないかと思います。 例えば、下記のように、他言語との比較による解説が各所に見られます。 他のスクリプト言語の経験がある読者は、Python での None や Perl での undefined などの「存在しない」値を知っているかもしれません。実は、R にはこのような値が2つあります。NA と NULL です。 http://www.amazon.co.jp/gp/product/4873115795 さて、今日はこのの 1.7.4 節からの話題です。 統計言語 R には、公式ヘルプが付属しており、例えば平均値を計

    統計言語 R の公式ヘルプでさらっと目を通しておくと良いトピックまとめ - ほくそ笑む
  • 統計解析でよく使われる言葉「Qモード」「Rモード」とは何を指すのか - ほくそ笑む

    主成分分析のQモードとRモードの違いについて調べていたんですが、ネット上にほとんど情報を見つけられませんでした。 クラスター分析とか相関係数にもQモードとRモードがあるみたいで、統計では結構一般的に使われている言葉みたいなのですが、これだけ日語情報が少ないとなるとちょっと困りますね。 統計言語Rのメーリングリストにちょうど次のような質問が寄せられていたので、一部翻訳してみました。 こんにちは。 どなたか主成分分析のQモードとRモードの違いについて教えていただけないでしょうか。 それぞれ prcomp() と princomp() 関数に対応しているようなのですが。 by Lívio Cipriano こんにちは Livio、 prcomp のヘルプファイルにはこんなことが載ってるよ: この計算はデータ行列の特異値分解によって行われます。共分散行列の固有値は使用されません。これは一般的に、

    統計解析でよく使われる言葉「Qモード」「Rモード」とは何を指すのか - ほくそ笑む
  • 統計を学びたい人へ贈る、統計解析に使えるデータセットまとめ - ほくそ笑む

    はじめに 統計解析の手法を学ぶのに、教科書を読むのは素晴らしい学習方法です。 しかし、教科書で理論的なことを学んだだけでは、統計手法を使いこなせるようにはなりません。 統計解析手法を身につけるには、実際のデータについて手法を適用し、パラメータを変えるなどの試行錯誤を行い、結果を考察するというような経験を積むことが大切です。 それでは実際のデータをどうやって手に入れましょうか? 実験や調査をして実際のデータを得るのは大変でお金もかかります。 幸運なことに、世の中には適度なサイズの自由に使えるデータがたくさん存在します。 例えば、統計言語 R には、100以上ものデータセットがデフォルトで付属しています。 ただし、不幸なことに、それらのほとんどは英語で説明が書かれています。 英語は、いつかは乗り越えなければならない壁ですが、最初のうちはちょっと避けて通りたいところです。 というわけで、今日は、

    統計を学びたい人へ贈る、統計解析に使えるデータセットまとめ - ほくそ笑む
  • JavaScript の即時関数パターンはどんなときに使うのか? - ほくそ笑む

    知ってて当然?初級者のためのJavaScriptで使う即時関数(function(){...})()の全て この記事長すぎ。。。 即時関数パターン JavaScript では、 (function() { // なんらかの処理 })(); と書くことで、なんらかの処理をその場で実行できます。これを即時関数パターンと呼ぶそうです。 どういうときに使うの? ブロックスコープを疑似的に作りたいときに使います。 JavaScript では、ブロックの外と中でスコープが同じです。 どういうことかというと、 var message = "hoge"; if(message === "hoge") { var message = "fuga"; alert(message); // fuga と表示される } alert(message); // fuga と表示される if(){} ブロックの中で v

    JavaScript の即時関数パターンはどんなときに使うのか? - ほくそ笑む
  • 1