タグ

統計に関するsleepy_yoshiのブックマーク (34)

  • 多変量(多次元)正規分布のKLダイバージェンスの求め方 - EchizenBlog-Zwei

    機械学習界隈では多変量正規分布のKLダイバージェンスの導出は自明らしく、とくに説明もなく「はいこうなりますね〜簡単ですね〜ははは〜」みたいな感じで軽く流されて死にそうになる。 軽く流されると私のように死んでしまう人もいるかもしれないので導出方法をメモしておく。 前準備 KLダイバージェンスは分布Pに対して分布Qがどれだけ近いかを表し、定義は以下のとおり。 KL(P(x) || Q(x)) = ∫P(x) log(P(x) / Q(x)) dx = ∫P(x) log(P(x)) dx - ∫P(x) log(Q(x)) dxまた多変量正規分布の定義は以下のとおり。 P(x | μ, Σ) = ((2π)^d * |Σ|)^(-1/2) * exp(-1/2 * (x - μ)T Σ^-1 (x - μ)) μ: 平均(d次元(縦)ベクトル) Σ: 共分散行列(d次正方行列) x: データ点

    多変量(多次元)正規分布のKLダイバージェンスの求め方 - EchizenBlog-Zwei
  • Google Sites: Sign-in

    Not your computer? Use a private browsing window to sign in. Learn more about using Guest mode

    Google Sites: Sign-in
  • 良書だと思う、色々な分野の統計本の紹介 - Interdisciplinary

    メモがてら、これまで読んで解りやすかったり明瞭だと思った統計関連のをご紹介します。精読はしていないけれどこれは良さそうだ、と思ったのも入れます。適当に分類して、カテゴリーごとに。 私自身も勉強中なので、これいいよ、というのがあれば教えてもらえれば幸い。 ※の画像→説明文 という配置にしてあります ※上下巻ある場合には上巻のみリンクします 準備 少なくとも、中学生で習うくらいの数学は解っていないといかんともしがたいと思います。で、統計を勉強してみたい、でも数学は中学で挫折した、という私みたいな人間も多いだろうな、と。 方程式のはなし―式をたて解くテクニック 作者: 大村平出版社/メーカー: 日科技連出版社発売日: 1977/09メディア: 単行購入: 7人 クリック: 281回この商品を含むブログを見る関数のはなし〈上〉 作者: 大村平出版社/メーカー: 日科技連出版社発売日: 201

    良書だと思う、色々な分野の統計本の紹介 - Interdisciplinary
  • 相関と因果について考える:統計的因果推論、その(不)可能性の中心

    3. 今回のもくじ イントロ -『相関と因果』再訪 基礎編 - 因果概念の変遷: 心の習慣 から 反事実 へ - 因果と確率論を繋ぐ:Pearlのdo演算子 実務編 - 重回帰とは因果構造分解酵素である - バックドア基準による変数選択 考察 - 因果推論の不可能性, モデル選択の3視点 4. 相関と因果は一致しない 86 女 性 84 の 平 82 均 寿 80 命 78 (歳) 30 34 38 NHKの放送受信契約数(百万) http://www.stat.go.jp/data/nihon/02.htm 元データ→ http://pid.nhk.or.jp/jushinryo/know/pdf/toukei2010.pdf 5. 相関と因果は一致しない 86 p < 0.00000002 女 2 性 84 R = 0.99 の 平 82 均 寿 80 命 78 (歳) 30 34 3

    相関と因果について考える:統計的因果推論、その(不)可能性の中心
  • 研究者の多くはエラーバーの意味をろくに理解していない - 音風景ブログ

    研究者の多くはエラーバーの意味をろくに理解していない 今日、私は認知科学日記の読者がエラーバーをどれだけ理解しているかを問うオンライン投票を開始した――エラーバーとはよくグラフに乗っている、あの小さなI字型の、統計学の賜物である。正しく理解していないだろうということは、大体予想済みである。なぜそんなに自信があるかって? それは2005年、サラ・ベリア(Sarah Belia)らのチームが、最前線の心理学、神経科学、医学ジャーナルに論文を掲載したことがある数百人の研究者を対象に行った研究成果があるからである。彼らのうちエラーバーと有意さの関係について正しい知識を示したのはほんの一握りであった。論文を掲載した研究者たちができないなら、どうしてカジュアルなブログの読者ができることを前提としてよいだろうか? 信頼区間 まずそもそも、問題の解決法を知るため、少々の説明が必要である。信頼区間というコン

    研究者の多くはエラーバーの意味をろくに理解していない - 音風景ブログ
  • 日本統計学会創立75周年記念出版『21世紀の統計科学』(全3巻) 増補HP版 (2012年1月)

    2008年に日統計学会75周年記念出版として刊行されました国友直人・山拓監修『21世紀の統計科学』(全3巻)の増補版を, 日統計学会のホームページを通じて提供することとなりました.書の増補版の オンライン公開が統計科学の今後の発展に資することを期待しております. 第I巻 社会・経済の統計科学 (国友直人・山拓編) 第II巻 自然・生物・健康の統計科学 (小西貞則・国友直人編) 第III巻 数理・計算の統計科学 (北川源四郎・竹村彰通編)

  • WEBで読める統計関係の良質な資料 - Interdisciplinary

    私がよく参考にする所を三箇所紹介します。いずれも、説明が極めて明瞭で、論理的な整合性や用語の丁寧な使い方を志向している所に好感が持てるサイトです。 ▼Econom01 Web Site, Sophia University, Tokyo, Japan 上智大学の大西博氏のサイト。私が統計関連で最もよく参照する所です。説明の仕方の明瞭さや、具体例を用いた解説がとても良いと思います。確率統計の一つ一つの概念について、大変丁寧に説明されています。たとえば、「相関(および因果関係)」については、 2つの変数の同時分布と、その条件付き分布は、変数の間の数量的結び付きを示しています。この数量的結び付きは、統計的頻度分布として観察されるものであり、現象の背後にある実態的な「関係」や「構造」から導かれる法則性を必要としません。 例えば、人間の身長と体重とは密接な統計的分布関係を持っていますが、両変数を決定

    WEBで読める統計関係の良質な資料 - Interdisciplinary
  • はてなブログ | 無料ブログを作成しよう

    2024年下半期のフィルム写真たち ふと気がつくと2024年も残り僅か。 そしてふと振り返るとこのブログに掲載する写真がGRIIIで撮ったものばかりになっていたのだけど、決してフィルムに飽きたということではなく、フィルムはフィルムで淡々と撮り続けているし、モノクロもカラーネガもいつも通り自宅で…

    はてなブログ | 無料ブログを作成しよう
  • はてなブログ | 無料ブログを作成しよう

    プロジェクトマネジメントで娘の夏休みの宿題炎上を防止しました 娘の夏休みの宿題プロジェクト炎上 8歳9歳の娘が朝から泣きわめいていたので、何ごとかと思い話を聞いてみました。泣きじゃくっていたので要領を得なかったのですが、まとめると以下みたいでした。 「宿題やったのに、ママがテレビを見せてくれない。自分は頑張った…

    はてなブログ | 無料ブログを作成しよう
  • 統計学を勉強するときに知っておきたい7つのポイント

    マイクロソフト社が技術分野でもっと熱い専攻の一つとして分析/統計をあげている(Microsoft JobsBlog)。同社以外でも統計学は、今後最も有益なスキルの一つだと考えているようだ(NYT - For Today’s Graduate, Just One Word: Statistics)。しかし、データマイニングの話も一般化しつつあって学習ノウハウなども公開されているが、経験にあわない部分が多い。統計学を初めて勉強するときに知っておいた方が良い7つのポイントをあげてみた。 1. 学習機会やテキストは山のようにあるので利用する 確率・統計の日語テキストは山のようにあり、大学のコースワークを振り返っても、理文問わずにほとんどの学部で確率・統計はあったはずだ。大学院のコースワークでは英語の文献を好む傾向があるが、上級テキストでも日語のものも少なくない。また「マンガでわかる統計学」のよ

    統計学を勉強するときに知っておきたい7つのポイント
  • はてなブログ | 無料ブログを作成しよう

    ぬかいわし、タレカツ、鶏の半身揚げ、そして笹団子。新潟を平らげる2泊3日 今回の旅の目的地は新潟。新潟には申し訳ないのだが、自発的に決めた目的地ではない。JR東日の「どこかにビューーン!」という行き先ガチャサービスにより決定されたのだ。新潟といえば酒どころ米どころ。ちょうど新米の季節だ。どんとこい。古町エリアに宿を取っ…

    はてなブログ | 無料ブログを作成しよう
  • ヤバい統計学 - 情報考学 Passion For The Future

    ・ヤバい統計学 統計の失敗やウソを暴くのではなく、統計が正しく使われた成功事例を10のエピソードで解説する。統計学の成果を現実の社会に応用するには、難しい計算ができるだけではまったく不十分で、その数字が人間にもたらす心理効果や、実際の経済効果をよく考えなければならないということがよくわかる。 最初のエピソードはディズニーランドのファストパスは統計学の成功例だ。ファストパス発券によってアトラクションの待ち行列が短くなるわけではない。しかしファストパスにより「ディズニーのテーマパークでアトラクションを待つ行列は年々長くなっているにもかかわらず、出口調査によるとゲストの満足度は上昇し続けている。」そうである。 ファストパスの役割は待ち時間を短くすることではなかった。パスがあっても、アトラクションの収容能力は変わらないからだ。統計学的にはパスの真の機能はゲストの待ち時間のばらつきを排除することに

  • 〈統計学へのお誘い本リスト(11 Nov. 06 版)〉 - leeswijzer: een nieuwe leeszaal van dagboek

    → アップデート:〈6-September-2011版〉. 数理統計研修の受講生から,「統計学の参考図書を紹介してほしい」との依頼があったので,下記のような「お誘いリスト」をつくってみた.“門前”から“門”までの「参道」がやや長い気がするが,そこは気の迷いや逡巡が憑いてまわる相手のために,ということでご容赦を.また,いったん“入門”してしまった後は,手法ごとにそれぞれ適切な(中級書)がきっとあると思うが,上のリストではそこまでは考えていない.ただし,ぼくの担当している講義が「実験計画法」だったりするので,この分野については数冊選んで,リストに付けた.なお,〈R〉に関する参考書は別のリストを参照されたい. ご意見などありましたら,ご連絡ください. 門前で迷っている人のためのコミック系入門書 高橋信『マンガでわかる統計学』(2004年7月刊行,オーム社,ISBN:4274065707→版元

    〈統計学へのお誘い本リスト(11 Nov. 06 版)〉 - leeswijzer: een nieuwe leeszaal van dagboek
  • 君が出した有意差に意味はあるのか

    あ〜る菊池誠(反緊縮)公式 @kikumaco えーっとね、有意差の話は 「生物学を学ぶ人のための統計のはなし―きみにも出せる有意差」(粕谷英一、文一総合出版) 。これはなかなかいいだと思います。これ読むと、他人の論文でやってるインチキがわかる(^^ 2011-11-03 22:08:45

    君が出した有意差に意味はあるのか
  • ポアソン分布

    「ランダムに事象が起きる」という考え方 次の図は1200秒間に初代ポケットガイガー(PINフォトダイオードを使った放射線計)が放射線をカウントした時刻を示したものです。下は机の上にそのまま置いた場合(全部で17カウント),上はやさしお(カリウムを多く含む塩)の上に置いた場合(全部で38カウント)です。 par(mgp=c(2,0.8,0)) plot(c(0,1200), c(0,3), type="n", axes=FALSE, xlab="", ylab="") axis(1) x1 = c(55,81.5,178.1,194.4,214.3,254.3,517.8,548.7, 553.6,556.6,700.1,730.7,735.6,881.9,883.3,962.2,1164.2) x2 = c(43.9,54.8,85,94.3,115.2,224.5,228.5,246.1

  • 無から有(意差)を生む:多重比較でウソをつく方法 - Take a Risk:林岳彦の研究メモ

    前回の記事では多重検定がキーワードとなりましたが、良い機会なので、今回は例を交えながら多重検定がもつ問題のインパクトについて説明したいと思います。 (*「多重検定って何?」という方はこちら) 結論を先に書くと、多重性を調整しない多重比較がなぜ忌むべきものかというと、それはそのような多重比較を悪用すると「いとも簡単に無から有(意差)を生むことができる」からです。 では、そのことを「マウスへ化学物質を投与して影響を調べる」という仮想実験を例に見てみましょう。 仮想実験:マウスへ5種類の化学物質を投与する 仮想例として、5つの化学物質(物質A, B, C, D, E)をマウスに投与してその影響を調べる実験を考えてみます。 影響のエンドポイントとしては5つの器官(肝臓・腎臓・脳・肺・皮膚)の各細胞における量的なバイオマーカーの変化を用います。 それぞれの「エンドポイント・化学物質」ごとのサンプルサ

    無から有(意差)を生む:多重比較でウソをつく方法 - Take a Risk:林岳彦の研究メモ
  • はてなブログ | 無料ブログを作成しよう

    ビールとポップコーンと映画 ラストマイルを見た。良い映画だった。 映画館でべそべそ泣いて、鼻を啜りながら車で帰った。感想はこのブログでは書かない。みんな映画館に行って感じてみてほしい。 帰ってからツイッターで感想を漁り、うんうん、わかるわかる、そうだよね、とまた映画を思い出して…

    はてなブログ | 無料ブログを作成しよう
  • フィッシャーの「統計的方法と科学的推論」の訳者解説が素晴らしすぎる(その1) - Take a Risk:林岳彦の研究メモ

    編の方はフィデューシャル推測の項まで書いたのでもう良いかなあ、と思って終わりにして、今回から同書の「素晴らしすぎる訳者解説」のメモを書いていきます。 訳者の方は「渋谷政昭・竹内啓」さんなのですが、巻末の訳者解説が当に素晴らしく完成度が高いのです。「池上彰か!」とツッコミたくなるくらいその解説は分かりやすく明確です。 こんな素晴らしい解説文が絶版により埋もれてしまうのは大きな文化的損失ですので、来ならば全文引用したいところですが、色々な事情もありますので、フィデューシャル推測に関する部分だけを引用していきます。とはいっても長いので何回かに分けて見ていきます(かなり長丁場のシリーズになるかもしれません)。 同書201pの第3節の部分から引用していきます: 統計的推測の問題をはっきりさせるために、一つの例をあげて説明しよう。 今あるものの長さを測って、75.8cm、75.9cm、75.2c

    フィッシャーの「統計的方法と科学的推論」の訳者解説が素晴らしすぎる(その1) - Take a Risk:林岳彦の研究メモ
  • 観察データでの効果推定(傾向スコア、IPW、DR) - データサイエンティスト上がりのDX参謀・起業家

    まずは教科書を紹介します。 Observational Studies (Springer Series in Statistics) 作者: Paul R. Rosenbaum出版社/メーカー: Springer発売日: 2010/12/03メディア: ペーパーバック購入: 1人 クリック: 26回この商品を含むブログ (1件) を見る Rosenbaum先生は傾向スコア(propensity score)を提案した方です。 この教科書に書いていあるのは傾向スコアについてだけで、IPWやDRは書いてありません。 日語はこちらの星野先生の。 調査観察データの統計科学―因果推論・選択バイアス・データ融合 (シリーズ確率と情報の科学) 作者: 星野崇宏出版社/メーカー: 岩波書店発売日: 2009/07/29メディア: 単行購入: 29人 クリック: 285回この商品を含むブログ (26

    観察データでの効果推定(傾向スコア、IPW、DR) - データサイエンティスト上がりのDX参謀・起業家
  • 一様乱数の差の分布(前編) - Red cat の数学よもやま話

    とある国家試験に次のような問題が出たそうです。 0 から 1 までの一様乱数から X と Y を取り出すことを 600 回繰り返す。このとき Y < X を満たす回数の期待値はいくらか。 実際には選択肢が与えられているので、勘で当てられなくもありませんが、ちょっと真面目に計算するとなると、こういうことになります。 まず、X, Y は一様分布 U[0,1] に従う独立な確率変数とみなせます。 一般に、(X, Y) の同時分布の確率密度関数を p(x,y) とするとき、Z = X + Y の確率密度関数を求めようとすると、z = x + y と変換して なので求める確率密度関数は となります。特に X と Y が独立のとき、それぞれの確率密度関数を f(x), g(y) とすれば となることが分かります。 話を問題に戻しましょう。Z = X - Y とおきます。これを Z = X + (- Y

    一様乱数の差の分布(前編) - Red cat の数学よもやま話