ブックマーク / statmodeling.hatenablog.com (14)

  • 統計モデリングで癌の5年生存率データから良い病院を探す - StatModeling Memorandum

    概要 2017年8月9日に国立がん研究センターは、がん治療拠点の約半数にあたる全国188の病院について、癌患者の5年後の生存率データを初めて公表しました(毎日新聞の記事)。報告書は国立がん研究センターが運営するウェブサイトからダウンロードできます(ここ)。報告書をダウンロードしようとすると注意点を記したポップアップが表示されます。大切な部分を抜粋すると以下です。 報告書には、施設別の生存率を表示していますが、進行がんの多い少ない、高齢者の多い少ないなど、施設毎に治療している患者さんの構成が異なります。そのため、単純に生存率を比較して、その施設の治療成績の良し悪しを論ずることはできません。 一般に高齢者が多い病院ほど、進行癌(ステージが進んだ癌)が多い病院ほど、その病院の生存率は下がるわけです。それならば、統計モデリングで年齢と進行度(ステージ)の影響を取り除いて(専門的な言葉で言えば「調

    統計モデリングで癌の5年生存率データから良い病院を探す - StatModeling Memorandum
  • 統計・機械学習・R・Pythonで用途別のオススメ書籍 - StatModeling Memorandum

    比較的読みやすいを中心に紹介します。今後は毎年このページを更新します。 微分積分 高校数学をきちんとやっておけばそんなに困ることないような。偏微分とテイラー展開は大学演習のようなでしっかりやっておきましょう。ラグランジュの未定乗数法のような、統計・機械学習で必要になる部分は、ネット等で学べばいいかなと思っています。 線形代数 tensorflowなどのおかげで順伝播部分(行列積および行列とベクトルの積)さえ書ければ線形代数の知識はそこまでいらないんじゃないかという流れを感じます。しかし、主成分分析やトピックモデルなどの行列分解や、ガウス過程などのカーネル法のような様々なデータ解析の手法に一歩踏み込むと、きちんとした勉強が必要になります。理解しやすくて使いやすくて、統計や機械学習への応用を主眼においた線形代数のはまだ見たことないです。機械学習シリーズとかで基礎から「The Matrix

    統計・機械学習・R・Pythonで用途別のオススメ書籍 - StatModeling Memorandum
  • 『ベイズ統計モデリング ―R,JAGS, Stanによるチュートリアル 原著第2版―』 John Kruschke著、前田和寛・小杉考司監訳 - StatModeling Memorandum

    タイトルのを頂きました。ありがとうございます。僕は原著を少し読んだことがあり、こちらで非常に評判が高いです。翻訳にもかかわらず原著とほぼ同じ値段で購入できます。 先にJAGSになじみのない方へ説明しておきますと、JAGSはRコアメンバーの一人でもあるMartyn Plummer氏によってC++で開発されたMCMCソフトウェアです。Rから使うのが多数派ですが、PythonからもPyJAGSによって使うことができます。 複雑なモデルでなければStanより収束が早く、離散値をとるパラメータも使えるため、プログラミングがそんなに得意でない人がベイズ統計モデリングをはじめるには一番向いていると思います。最近、再び活発に開発され始めたようで、先日JAGS 4.3.0がリリースされました。 JAGS 4.3.0 is released https://t.co/3jExabWcPI— Martyn

    『ベイズ統計モデリング ―R,JAGS, Stanによるチュートリアル 原著第2版―』 John Kruschke著、前田和寛・小杉考司監訳 - StatModeling Memorandum
  • 『Pythonで体験するベイズ推論 ―PyMCによるMCMC入門―』の書評 - StatModeling Memorandum

    特長 Pythonユーザが待ちに待ったPythonによるMCMCではないでしょうか。原著タイトルが『Bayesian Methods for Hackers』だけあって、プログラマ・エンジニア向きだと思います。数式はびっくりするほど出てこない代わりに、Pythonコードは非常にたくさんでてきます。そしてPyMCの使い方が基礎から説明してあって丁寧です。自分でコーディングする際は原著のGitHubリポジトリを活用しましょう(なんとStarが10000個を超えてる!)。 Pythonで体験するベイズ推論 PyMCによるMCMC入門 作者: キャメロン・デビッドソン=ピロン,玉木徹出版社/メーカー: 森北出版発売日: 2017/04/06メディア: 単行(ソフトカバー)この商品を含むブログを見る 購入を迷っている人の一番の心配は、書のPyMCのバージョンが1つ前のPyMC2であることだと思

    『Pythonで体験するベイズ推論 ―PyMCによるMCMC入門―』の書評 - StatModeling Memorandum
  • ゲルマン先生の「役に立つ統計用語集」 - StatModeling Memorandum

    この記事はゲルマン先生(Andrew Gelman)の許諾を得て、Handy statistical lexiconを日語訳したものです。元記事の用語集は現在も更新中です。英語に抵抗がない人はぜひ元記事を読んで下さい。訳語に関しては親しみやすさを重視し、多くの日人にあまりなじみのないと思われる言葉や地名は変え、難しい熟語は避けました。また、訳注はリンク先の要約をしばしば含みます。 ここで取り上げるものはすべて重要な手法や概念である。それらは統計学に関連しており、よく知っておくべきにもかかわらずあまり知られていないものだ。それらに名前を与えることで、そのアイデアがもっと親しみやすいものになってほしいと思う。 ミスターP: マルチレベル(階層モデル)で回帰し、事後層別化(poststratification)する手法のこと。 秘密兵器: ある統計モデルを複数の異なるデータセットに繰り返しあ

    ゲルマン先生の「役に立つ統計用語集」 - StatModeling Memorandum
  • 階層ベイズモデルとWAIC - StatModeling Memorandum

    この記事では階層ベイズモデルの場合のWAICとは何か、またその場合のWAICの高速な算出方法について書きます。 背景 以下の2つの資料を参照してください。[1]に二種類の実装が載っています。[2]に明快な理論的補足が載っています。 [1] 階層ベイズとWAIC (清水先生の資料です、slideshare) [2] 階層ベイズ法とWAIC (渡辺先生の資料です、pdf, html) モデル1 資料[1]にあるモデルを扱います。すなわち、 ここでは人数、は人のインデックスです。は個人差を表す値になります。このモデルにおいてはを解析的に積分消去することができて、負の二項分布を使う以下のモデル式と等価になります。 ここでは予測として(WAICとして)2通り考えてみましょう。 以降では事後分布による平均を、分散をと書くことにします。 (1) を持つが、追加で新しく1つのサンプルを得る場合 この場合に

    階層ベイズモデルとWAIC - StatModeling Memorandum
  • 「StanとRでベイズ統計モデリング」松浦健太郎 という本を書きました - StatModeling Memorandum

    僕が筆者なので、この記事は書評ではなく紹介になります。まずこのはRのシリーズの一冊にもかかわらずStanという統計モデリングのためのプログラミング言語の方がメインです。このようなわがままを許してくれた、ゆるいふところの深い石田先生と共立出版には感謝しかありません。 StanとRでベイズ統計モデリング (Wonderful R) 作者:健太郎, 松浦発売日: 2016/10/25メディア: 単行 目次と概要 共立出版のページを見てください。GitHubのリポジトリもあります。 前提とする知識 「はじめに」の部分で触れていますが、確率と統計の基的な知識はある方、R(やPython)で簡単なデータ加工や作図が一通りできる方を想定しています。そのため、確率分布なんて聞いたことがない、プログラミングがはじめて、Rがはじめて、という方が読み進めるのは厳しいかもしれません。なお、Rの基的な関数し

    「StanとRでベイズ統計モデリング」松浦健太郎 という本を書きました - StatModeling Memorandum
  • 「Python機械学習プログラミング」 Sebastian Raschka(著), 株式会社クイープ(訳), 福島真太朗(監訳) - StatModeling Memorandum

    僕はベイズ統計モデリングをはじめる前(5年ほど前)までは主に機械学習をしていました。その頃は平易な成書はあまりなくて、サポートベクターマシンの理論の難しいを読んだり、Weka(当時はこれ)を読みながら実装していたことを思い出します。PythonでもSVM-RFEを書いたりしてました。しかし、時は流れ、Pythonからscikit-learnという機械学習用ライブラリや深層学習を手軽に使うことができるようになり、気づいたらPython機械学習に必要不可欠な言語になっていました。このはそんな機械学習に特化したPythonの使い方を理論と実装の両面から平易に丁寧に説明しています。理論は理系学部生なら理解できるぐらいで、実装はPythonやnumpyを少し触ったことがある人なら分かるぐらいのレベルです。いつの間にかこのような読みやすい機械学習の和書が出ているのは感慨深いです。 Python

    「Python機械学習プログラミング」 Sebastian Raschka(著), 株式会社クイープ(訳), 福島真太朗(監訳) - StatModeling Memorandum
  • 「ベイズ統計の理論と方法」渡辺澄夫のメモ - StatModeling Memorandum

    ベイズ推測を使う人はもちろんのこと、嫌う人にもぜひ一読をすすめたい書籍です。ただし、メインの定理の証明の部分は、代数幾何学の特異点解消定理を使いますし、その他にも複素関数論・経験過程といった知識を要求されます。これらの事前知識に詳しくないと、3,4章の定理ひいてはWAICがなにやら抽象的で納得ができないといった事態になると思います。いつかp.93 例4のような特異点解消定理を使った例をいくつかこなして、さらに数値実験をして感覚をつかめたらと思います。渡辺先生は「もちろん『代数幾何学を知らなければWAICを使うことはできない』ということはありません。 WAICは簡単に計算できますので誰でも使うことができます。」とおおらかにおっしゃってくれていますので(web)現段階でも使います。 また書籍には、ベイズ推測のユーザーとして参考になる「注意」「例」、各章の最後にある「質問と回答」のコーナー、さら

  • 「はじめての統計データ分析」 豊田秀樹のメモ - StatModeling Memorandum

    あとがきと6章のあとにあるQ&Aの節が熱い思いに満ちていてオススメです。2.7節「論文・レポートでの報告文例」もユニークです。学生思いの教育者としての一面を垣間見た気がします。 あとがきに書いてあるように、たしかに初級向けの授業で伝統的な統計学と検定のラッシュを学び、中級以上向けの授業でベイズ統計モデリングを学ぶとしたら、内容の一貫性が乏しく、学ぶ側は(教える側も)違和感を覚えるかもしれません。その点、このではt検定に相当するような簡単なものから一貫してベイズ統計です。 また、各例題に対してリサーチクエスチョン(RQ)をきちんと設け、それに対してMCMCサンプルを使った生成量と予測分布を用いてシンプルに回答していくスタイルは、分かりやすくて読みやすいです。ベイズ統計の長所と思います。 はじめての 統計データ分析 ―ベイズ的〈ポストp値時代〉の統計学― 作者:豊田 秀樹発売日: 2016/

    「はじめての統計データ分析」 豊田秀樹のメモ - StatModeling Memorandum
  • TensorFlowで統計モデリング - StatModeling Memorandum

    とある勉強会で「TensorFlowで統計モデリング」というタイトルで講義をしました。聴衆はPythonユーザが多く、データ量が大きい問題が多そうだったので、StanよりもTensorFlowで点推定するスキルを伸ばすとメリットが大きいだろうと思ってこのようなタイトルになりました。 発表資料は以下になります。 TensorFlowで統計モデリング from . . 発表資料の途中に出てくるtf_tutorial.htmlとmodeling.htmlの内容は、以下のipynbをhtmlで出力したものです(見づらかったらプログラム名のところをクリックしてGitHubに移動して見てください)。 ちなみに僕が紹介しているTensorFlowの書き方はEager Executionではなく、Define and Runのやや古い書き方です。あまり気にしていませんけど。 ここではTensorFlowを

    TensorFlowで統計モデリング - StatModeling Memorandum
  • 西浦先生らによる実効再生産数の統計モデルを解説&拡張する試み - StatModeling Memorandum

    先日の西浦先生のニコ生の発表を聞いていない人はぜひ聞いてください。 モデルとデータを以下のリポジトリでオープンにしていただいたので、モデルについて僕が分かる範囲内で少し解説を加えたいと思います。 github.com 実効再生産数を推定するコードが2種類ありまして、最尤推定(Maximum Likelihood Estimation, MLE)を使ったMLE版(Sungmok Jungさん作成)と 、ベイズ推定版(Andrei Akhmetzhanovさん作成)があります。どちらもコンセプトはほぼ同じで、実装が若干異なります。この記事では、ベイズ推定版(以降、元コードと呼びます)の流れを簡単に説明し、その後でその拡張を試みます。 ベイズ推定版の流れ 大きく分けて「データの集計」「back projection」「実効再生産数の推定」の3つの部分からなります。 データの集計 まずは日付ごとの

    西浦先生らによる実効再生産数の統計モデルを解説&拡張する試み - StatModeling Memorandum
  • COVID-19 日本国内の潜在的な陽性者数を推定する試み - StatModeling Memorandum

    国内の潜在的な陽性者数を推定することは有益ですが、簡単ではありません。PCR検査がランダムになっていないことが推定を難しくしています。有症状者が検査されやすいというselection biasがあるからです。この記事ではいくつか仮定を置いて潜在的な陽性者数を推定したいと思います。 仮定 全国民のうち潜在的に陽性になっている割合 この割合は年代によらず一定と仮定します。ここでは と書きます(posはpositiveの略)。例えば0.0001なら日人約1億2千万人中、おおよそ12000人が潜在的に陽性になっている計算です。 なお、国民の年代別人口の値はこのページの令和2年3月報 (令和元年10月確定値,令和2年3月概算値) (PDF:301KB) の「2019年10月1日現在(確定値)」の総人口 男女計の値を使用しました。 陽性者中の有症状者の割合 若年層で無症状が多いなど、年代で異なる

    COVID-19 日本国内の潜在的な陽性者数を推定する試み - StatModeling Memorandum
  • 『わけがわかる機械学習』中谷秀洋(著)の書評 - StatModeling Memorandum

    僕が中谷さんと初めて会ったのはみどりぼんの読書会で、初めて話したのは岩波DSの打ち合わせだったと思います。今でもそんなに親しくはないと思います。しかし、中谷さんのブログは10年ぐらい前から読んでいました。自然言語処理を中心とする機械学習に関連する理論(の解釈)・論文レビュー・数値実験の記事が多く、他のブログでは見られない独特かつ理解の深い内容で、毎日勉強させてもらっていました。今でも何度も読むべきブログです。その中谷さんが機械学習についてまるごと一冊書いたものが書になります。もともと買うつもりでしたが、献いただいたので簡単にご紹介いたします。 わけがわかる機械学習 ── 現実の問題を解くために、しくみを理解する 作者: 中谷秀洋出版社/メーカー: 技術評論社発売日: 2019/08/28メディア: 単行(ソフトカバー)この商品を含むブログを見る 目次は以下になります。 0章: はじめ

    『わけがわかる機械学習』中谷秀洋(著)の書評 - StatModeling Memorandum
  • 1