リンク www.who.int WHO Mortality Database - WHO The WHO Mortality Database is a compilation of mortality data as reported annually by Member States from their civil registration systems. 39
今回はRで学ぶデータサイエンスシリーズ『カテゴリカルデータ分析』の第7章ポアソン回帰分析のついてまとめる。 (超基本かと存じます) はじめに ポアソン分布というのは交通事故に代表されるように、その事象が発生する確率が極めて小さい事象に関する分布である。 このポアソン分布に従うデータの特徴とその場合のパラメータの推定法を学ぶ。 次に示す表はある市の2015年1月の脳梗塞による救急搬送の数を示している。 件数 0件 1件 2件 3件 4件 5件 6件 7件以上 日数 8 7 5 5 3 2 1 0 この結果を見ると、0件が最も多く7件以上起こった日は0である。 ポアソン分布のモデルは次のような過程で導かれるモデルである。 時間を細分化すると、各時間帯で発生しているイベントは1回だけである。 細かく分けた時間帯でのイベントの発生する確率は同じである。 他の時間帯のイベントの発生状況の影響を受けな
ここ2ヶ月ぐらいに渡って多くの方々からご著書をご恵贈たまわっているのですが、そのうちの一冊がこちら。かつて計量時系列分析を学んでいた頃に僕も大変お世話になった、Logics of Blueブログの馬場さんの手による『RとStanではじめるベイズ統計モデリングによるデータ分析入門』です。 実践Data Scienceシリーズ RとStanではじめる ベイズ統計モデリングによるデータ分析入門 作者:馬場 真哉出版社/メーカー: 講談社発売日: 2019/07/10メディア: 単行本 以前はベイズ統計モデリングの入門書というと「みどりぼん」こと『データ解析のための統計モデリング入門――一般化線形モデル・階層ベイズモデル・MCMC (確率と情報の科学)』一択でしたが、皆さんもご存知のように既にメンテされていないWinBUGSを使っているなどout-of-dateな要素が多く、近年はこれに替わる良書
ベイズ統計学の基礎概念からW理論まで概論的に紹介するスライドです.数理・計算科学チュートリアル実践のチュートリアル資料です.引用しているipynbは * http://nhayashi.main.jp/codes/BayesStatAbstIntro.zip * https://github.com/chijan-nh/BayesStatAbstIntro を参照ください. 以下,エラッタ. * 52 of 80:KL(q||p)≠KL(q||p)ではなくKL(q||p)≠KL(p||q). * 67 of 80:2ν=E[V_n]ではなくE[V_n] → 2ν (n→∞). * 70 of 80:AICの第2項は d/2n ではなく d/n. * 76 of 80:βH(w)ではなくβ log P(X^n|w) + log φ(w). - レプリカ交換MCと異なり、逆温度を尤度にのみ乗す
昭和47年静岡県生まれ。静岡聖光学院高校卒業、国際基督教大学(ICU)教養学部卒業、慶應義塾大学大学院法学研究科修了(法学修士)。 総務省、株式会社三井物産戦略研究所、デロイトトーマツコンサルティング合同会社、みんなの党代表(当時)渡辺喜美衆議院議員政策担当秘書、外資系コンサルティング会社等を経て、政策コンサルタントとして独立、室伏政策研究室(「◯◯と政策をつなぐ研究室」)を設立し現在に至る。 政財官での実績を生かし、国会議員、地方議員の政策アドヴァイザーや民間企業・団体向けの政策の企画・立案、対政府渉外活動の支援、政治・政策関連のメディア活動等に従事。 DOL特別レポート 内外の政治や経済、産業、社会問題に及ぶ幅広いテーマを斬新な視点で分析する、取材レポートおよび識者・専門家による特別寄稿。 バックナンバー一覧 最近、政府の統計データに関する不祥事が相次いで発覚している。これら統計調査は
今日では、機械学習が研究者だけでなく個人レベルで利用できるような時代になってきました。これは、計算機の性能向上や機械学習フレームワークなど開発環境の充実、大量データが手に入りやすくなってきたことなどが要因として挙げられます。 一方、機械学習を用いたシステム(以後本記事では機械学習システムと呼びます)の構築にはハードルがあります。データ傾向の変化など、これまでのシステムにない考慮すべき点が多く存在するからです。2015年の論文においては機械学習モデル作成は一部分でしかなく、運用においてはその他の要素が大きく影響すると述べられていますが、現在でも状況は大きく変わっていないように感じます。 出展:https://dl.acm.org/citation.cfm?id=3098021 本記事ではGoogleが提供する機械学習システムの開発プラットフォームであるTensorFlow Extended(
背景 データ準備 ライブラリの読み込み シミュレーションデータの作成 フィッティング stan_glmによるフィッティング 結果の確認 追試 終わりに 背景 Stanを使ってモデリングをしている時に不満を感じる点として、変数選択が難しいということが挙げられます。もともと私自身は、例えばStepwiseやLassoなどを用いた"機械的な"変数選択があまり好きではない1のですが、それでも分析を効率的に進める上でそれらの手法に頼りたくなることがあります。 そういったときにglmを用いているのであればstep関数により容易に変数選択が可能なのですが、Stanではそうもいきません。何か良い方法はないかと探していたところ、StanのGithubレポジトリに{projpred}というそれっぽいlibraryを見つけたので、紹介がてら変数の選択精度を実験してみます2。 データ準備 ライブラリの読み込み 今
背景 これまでMarketing Mix Modeling(MMM)におけるAdStock効果の推定について色々と記事を書いてきましたが、その他にも試したいと思っているモデルがいくつかあります。その一つが階層ベイズモデルと状態空間モデルを同時に取り扱うものです。 例えば「地域別の売上推移のデータ」が手元にあると考えてみましょう。地域ではなく人や商品でも構いませんが、ある要因の各水準がそれぞれ時系列データを持っている状況(いわゆるパネルデータ)で、ひとまずここでは地域とします。このようなデータはあらゆる会社で保有していることでしょう。 今、各地域についてMMMにより広告効果を推定することを考えたとき、どのようなモデリングが可能でしょうか? シンプルに考えれば、地域ごとに一つずつモデルを作るという方法が挙げられます。例えば地域の数が2つ3つしかなかったり、モデルの作成に時間をかけることが可能で
実は業務でもStan使い始めてるんですが、まだまだ単位根ありパネルデータの分析に回すなど低レベルなものが多く、無情報事前分布と階層事前分布を巧みに使いこなして華麗にサンプリング。。。なんて夢のまた夢という情けない状況です(泣)。 で、気が付いたら@berobero11さんのStan関連ブログ記事が超絶充実していて、久保先生もびっくりみたいな状況に。もはや僕が何かをだらだら書くのもアホらしいので、先にStanの使い方を覚えたいという方は是非@berobero11さんのブログから読んで下さい(笑)。僕はひたすらそちらの記事を(例えばinfer.NETあたりの例題を解きながら)トレースしていくだけのショボい記事をだらだら書いていこうと思ってます。 ということで、とりあえずStanマニュアルであるstan-reference-2.1.0.pdfを斜め読みして*1、ざっと僕が興味のある範囲でまとめた
さて、統計的因果推論についてだらだらと独習していくこのシリーズですが、今回はDonald Rubinが考案したRubinの因果モデルで用いられる、傾向スコア(Propensity Score)を取り上げてみようと思います。「お前岩波DS3で事前に原稿読んで中身は知っているはずじゃないのか」とかいうツッコミはご勘弁ください(笑)。 元々は観察データ(つまりRCTを含む実験データではない)から因果関係を推定するための手法ということで、いかにして観察データに隠れた影響を与える共変量を突き止め、その共変量から及んでくる影響をバランスさせ、真の因果効果を推定するか、というのが主眼でした。つまり、RCTを実践できないような疫学データや社会科学的データに対する適用がメインだったようです。 しかしながら、最近は例えば広告やマーケティングといった「ある程度の介入(処置)*1はできても事実上RCTを徹底するこ
機械学習といえばニューラルネット・ディープラーニングという印象の方も多いと思われます。実際、ニューラルネットはそのアーキテクチャによって様々な種類のデータをうまく扱うことができます。今回はニューラルネットに対して、いろいろなアーキテクチャを考えて、それがどの既存の手法に類似しているのか、そしてどのような相違点があるのかをまとめてみたいと思います。 統計的な分析を行っている人にとって、ニューラルネットを始めとする機械学習の手法は魅力的にも映る一方で、結局のところ何をどのように分析しているのかというのが分かりづらいかと思います。今回は機械学習を専門としないような人が、ニューラルネットの役割を理解できるような内容を目指してみたいと思います。 数理的な面は必要最小限にして、応用上心得ておくべきことを中心に書きます。 ニューラルネットの基本 重回帰分析との比較 ロジスティック回帰分析との比較 ニュー
Pythonには「NumPy」や「Pandas」などデータ分析に役立つライブラリが充実しており、中にはPythonからRを呼び出すことができるライブラリもあります。 これからデータ分析を始めるエンジニアのために、Pythonでのデータ分析に関する入門スライドを13個まとめてご紹介いたします。 データ分析の初心者向けのスライドを中心にピックアップしていますので、これからデータ分析を学びたいというエンジニアの方はぜひご覧ください。 【ご自身のデータ分析スキルの価値を知りたい方はご相談ください】 ・市場価値を知りたい方の個別相談会 ・キャリアアップを目指す方の個別相談会 ・転職のタイミングや業界動向を知りたい方の相談会 10分でわかるPythonの開発環境 10分でわかるPythonの開発環境 from Hisao Soyama Pythonを書く前にやっておくべき開発環境の構築についてまとめた
今年の1月にこんな話題を取り上げたわけですが。 この記事の最後にちょろっと書いた通り、実際にはこういう"too good to be true"即ち「そのモデルの精度いくら何でも高過ぎるんじゃないの?」→「実は汎化性能見てませんでした」みたいなケースって、想像よりも遥かに多くこの世の中存在するみたいなんですね。ということで、それこそ『はじパタ』の2章とかPRMLの最初の方に出てくる初歩中の初歩なんですが、その辺の話を改めてだらだら書いてみようと思います。 そもそも「精度100%」とか「相関係数0.9以上」とか見たら身構えるべき 冒頭に挙げた例は、そもそも「精度100%なんておかしい」という声があちこちから挙がったことで話題になり、蓋を開けてみたらleakageはあるわ訓練誤差でしか評価してないわで散々だったわけです。 一般に、実世界のデータセットで統計モデリングにせよ機械学習にせよモデリン
「子宮頸がんワクチン副反応 白血球型影響か」(日本テレビ、2016年3月16日22:18日テレNEWS24) 「子宮頸がんワクチン副反応『脳に障害』 国研究班発表」(TBS、2016年3月16日NEWS23) 「健康障害 患者8割、同じ遺伝子」(毎日新聞、2016年3月17日朝刊) 「子宮頸がんワクチン 脳障害発症の8割で共通の白血球型」(朝日新聞、2016年3月17日朝刊) 「接種副作用で脳障害 8割が同型の遺伝子 子宮頸がんワクチン」(読売新聞、2016年3月20日朝刊) 「記憶障害や学習障害など脳の働きに関する症状を訴えた患者の7~8割は特定の白血球の型を持っていることが分かった」(中日新聞<共同通信配信>、2016年3月17日朝刊) 3月16日以降、こんな報道が続いた。 16日の午後、池田修一・信州大学脳神経内科教授を班長とする「子宮頸がんワクチン接種後の神経障害に関する治療法の確
特にプログラマーでもデータサイエンティストでも�ないけど、Tensorflowを1ヶ月触ったので超分かりやすく解説Python機械学習DeepLearningTensorFlow これ書くだけで土日2日間まるまる潰れてしまった。 学んだ内容に沿っているので、順に読み進めるに従ってコードの話になっていきます。 Tensorflow触ってみたい/みたけど、いろいろまだ理解できてない!という方向けに書きました。 ※2018年10月4日追記 大分古い記事なのでリンク切れや公式ドキュメントが大分変更されている可能性が高いです。 この記事のTensorflowは ver0.4~0.7くらいだった気がするので ver2.0~となりそうな現在は文章の大半が何を参考にしているのか分からないかもしれません。 1: Deep Learningってそもそも何してるの? 専門の人からはご指摘入りそうですが、要は回帰
Googleアナリティクスの「コホート分析」をご存知でしょうか。 「コホート分析」とは、特定の集団のおける行動の変遷を、年齢・時代・世代(コホート)に注目して分析する手法のことです。 Googleアナリティクスでは、誰でも利用することが可能です。 今回は、「コホート分析」を使ってサイトを改善していく方法をご紹介します。 同じ時期に同じ体験をしたことで、似た価値観や似た因子を持つ集団のことを言います。 Googleアナリティクスでのコホートは、同じ期間に特定のアクションを取ったグループのことを指します。 このデータを元に分析を行うのが「コホート分析」です。 Googleアナリティクスにおけるコホート分析の主な使い方は、時間経過ともに変わる行動の変化や定着率などを知るためによく使われます。
社会心理学会大会2013@沖縄国際大学,はそこそこ楽しめたのだけど,中でも一番面白かったのが分位点回帰についてのWS。 前々から企画者のIさんに面白さは伺っていたのだけど(論文も書かれてましたね),WSで確認し,先ほど実際自分で触ってみて面白さを味わった。当然,Rでできるのである。 少し宣伝?解説?しておくと,従来の回帰分析が平均回帰を狙っているのに対し,分位点回帰は任意の分位点(30パーセンタイル点とか,第3四分位とか)での回帰係数を求めるというもの。しかもひとつではなくて,複数求めることができるから,第1四分位ではこういう傾きだったのに,第3四分位では傾きが変わりましたね,なんて事も分かる。 心理学変数のほとんどは正規分布するという便利な建前があるが,実態的データ,例えばネットワークサイズとか年収のようなもの,は当然偏った分布をするのであって,平均点目指して回帰する時点ですでに歪んでし
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く