(ドナルド・ルービン教授と筆者。筆者撮影) 因果関係を理解したり、証明したりするには考え方の体系的な枠組み(フレームワーク)が必要です。ある2つの事象が因果関係にあると主張するのは勝手かもしれませんが、それが事実なのか、それとも”言い張っているだけ”なのかを判断するためには、それを評価するためのルールが必要になります。どんな条件を満たせば因果関係にあると証明することができて、何が足りないと因果関係を述べることができないのか、を理解しましょう。学問の分野によって考え方はまちまちです。ここでは、専門分野に関わらず普遍的な因果推論(因果関係にあるということを証明する方法)の考え方を理解するために、(1)統計学(ルービン)、(2)心理学(キャンベル)、(3)疫学(パール)の3つの分野における因果推論を順番に説明し、必要に応じて対比させていきたいと思います。今回はその中でも(1)統計学における因果推
3. 相関があるからと言って 因果関係があるとは限らない 3 Messerli, (2012), New England Journal of Medicine ノ ー ベ ル 賞 受 賞 者 の 数 相関係数: 0.79 P値 < 0.0001 チョコレート消費量 4. 相関関係と因果関係のギャップ 4 チョコ 賞 ?チョコ 賞 or GDP GDP チョコ 賞 or GDP 相関係数 0.79 P値 < 0.0001 複数の因果関係が 同じ相関関係を与える 賞 潜在共通原因 潜在共通原因 潜在共通原因 ギャップ 5. 相関と因果の違い • 相関関係 • チョコ消費量が多い国ほど、受賞者が多い • チョコ消費量が多い国と少ない国 の受賞者数を比較 • 異なる国の違い • 因果関係 • チョコ消費量を増やすと、受賞者が増える • 介入して、 ある国のチョコ消費を増やす場合とそのままの場合
「アメリカ心理学会では統計的有意度は廃止されたそうです」で紹介した Statistical methods in psychology journals: Guidelines and explanations の Hypothesis tests の項には Never use the unfortunate expression “Accept the null hypothesis.” とイタリック体で強調して書かれている。帰無仮説は棄却することはあっても「採択」してはいけないという注意は英語の文献ではしょっちゅう見かける。実際,Googleで "accept the null hypothesis" を検索すると,同様な注意がたくさん見つかる。 ところが,同じGoogleでも日本語で "帰無仮説を採択" を検索すると,著名な人でもこの表現を普通に使っていることがわかる。どうしてだろう
生態学で使われるデータ解析・統計モデリングをあつかうサイトです. サイト管理者: 久保拓弥 内容: 統計学授業, R 関連, GLM 関連, GLMM 関連, ベイズ統計 & MCMC, よくある質問 などなど 全ペイジ一覧 統計学授業など 統計学授業: 久保の北大での授業 (cf. ELMS) 統計学授業の教科書: 「データ解析のための統計モデリング入門」 集中講義・セミナーなどはこちら 配信版: 配信版・統計モデリング入門 よくある質問あれこれ 生態学会大会などでの活動 生態学会の自由集会など (これまでの一覧) 2018 年 3 月 札幌大会: データ解析で出会う統計的問題: R の新しい作図・作表 生態学会誌などに掲載された 解説文一覧 (ダウンロードできるものものあります) 参考:Statistical Ecology Virtual Issue (Methods in Ecol
新規作成日:2015年12月5日 最終更新日:2016年9月22日 理論がわかっても、実践ができなければ意味がありません。 ここでは、Stanというフリーソフトを使って、ベイズ統計学をもとにしたパラメタ推定をパソコンで実行する方法を説明します。 ベイズとMCMCの組み合わせでもって統計モデルのパラメタを推定することができるのでした。この方法を、以下では「ベイズ推定」と呼ぶことにします。 ここでは、Stanを用いて統計モデルのパラメタのベイズ推定をする方法を説明します。 重要な点は、「Stanの使い方」を覚えるだけではうまくいかないということです。 Stanの内部で使われているのは乱数生成アルゴリズムです。乱数を生成してパラメタを推定するという行為は、最小二乗法なりで方程式を解き、パラメタを一発で推定するやり方とは大きく異なります。 その違いをぜひ理解なさってください。 コードをまとめたもの
ITエンジニアのためのデータサイエンティスト養成講座(10): 時系列分析II―ARMAモデル(自己回帰移動平均モデル)の評価と将来予測 過去の時系列データを基に、将来予測につながるモデルを検討、実際に将来予測を行って検証してみましょう。(2014/9/1) ITエンジニアのためのデータサイエンティスト養成講座(9): 時系列分析I ――ARMAモデルと時系列分析 システムログも金融取引データも時系列で分析できる。ビジネスシーンで求められるデータ分析の多くを占める「時系列データ」分析の基礎を解説。(2014/6/24) ITエンジニアのためのデータサイエンティスト養成講座(8): 富山県民を分類してみたら……?――クラスタリング分析の手法 あるグループを属性ごとに分類する「クラスタリング分析」の基本を学ぼう。今回も自治体が公開しているオープンデータを題材にします。(2014/3/19) I
「95%信頼区間とは,真の値が入る確率が95%の区間のことです」というような説明をすることがあります。私も,一般のかたに説明するときは,ついそのように言ってしまうことがあります。でも本当は真っ赤なウソです。主観確率を扱うベイズ統計学はここでは考えません。 正規分布では,ウソの考え方をしても結論が同じになることがあるので,ここではわざと,左右非対称なポアソン分布を考えます。 ポアソン分布とは,1日に起こる地震の数,1時間に窓口を訪れるお客の数,1分間に測定器に当たる放射線の数などを表す分布です。平均 $\lambda$ のポアソン分布の確率分布は次の式で表されます: \[ p_k = \frac{\lambda^k e^{-\lambda}}{k!} \] $\lambda = 10$ のポアソン分布の確率分布をグラフにすると次のようになります(本当は右に無限に延びるのですが,$k = 30
コメント一覧 (5) 1. やんた 2005年04月30日 16:20 藤沢Kazuさんは、SASやTSPなど統計ソフトをお使いですか。時系列分析をおこなうには、統計ソフトが必要なのかどうか迷ってます。EXCELでもいけますかね?何かいいソフトはありますか? 2. because of you 2005年05月01日 00:00 質問です。外資の入社試験というのは何が重要視されるのでしょうか?教えてください。成績でしょうか?完全なる学歴採用でしょうか?自分は早慶のどちらかなのですが、にゅうしゃするには東大以外は無理、もしくは入れたとしてもほんの一部ときいたのですが。。。 3. 株式五月雨風雲記 2005年05月01日 11:58 トラックバックありがとうございました。 凄く参考になりました。 リンクを勝手に貼っておきます。 また遊びに来ますので、宜しくお願い致します。 4. 藤沢Kazu
このページをご覧いただき、ありがとうございます。 ここでは、情報量規準 WAIC を紹介しています。 ベイズ推測のための情報量規準(WAIC)が導出されました。 WAIC は(真の分布、確率モデル、事前分布)がどのような場合でも使う ことができます。他の規準と異なり理論的な基盤を持っています。 (0) モデル選択やハイパーパラメータの最適化に使えます。 (1) 漸近的に汎化損失と同じ平均値と同じ分散を持ちます。 (2) WAIC は簡単に計算できます。 (3) 真の分布が確率モデルで実現可能でなくても使えます。事前分布が真の事前分布でなくても使えます。 (4) 平均対数損失を最小にするパラメータがユニークでなくても使えます。 平均対数損失を最小にするパラメータが特異点を含む解析的集合であっても 使えます(注1)。 (5) フィッシャー情報行列が正則でなくても使えます。 (6) 事後分布が正
このブログの読者には AIC (赤池情報量基準) をご存じの方は多いと思います. AIC は統計モデルの評価指標として世界中で広く使われていますが、これは赤池弘次という日本人統計学者により考案されたものです。 これに対し、近年、ベイズ統計学で利用可能な WAIC という情報量基準が考案され、世界中で爆発的に普及しています。 この WAIC を考案したのも日本人であり、東工大の渡辺澄夫先生です。 �L‚Žg‚¦‚é�î•ñ—Ê‹K�€(WAIC) WAIC は、算出すること自体は簡単なのですが、その理論的な根拠として非常に高度な数学が使われています。 この理論について、渡辺先生ご自身が書かれた書籍があります。 Algebraic Geometry and Statistical Learning Theory (Cambridge Monographs on Applied and Com
最初の1年で読むべき本を考える 私の統計学の理解はまだまだ初歩レベルに留まっていますが、昨日飲んでる時に「初心者向けの統計の本ってどういうのが分かりやすいですか」というようなことを訊かれて、「俺に訊かれてもあまり参考には……」とか思う一方、まだ初歩レベルの位置にいる人間だからこそ言える「この本が分かりやすかったよ論」ってのもあるよなと思ったので、現時点での読書感想みたいなものをメモしておきます。一昨年、統計の勉強を始めた頃の自分にむかって書いてる感じです。 理系の人とか、ある程度統計の理解ができている人からみれば、「本質的な理解のためにはもっと難しい本がいいよ」ってなるかも知れませんが、「いやそんな難しいの勧められても独学のモチベーションが続かねーよ」っていう立場でまとめておきますw ここでは、 統計の勉強はしたことがなく、標準偏差とか言われても意味分からない プログラミングも全くわからな
ゴールデンウィーク突入で、本学ははざまの平日も特別休校になったので、一週間の連休。そんなわけで、科研の論文執筆を進めるとともに、統計学に関する新書の執筆を進めている。(編集者さん、ちゃんと休日返上で書いてますからね〜。アリバイ・アリバイ)。統計学の新書を書く都合上、赤池情報量基準を勉強した。もちろん、高度すぎて新書には取り入れられないけど、著作の奥行き・隠し味として知っておきたいからだ。 それで、前回(ミス・ユニバース日本代表の統計学 - hiroyukikojimaの日記)には、鈴木義一郎『情報量基準による統計解析入門』講談社サイエンティフィク(以下、この本のことを[鈴]と略記する)を紹介したわけだけど、話が横滑りをしてるうちに、結局、赤池情報量基準について書くのを忘れてしまったのだ(笑い)。そんだから、今回は、ちゃんと赤池情報量基準について、わかった範囲で書こうと思う。 情報量規準によ
統計解析・データマイニングのR言語の入門編の講師をしてきました。途中、質問・議論をはさむ双方向形式で進行し、1時間30分の講義。講義資料も下記のSlideShareに公開してあります。 講義資料 [データマイニング+WEB勉強会][R勉強会] はじめてでもわかる 統計解析・データマイニング R言語入門 AGENDA Rとは データ構造 データ入出力 データ演算 基本統計量算出 統計データの視覚化 統計解析・データマイニングの種類 ソースコード 資料内で挙げているサンプルソースコードは一部、以下のエントリにも記載してあります。こちらもご覧下さい。 項目 エントリリンク 環境設定 R のインストール・環境設定 R を Eclipseで使う方法 Java R Interface (JRI) を用い 統計解析環境 R を Java から使用する データ構造 R言語プログラミング: データ型・操作
ブログ 2024/7/5 2024年6月の統計WEBのページビュー数 2024年6月月は、145万PVとなりました。昨年同月比で 98.5% となっています。 2022年7月から2024年6月月までの2年間について... 詳しく見る ブログ 2024/6/11 2024年5月の統計WEBのページビュー数 2024年5月は、145万PVとなりました。昨年同月比で 104.5% となっています。 2022年6月から2024年5月までの2年間について、... 詳しく見る 書籍紹介 2023/3/29 文系の私に超わかりやすく統計学を教えてください! 『マンガでわかる統計学』シリーズの著者、高橋信先生が執筆した教養書です。 リスキリングの潮流の中で、教養のひとつとし... 詳しく見る 書籍紹介 2023/2/9 マンガでわかる統計学 統計学を勉強するための取っ掛かりとしてはとても良い本です。漫画な
統計学、パターン認識等で、ROC(Receiver Operating Characteristic;受信者動作特性)曲線という概念が出てきます。また、データ分析・予測のコンペティションサイトKaggleでも、提出されたアルゴリズムの識別性能評価にこのROC曲線に基づくAUC(Area Under the Curve)というものを使っています。(例えばココ) このROC曲線、ちょっとわかりにくいので、まとめてみました。また、アニメーションでグラフを動かしてイメージを付けるということもやってみます。 1. ROC曲線に至る前説 まず、例として健康に関するとある検査数値データがあったとします。 この検査数値は健康な人は平均25, 標準偏差2の正規分布に従い分布しています。(下記図の緑の曲線) 病気の人は平均30、標準偏差4の正規分布に従い分布しています。(下記の図の青の曲線) グラフにすると下
キーワード 確率分布、ポアソン分布、指数分布 参照:JavaScriptの計算プログラム 数多くの部品のどれかが故障する、スーパーのレジに客がくるというような場合を考えます。1日、1分間などの単位時間にそれらの事象が起こる回数は、平均的にはわかっていますが、個々の故障や客がいつくるかはわかりません。たとえば、客の平均到着率が1時間に10人だと統計的にはわかっていても、15人の場合もあるし、5人の場合もあります。 ここで、次の仮定をします。この3つの仮定を満足するということは、客の来かたは「でたらめ」だということです。それをランダムだといいます。 独立性 ある事象が次に起こる確率は、これまでの経過に関係しない。 先に大勢来たから次はあまり来ないだろうということはないとします。 定常性 ある事象が起こる確率は、対象とする期間中は一定である。 スーパーなどでは、時間帯により客の数は異なりますが、
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く