ブックマーク / takehiko-i-hayashi.hatenablog.com (24)

  • 内生性・交絡 revisited:説明変数と残差と誤差の相関をのんびり眺めるの巻 - Take a Risk:林岳彦の研究メモ

    こんにちは。林岳彦です。ggplot2を使いこなすシャレオツな若い人を見ると自分の老いを感じる今日このごろです。 さて。 今回は、「説明変数と誤差項に相関がある」とはどういうことか、について見ていきたいと思います。 経済学系の統計解析のを読んでいると「内生性」という概念がよく出てきます(経済学系でない分野においては、「交絡」と呼ばれるものに実務上はおおむね対応する概念と言えます)。 この「内生性」の説明としては、例えば: 計量経済モデルにおいて、説明変数と誤差項との間に相関があるときに、内生性(endogeneity)があるという。このとき、説明変数は内生的(endogenous)であることになる。説明変数が内生的であれば、推定されたパラメータは一致推定量ではなくなり、推定値は統計学的に信頼されるものとはなりえない。 のように説明されます(内生性 - Wikipediaより引用*1。強調

    内生性・交絡 revisited:説明変数と残差と誤差の相関をのんびり眺めるの巻 - Take a Risk:林岳彦の研究メモ
  • 統数研での講演『バックドア基準入門』をアプします - Take a Risk:林岳彦の研究メモ

    おひさしぶりです。林岳彦です。夜、自宅で少しだけお酒を飲みたいときがありますよね。少しだけリラックスしたいけど酔っ払いたくはないみたいなときです。そんなとき、アサヒスーパードライの小さな135ml缶はたいへんありがたい存在です。しかし、この135ml缶の欠点は、お酒が少ししか飲めないことです。アズスーンアズ飲むや否やですぐ終わってしまうのです。実はもう飲む前に既に終わっているのではないかと思うほどです。ケンシロウに秘孔でも突かれたのかと、夜中に台所でぼくはきみ(135ml缶)に話しかけたくなります。「スーパードライの135ml缶」とはそんな存在です。 最近、その欠点を克服する方法を発見したのでお知らせします。スーパードライ135mlとポッカのキレートレモン155mlを1:1くらいで混ぜながらちびちび飲みます。これだとすぐ終わらずに飲めます。ビール感も消えてしまわず、爽やかなレモン感もあり、

    統数研での講演『バックドア基準入門』をアプします - Take a Risk:林岳彦の研究メモ
  • 確率概念について説明する(第3-2-1回):「可能性」と「確率」のあいだ/ 到達可能性の線引き問題 - Take a Risk:林岳彦の研究メモ

    やっと会えたね(能寺で)。林岳彦です。さいきんルンバを買いました。ルンバが動いているのを眺めるときに、「実はどこかで山昌がこのルンバをラジコンで操作している」のだと想像しながらその動きを眺めるととても贅沢な気分になれます。おすすめのライフハックです。 さて。 確率概念についての記事については前編だけ書いて、1年以上も間が空いてしまいました。もう間男と呼ばれても仕方ありません。たいへん申し訳ありません。 前回(前編)では、「可能世界論からコルモゴロフの定理までを繋げる」話をしました。 今回(後編)では、前回の内容を踏まえて: 「可能である」という概念と「確率」概念のあいだのギャップ について書いていきたいと思います。 (今回も長い記事になっております。当にすみません。。) 前編のおさらいと補足:「様相論理と確率測度」の記事の追加 あまりにも間が空いてしまったので、まずは以下の前回記事を

    確率概念について説明する(第3-2-1回):「可能性」と「確率」のあいだ/ 到達可能性の線引き問題 - Take a Risk:林岳彦の研究メモ
  • 僕は論文が書けない:苦境脱出へ向けての2+1冊 - Take a Risk:林岳彦の研究メモ

    こんにちは。林岳彦です。最近は佐野元春ばかり聴いています*1。将来的にはあんな髪型になりたい。 さて。 「研究者なれども研究しない!」という斬新な決めフレーズでおなじみの雑用戦隊ヒーローシリーズがありますが、かくいう私も何やかんやの雑用に埋もれてここのところ論文を書くペースがすっかり落ち込んでおり*2、そんなこんなのアオリでブログも休止しているありさまになっています。 そんな折、私の心の師ともいうべき東北大学の酒井聡樹先生から近刊である『これから論文を書く若者のために 究極の大改訂版』をご恵贈いただいたので今回の記事を書くことにしました。 これから論文を書く若者のために 究極の大改訂版 作者: 酒井聡樹出版社/メーカー: 共立出版発売日: 2015/04/22メディア: 単行この商品を含むブログ (4件) を見る 今回は、久しぶりの【研究hacks】タグの記事になります。今回は院生〜若

    僕は論文が書けない:苦境脱出へ向けての2+1冊 - Take a Risk:林岳彦の研究メモ
  • 確率概念について説明する(第2回):そもそも「可能である」とはどういうことか? — 可能世界論 - Take a Risk:林岳彦の研究メモ

    どもっす。林岳彦です。さいきん軽い気持ちで某国際誌の総説論文の査読を引き受けたのですが、「どんな論文だろ?」と思いつつ査読対象の原稿をいざダウンロードしてみたら文100頁アンド全体300頁もある超長尺の総説であることに気づき、「殺す気か!」「査読テロやで!」と思いました。 いやでもまじで300頁もレビューするの? この悲しみをどうすりゃいいの? 誰がぼくを救ってくれるの? この世はまさに大迷惑??? というかんじです。もう街のはずれでシュビドゥバーです。 いやもうホントに「レビュワー感謝の日」みたいの作ったほうが良いよね。 というわけで。 今回から、確率概念について説明していきたいと思います。 (今回も非常に長い記事になってしまいました。すみません。。。) 確率という概念の「規格」について、様相論理を経由して説明します 前回の今シリーズの概要説明の記事で書いたように、まずは、確率という概

    確率概念について説明する(第2回):そもそも「可能である」とはどういうことか? — 可能世界論 - Take a Risk:林岳彦の研究メモ
  • 確率概念について説明する(第3-1回):可能な世界の全体を1とする — コルモゴロフによる確率の定理(前編) - Take a Risk:林岳彦の研究メモ

    こんにちは。林岳彦です。先日、小学生の息子とセブンイレブンに行きました。そこでふと、「あの外壁、あれ物のレンガじゃなくてただの印刷だから」と息子に教えたところ、それが彼にとっては思いもよらぬことだったようで、実はすべすべとしている外壁に触っては「すっかり騙されてた!(ガーン)」と衝撃を受けていました。小さな子どもをお持ちのみなさま、この世の隠蔽された真実(=セブンイレブンの外壁は印刷)を彼ら/彼女らに教えてみると面白い反応が期待できるかもですよ! さて。 今回は、前回の記事の続きとして、確率という概念の「規格」について説明していきたいと思います。 (今回はとても長い上に内容がハードかもしれません。いつもながらすみません。。) 前回の軽いまとめ 前回の記事では: 少なくとも、「確率」とは「可能性を数値で表したもの」である というボンヤリとした出発点から: 「可能である」ということは、「この

    確率概念について説明する(第3-1回):可能な世界の全体を1とする — コルモゴロフによる確率の定理(前編) - Take a Risk:林岳彦の研究メモ
  • 確率概念について説明する(第1回):説明全体の構成 --- 確率概念の「規格」と「意味」 - Take a Risk:林岳彦の研究メモ

    どもです。林岳彦です。白泉社文庫の大島弓子作品から一冊選ぶなら『つるばらつるばら』だと思います*1。 さて。 今回からは長期のシリーズとして、「確率概念とは何か」についてガッツリと説明していきたいと思います。今回は、その第一回目として、「シリーズにおける説明の全体構成(予定)」について書いていきます。 シリーズでは確率概念の「規格」と「意味」について書いていきます ざっくり言いますと、シリーズの目的は「確率って何すか?」という問いに答えることです。 で、「確率って何すか?」という問いには以下の: 確率概念とはどのような「規格」をもった概念なのか? 確率の値(たとえば”0.5")は実際問題としてどういう内実的な「意味」を示しているのか? という方向性のちがう2つの問いが含まれていたりします。 前者の(1)については、たとえば、「確率は黄色である」「確率は150km/hである」という言い

    確率概念について説明する(第1回):説明全体の構成 --- 確率概念の「規格」と「意味」 - Take a Risk:林岳彦の研究メモ
  • なぜリスク分析のプロは仮説検定を使わないのか(ややマニア向け) - Take a Risk:林岳彦の研究メモ

    お久しぶりです。林岳彦です。もうすぐ『愛なき世界』の日、いわゆる(マイブラッディ)バレンタインデーですね。何かと雑音が多いこの世界ですが、いつでも自分の足元を見つめて行きましょう。 さて。 今回は、以下の: そもそもビジネスの現場ではどういう「レベル」の統計学を使うべきなのか - 銀座で働くデータサイエンティストのブログ 統計学的検定に対するある拒絶反応: ニュースの社会科学的な裏側 A/Bテストのガイドライン:仮説検定はいらない(Request for Comments|ご意見求む) - 廿TT のあたりの皆様の良記事に触発されて「仮説検定」について何か書いてみようと思いました。で、書こうと思えば色々な側面から書ける気もするのですが、今回はちょっと斜めからのアプローチとして、「リスク分析の人の頭のなかで仮説検定はこんな感じに見えている」というところを書いていきたいと思います。 ここで、ひ

    なぜリスク分析のプロは仮説検定を使わないのか(ややマニア向け) - Take a Risk:林岳彦の研究メモ
  • (後編)今回は因果関係があるのに相関関係が見られない4つのケースについてまとめてみた:中間変量の影響 - Take a Risk:林岳彦の研究メモ

    どもっす。林岳彦です。先日、某所で統計解析の講師役をしました。その際に解析環境の準備の手間を省こうと思って、Amazon EC2上にRStudioのサーバー版を立てて、聴講者にそこに繋いでもらって実習をしようとしたのですが、いざ皆が繋いだらサーバーがクラッシュしまくって実習が全く進みませんでした*1 。。。すみませんでした(泣)*2。。 さて。 良かれと思ったもので逆に墓穴を掘る、というのは人生ではよくあることですよね! 前回の「合流点の追加によるバイアス」はそんな例の一つでしたが、今回の「後編」ではそのようなもう一つの例として、「中間変量の追加によるマスク」のケースについて見ていきます。 因果関係があるのに相関が見られないケース(4):中間変量によってマスクされている はい。では、中間変量によって因果効果がマスクされてしまうケースを見ていきます。 ここで「中間変量」というのは、「A→Z」

    (後編)今回は因果関係があるのに相関関係が見られない4つのケースについてまとめてみた:中間変量の影響 - Take a Risk:林岳彦の研究メモ
  • (中編)今回は因果関係があるのに相関関係が見られない4つのケースについてまとめてみた:交絡・合流点の影響 - Take a Risk:林岳彦の研究メモ

    どもです。林岳彦&オメガトライブです。きみは1005%(消費税込) さて。 今回は、前回の記事: 今回は因果関係があるのに相関関係が見られない4つのケースをまとめてみた(前編:検定力が低い) - Take a Risk: 林岳彦の研究メモ のつづきの”中編”になります。記事では「因果関係があるのに相関関係が見られないケース」の中でも、「交絡・合流点」が関わるケースについて書いていきます*1。 扱う内容の範囲としては、最初の記事: 因果関係がないのに相関関係があらわれる4つのケースをまとめてみたよ(質問テンプレート付き) - Take a Risk: 林岳彦の研究メモ と重複する部分がかなりありますが、今回の記事では、「仮想例のデータ生成」の段階からRでの計算を交えて説明していきたいと思います。(今回はちょっと「R実習」のような趣になるので、Rの読み書きができないと分かりにくい部分が多々あ

    (中編)今回は因果関係があるのに相関関係が見られない4つのケースについてまとめてみた:交絡・合流点の影響 - Take a Risk:林岳彦の研究メモ
  • 今回は因果関係があるのに相関関係が見られない4つのケースをまとめてみた(前編:検定力が低い) - Take a Risk:林岳彦の研究メモ

    どもお久しぶりです。林岳彦です。ローソンなどで売ってるいなばのタイカレーはそうめんのつけ汁として使ってもマジうまいのでオススメです。 さて。 今回は前々回の記事: 因果関係がないのに相関関係があらわれる4つのケースをまとめてみたよ(質問テンプレート付き) - Take a Risk:林岳彦の研究メモ の続編として、逆のケースとなる「因果関係があるのに相関関係が見られない」ケースについて見ていきたいと思います。あんまり長いと読むのも書くのも大変なので、今回はまずは前編として「検定力の問題」に絞って書いていきます。 (*今回は上記の前々回の記事での記述を下敷きに書いていきますので、分からないところがあったら適宜前々回の記事をご参照ください) まずは(今回の記事における)用語の定義:「相関」と「因果」 今回も少しややこしい話になると思うので、まずは用語の定義をしておきたいと思います。(*細かいと

    今回は因果関係があるのに相関関係が見られない4つのケースをまとめてみた(前編:検定力が低い) - Take a Risk:林岳彦の研究メモ
  • "相関"の話&そのついでに"21世紀の相関(MIC)"の話(ややマニア向け) - Take a Risk:林岳彦の研究メモ

    どもです。林岳彦です。息子の3DSにバーチャルコンソールの「ソロモンの鍵」を密かに入れました(まだ3面)。 さて。 前回の記事: 因果関係がないのに相関関係があらわれる4つのケースをまとめてみたよ(質問テンプレート付き) - Take a Risk:林岳彦の研究メモ につきましては沢山ブクマ等をいただき大変ありがとうございました*1。大変感謝しております。 さて。上記記事について、ublftboさんから「相関関係の定義が書かれていないのでは」(相関と因果 - Interdisciplinary)とのご指摘をいただいたきました。 ご指摘は確かにごもっともですので、今回は「相関」概念についてと、そのついでに近年に開発された"21世紀の相関(MIC)"の話について私なりに書いてみたいと思います。 (以下、ややマニア向けの話になるかもしれません。あと前回ほどではないですが、それなりに長いです。)

    "相関"の話&そのついでに"21世紀の相関(MIC)"の話(ややマニア向け) - Take a Risk:林岳彦の研究メモ
  • 何人いれば適切なの?:学術知と政策とテクノクラート - Take a Risk:林岳彦の研究メモ

    どもです。林岳彦です。いまだに壇蜜と檀ふみの区別がつきません。 さて。 1月はずっとPM2.5の基準値に関するUS EPA(米国環境保護庁)の文書を読んでいました。で、それらの膨大な文書群(総計約5000ページ!)をチェックしていく中で、「学術知と政策を繋ぐセクションにおける日米のマンパワーの差」について改めて痛感せざるをえない部分がありましたので、今日はその辺りについてつらつらと書いて行きたいと思います。 「経済学」と「政策」のあいだ:日のマクロ経済モデルの"中の人"の数 さて。どういうところから話を始めようか迷ったのですが、とりあえず経済学界隈の話から始めてみようかと思います。 SYNODOSの「日を変える知」というの中で: 日を変える「知」 (SYNODOS READINGS) 作者: 芹沢一也,荻上チキ,飯田泰之,鈴木謙介,橋努,田由紀,吉田徹出版社/メーカー: 光文社

    何人いれば適切なの?:学術知と政策とテクノクラート - Take a Risk:林岳彦の研究メモ
  • 因果グラフからみる交絡問題:「遺伝統計学における因果問題の特殊性」について考えてみた - Take a Risk:林岳彦の研究メモ

    どもっす。先日のdo演算子についてのエントリーに関しては多数の方々にブクマやスターをいただき大変ありがとうございました。書いてよかったです。。。 さて。 その先日のエントリーに関連して、id:aggren0xさんに面白いエントリーをいただきました。 遺伝統計学における「因果律」の特殊性 このエントリー内でaggren0xさんは、遺伝統計学における「因果問題」は特殊なのではないかと語っておられます。内容を引用しますと: ところで、疫学ではなく遺伝統計学のほうの話で、これは教科書に書いていることではなく(あるかもしれないが記述は見たことがない)、遺伝学者での雑談として「そうだよねえ」と言っていたことなのですが、 「統計学者を悩ます因果律の問題は、遺伝統計学における遺伝的関連・連鎖においては問題にならない。これは遺伝学の特殊な性質である。」 というもの。なぜなら、DNA(遺伝因子が刻まれているも

    因果グラフからみる交絡問題:「遺伝統計学における因果問題の特殊性」について考えてみた - Take a Risk:林岳彦の研究メモ
  • なぜ共同事実確認に興味があるのか:リスク心理学の観点から - Take a Risk:林岳彦の研究メモ

    マサヤさんおめでとう!*1 さて。 今回は、今週の木曜日(12月8日)の松浦正浩さんのセミナー「マルチステークホルダー状況下における合意形成と科学的情報の接続」の宣伝も兼ねて、なぜリスク研究者である私が「共同事実確認」に興味があるのかについて整理してみたいと思います。 そもそもこの「共同事実確認」とは何かというと、「共同事実確認方式による原子力発電所の地震リスク」のシンポのこちらのHPから説明文を引用すると: 多様な、時には結論が対立する科学的情報を吟味し、背後にある前提条件、モデル、感度分析等を含めて公開した上で、関係者がある程度納得できる科学的情報と、現在の科学の限界を整理することで、社会的意思決定をできるだけ科学的情報に基づくものとする取組みが共同事実確認である。 というもの(らしい)です。共同事実確認の方法論的な特徴としては、ほぼ全てのステークホルダー(利害関係者)が納得できる科学

    なぜ共同事実確認に興味があるのか:リスク心理学の観点から - Take a Risk:林岳彦の研究メモ
  • 確率と因果を革命的に架橋する:Judea Pearlのdo演算子 - Take a Risk:林岳彦の研究メモ

    皆さまこんばんは。今回から数回のあいだは、久しぶりに統計的因果推論ネタについて書いていきたいと思います。 今回の具体的なテーマは「Judea Pearlのdo演算子」になります。マニアックです。 このテーマについては自分でも完全に理解しているわけでは全くないので、「解説」というよりも「半可通が書いた公開勉強メモ」というかんじになりますが、その旨ご了承いただければ幸いです。 (*例によって今回もまためちゃくちゃ長いエントリーとなりますが、何卒よろしくお願いいたします。また、間違いなどがありましたらその旨ご指摘いただければ大変幸甚でございます>物の識者の方々) まえおき:Judea Pearlって誰すか? はい。ではそもそもその「Judea Pearlって誰すか?」というところから書いていきたいと思います。 結論から言うと私もよく知りません。ですが、周辺的手がかりからヒューリスティックに判断

    確率と因果を革命的に架橋する:Judea Pearlのdo演算子 - Take a Risk:林岳彦の研究メモ
  • フィッシャーの「統計的方法と科学的推論」の訳者解説が素晴らしすぎる(その1) - Take a Risk:林岳彦の研究メモ

    編の方はフィデューシャル推測の項まで書いたのでもう良いかなあ、と思って終わりにして、今回から同書の「素晴らしすぎる訳者解説」のメモを書いていきます。 訳者の方は「渋谷政昭・竹内啓」さんなのですが、巻末の訳者解説が当に素晴らしく完成度が高いのです。「池上彰か!」とツッコミたくなるくらいその解説は分かりやすく明確です。 こんな素晴らしい解説文が絶版により埋もれてしまうのは大きな文化的損失ですので、来ならば全文引用したいところですが、色々な事情もありますので、フィデューシャル推測に関する部分だけを引用していきます。とはいっても長いので何回かに分けて見ていきます(かなり長丁場のシリーズになるかもしれません)。 同書201pの第3節の部分から引用していきます: 統計的推測の問題をはっきりさせるために、一つの例をあげて説明しよう。 今あるものの長さを測って、75.8cm、75.9cm、75.2c

    フィッシャーの「統計的方法と科学的推論」の訳者解説が素晴らしすぎる(その1) - Take a Risk:林岳彦の研究メモ
  • 研究の効率:店を潰さないということ - Take a Risk:林岳彦の研究メモ

    今回は論文の割引率の話の続きというかんじで書いていきたいと思います。 おそらくちょっとウェットな内容になるかと思います。主にエア後輩*1へ向けての内容となりますが、基的には自分が「院生時代の自分に伝えたいこと」を書いた個人的な独白と思っていただいてOKです。 なので話の普遍性については保証できません。あくまでも「ソースは俺」レベルの話なので、その点を大いに割り引いてお読みください。 以下、若手院生を想定読者として書いていきます。 ある種の若手院生が陥りがちな穴:ロマンティックが止まらない ある種の若手院生(というか昔の私だ)が陥りがちな穴の一つは、研究に対しての「ロマンティックが止まらない」ことにあると思っています。 彼/彼女らは自分の研究を過剰にロマンティックに愛しすぎているのです。そのこと自体が悪いとはいいませんが、愛しすぎるあまり目の前の研究を採算度外視でどこまでも磨くことに囚われ

    研究の効率:店を潰さないということ - Take a Risk:林岳彦の研究メモ
  • 「美人ほど女の子を産む」はウソ?:A. Gelmanによる統計的欠陥の指摘のメモ - Take a Risk:林岳彦の研究メモ

    少し以前から「美人ほど女の子を産む」というタイトルの記事をネットでちらほら見かけておりました。 例えばこちらなど: 美人ほど女の子を出産する確率が高い | ゆかしメディア | 1 個人的にはこういった進化心理学的研究への興味はもちろん大アリなのですが、ちょっとこれは怪しそう?と思いしばらくスルーしていたした。そんな折、この話題がDavid Spigelhalter*1のブログ記事で取り上げられているのを見かけ、またAndrew Gelman *2がその手法について真っ向から批判しているらしい、ということを知ってちょっと真面目に読んでみました。 美人ほど女の子を出産する確率が高い? この研究の元ネタの論文はこちらのようです。雑誌はJournal of Theoretical Biology誌(通称JTB)です*3。 Satoshi Kanazawa (2006) Journal of The

    「美人ほど女の子を産む」はウソ?:A. Gelmanによる統計的欠陥の指摘のメモ - Take a Risk:林岳彦の研究メモ
  • おっと危ない:信頼区間と予測区間を混同しちゃダメ - Take a Risk:林岳彦の研究メモ

    今回は仕事で解析をしていて「おっと危ない」と思ったことについて書いてみます。結論からいうと「信頼区間と予測区間を混同しないように注意しましょう!」という話です*1。 課題:BODの値からTOCの値を推定したい 最近ややあってBOD(生物化学的酸素要求量)の値からTOC(全有機炭素量)の値を推定してみようと思いました*2。 試しに東京都の15地点から得られている水質データを用いてRで両者の散布図を描いてみると以下のようになりました(データはこちら:BOD-TOC.txt )。相関はあるものの、バラツキもかなりあります。 BOD2TOC.data <- read.table("BOD-TOC.txt",sep=",") TOC <- BOD2TOC.data$TOC BOD <- BOD2TOC.data$BOD plot(BOD,TOC,type="p",xlim=c(0,6),ylim=c