タグ

機械学習と統計学に関するpetite_blueのブックマーク (9)

  • 統計的因果推論入門の講義資料を公開しました - Unboundedly

    去年末に日に帰国した際、ありがたいことに多くの方から因果推論に関するレクチャーの依頼をいただきました。 当はこの春にも帰国してトーク予定だったのですが、コロナ渦でタイミングを逸したので思い切って講義資料を公開することにしました。 ツイッター上でのこんな話題もきっかけで・・・ これを意識するだけで(少なくとも医学・公衆衛生領域における)回帰分析ユーザーの大部分の結果の解釈やモデルに対する向き合い方が変わると思っています。日で修士までとったけど、自分は留学するまで知らんかった。 去年末、一時帰国中にやった因果推論ワークショップ中でも触れました。 https://t.co/jEsu5WDPLx pic.twitter.com/LmidBTMQlw — KRSK (@koro485) May 27, 2020 内容はこんな感じです なんとなく回帰分析を使って「調整」をしてました、くらいの統計

    統計的因果推論入門の講義資料を公開しました - Unboundedly
  • タダで学べるデータサイエンス名著5冊 【日本書は高額でも英語ができれば怖くない】 - Qiita

    この時期だからこそ自学しよう 海外って太っ腹な組織が多いのか、無料で読める専門書がすごく多い。 これ系のまとめ記事は他にもありますが、 翻訳済の日と、原著を並べて表示していきたいと思います。 特にデータサイエンス分野に限って紹介。 お高いあの名著も実は原著なら無料かも? (2020年5月時点) 続編、データサイエンスの名大学講座 を書きました (2020年8月) 1冊目 邦題 : 統計的学習の基礎(1万5千円) 俗に言う「カステラ」です。 日では2014年に翻訳されましたが、原著は2001年と今から約20年前に出版されました。 内容からしても、当時は体系的に理論学習ができる刷新的な一冊だったのでしょう。 まさに「アルゴリズム・理論の辞書」。 年代的に古い感じはしますが、基礎はいつだって大切です。 数字に強くないと絶対読み切れない。。。 原著 : The Elements of S

    タダで学べるデータサイエンス名著5冊 【日本書は高額でも英語ができれば怖くない】 - Qiita
  • スペクトラルクラスタリング入門 | NHN テコラス Tech Blog | AWS、機械学習、IoTなどの技術ブログ

    こんにちは、データサイエンスチーム tmtkです。 この記事では、スペクトラルクラスタリング(Spectral Clustering)について説明します。スペクトラルクラスタリングについて、具体的には、 スペクトラルクラスタリングとは 行列の固有値分解によるグラフの連結成分分解の説明 スペクトラルクラスタリングのアルゴリズムと計算例 関連する話題 を説明します。 スペクトラルクラスタリングとは スペクトラルクラスタリングとは、クラスタリングアルゴリズムの一つです。クラスタリングは機械学習の方法のうち、教師なし学習に分類されます。データが与えられたとき、正解データなしでデータを複数の集団に分ける方法です。 スペクトラルクラスタリングの特徴は、データからグラフを生成し、グラフの連結成分分解を応用してクラスタリングするところです。クラスタリングアルゴリズムとして古典的なものに、KMeansやGa

    スペクトラルクラスタリング入門 | NHN テコラス Tech Blog | AWS、機械学習、IoTなどの技術ブログ
  • 8行のデータで理解する階層ベイズ - Qiita

    学習効果を統計的に評価したい! こんにちは グロービスではさまざまな教育事業を展開していますが、多くの人に学習を継続してもらうためには、研修をしたりコンテンツを視聴してもらったりするだけでなく、その学習効果を測定してユーザーにフィードバックすることが重要です。このとき、だれが見ても明らかな効果が出れば良いのですが、受講前後の成績変化のばらつきが大きかったりデータが少なかったりして、必ずしも分かりやすい結果が得られるとは限りません。そういった場合にデータを丁寧に紐解いて、どの程度効果があったのかを明らかにするのも分析の仕事のひとつです。 今回は階層ベイズモデルという統計モデルを使って、高校における学力コーチングの成果についてのデータを分析します。階層ベイズはやや高度な統計モデルというイメージがありますが、この記事ではたった8行のデータを例にしてその概要を説明してみたいと思います。 想定読者

    8行のデータで理解する階層ベイズ - Qiita
  • ベイズ統計学の概論的紹介

    ベイズ統計学の基礎概念からW理論まで概論的に紹介するスライドです.数理・計算科学チュートリアル実践のチュートリアル資料です.引用しているipynbは * http://nhayashi.main.jp/codes/BayesStatAbstIntro.zip * https://github.com/chijan-nh/BayesStatAbstIntro を参照ください. 以下,エラッタ. * 52 of 80:KL(q||p)≠KL(q||p)ではなくKL(q||p)≠KL(p||q). * 67 of 80:2ν=E[V_n]ではなくE[V_n] → 2ν (n→∞). * 70 of 80:AICの第2項は d/2n ではなく d/n. * 76 of 80:βH(w)ではなくβ log P(X^n|w) + log φ(w). - レプリカ交換MCと異なり、逆温度を尤度にのみ乗す

    ベイズ統計学の概論的紹介
  • ベータ分布でベイズ推定するときの事前分布パラメータ評価 - Qiita

    はじめに 親愛なる皆様、今日も元気にベイズってますでしょうか? ベイズ推定ってわりと直感的で、バンディット問題なんかと相性よく私も実務で使いはじめているのですが、いつでも悩みどころになるのが事前分布の設計だと思います。 とりあえず無情報事前分布と呼ばれるもの使っておこうとか、経験上このくらいの期待値と分散っぽいからエイっと決めちゃおうとか、みんなわりとそんなノリかなという気がしているのですが、職人芸は不安になりますよね。 では依って立つ理論はないのかというと、WAICという情報量規準を考案された渡辺先生の定理が光を照らしてくれるので、そのまま引用します。 定理 : 「(自然な条件を満たす)任意の統計モデルと任意の事前分布について,ベイズ推測の汎化誤差と自由エネルギーはあるシンプルな数学的法則に従っている」 ... 与えられた「統計モデル+事前分布」の良さ悪さは定量的に計算できる ... (

    ベータ分布でベイズ推定するときの事前分布パラメータ評価 - Qiita
  • 結局、機械学習と統計学は何が違うのか? - Qiita

    これは私達の行っているデータサイエンスのトレーニングで、日でもグローバルでもよく聞かれる質問です。実は2年ほど前にこの質問に正面から真摯に答えていた"Machine Learning vs. Statistics"という、とても素晴らしい記事があるのですが、今日は、そちらの記事をみなさんに紹介してみたいと思います。 ちなみに、筆者のTom FawcettとDrew HardinはSilicon Valley Data Scienceというデータサイエンスのコンサルティング会社で、多くの有名企業がデータサイエンスを使ってビジネスの問題を解決するための支援を行っていました。ちなみに、その会社の方は去年、Appleに買収されています。さらに、Tomは、「Data Science for Business」(翻訳書:戦略的データサイエンス入門 ―ビジネスに活かすコンセプトとテクニック)という有名

    結局、機械学習と統計学は何が違うのか? - Qiita
  • 初めての WAIC と WBIC

    Sumio Watanabe Homepage なぜ,新しい理論と方法が必要なのでしょうか? 定義と説明は WAIC と WBIC にあります. 具体的な例で説明します.混合正規分布を考えましょう. モデル選択の問題:「サンプルを発生した真の分布は,いくつの正規分布からできているか?」 【実験例】真のパラメータ (0.5,0.3) で定まる確率分布から独立に X1, X2,...,Xn を 発生して,事後分布をMCMC法で作りました(事前分布は 0≦a≦1, -5≦b≦5 上の一様分布です). 図で,○は事後分布を表します.● は真のパラメータです. 真のパラメータにおけるフィッシャー情報行列 I(0.5,0.3) は正定値です. 従って,n が『十分に大きければ』事後分布は正規分布で 近似できます(フィッシャーの漸近理論あるいはラプラス近似理論). しかしながら, 上の図から事後分布は正

    初めての WAIC と WBIC
  • 広く使える情報量規準(WAIC)

    このページをご覧いただき、ありがとうございます。 ここでは、情報量規準 WAIC を紹介しています。 ベイズ推測のための情報量規準(WAIC)が導出されました。 WAIC は(真の分布、確率モデル、事前分布)がどのような場合でも使う ことができます。他の規準と異なり理論的な基盤を持っています。 (0) モデル選択やハイパーパラメータの最適化に使えます。 (1) 漸近的に汎化損失と同じ平均値と同じ分散を持ちます。 (2) WAIC は簡単に計算できます。 (3) 真の分布が確率モデルで実現可能でなくても使えます。事前分布が真の事前分布でなくても使えます。 (4) 平均対数損失を最小にするパラメータがユニークでなくても使えます。 平均対数損失を最小にするパラメータが特異点を含む解析的集合であっても 使えます(注1)。 (5) フィッシャー情報行列が正則でなくても使えます。 (6) 事後分布が正

  • 1