人文系大学生〜学部卒の方々を念頭に置いた講演でのスライドです。Enjoy! *書籍:林岳彦著『はじめての統計的因果推論』(岩波書店)の情報はこちら→ https://www.iwanami.co.jp/book/b639904.html
人文系大学生〜学部卒の方々を念頭に置いた講演でのスライドです。Enjoy! *書籍:林岳彦著『はじめての統計的因果推論』(岩波書店)の情報はこちら→ https://www.iwanami.co.jp/book/b639904.html
統計学はやはり人類には早いと思う 仕事で数理統計学を勉強していて、趣味で統計検定1級を取ろうとしているのですが、 今日は統計的検定の話をしようと思っています。 というのも、これが僕の無知によるものなのか、それとも世間一般に言われる誤解なのかはわからないんですが、 統計的検定ってそもそも一体何であるのかについて、よく理解できた形で 議論をしている場面に出会ったことがあまりないと思ったからです。 この記事ではどうにか「検定するには母集団に対する仮説を持つことが重要ですよ」とか「仮説がふんわりしたところで検定すると危ないですよ」とか話しますが、 具体的に「母集団に対する仮説を雑に決めたことで大きな損失を得た事例」をよく知らないので、 説得力に欠ける話になっています。大きな損失を得た事例持ってる方いたら教えてくだし。 どこまでを話すか? 実際、統計的検定や、その結果の判断軸などについては完成した合
はじめにこんにちは。 データ分析界隈でたまに、「サンプルサイズ大きすぎると良くない」って話を聞きます。 主に、検定を行いp-valueから有意差を確認する文脈で言われているようです。 サンプルサイズ設計に関してー理論編より引用 基本的に、多くの検定では例数が大きくなると、有意差があるという結果が得られやすくなります。 (中略) 例数が多すぎる場合:実際には差がなくても有意と判定してしまう 統計的仮説検定をするときのサンプルサイズの決め方より引用 現実には仮説検定でつかうサンプルサイズは大きすぎないほうがよいといわれています。 (中略) 標語的になってしまいますが、別のいいかたをすれば、サンプルサイズをいくらでも大きくできれば、どんな仮説検定でも棄却できるということもできます。 他にも色々な方が言及されていることをまとめると、「サンプルサイズが大きいとどんなにわずかな差でもp-valueが小
機械学習など主に予測を目的とした統計手法に強いイメージのPythonでしたが、統計的因果推論を行うためのライブラリ、“DoWhy”がついにリリースされました。 DoWhy | Making causal inference easy — DoWhy | Making Causal Inference Easy documentation これまで因果推論があまり浸透してこなかった*1データサイエンス界に新しい風が吹くのではと期待が高まります。 一方でこのパッケージが何を可能にし、逆に何ができないのかを理解しなければ、雑なデータ分析が増えて逆に有害なのではと思い、今回ブログを書くことにしました。 先に言っておくと、私自身はPythonをメインに使っているわけではありません(使ったことはあるので一応コードを読んで何が起こっているかくらいはわかります)。したがって本記事の目的は、DoWhyライブ
カルマンフィルタは、状態空間モデルにおいて、内部の見えない「状態」を効率的に推定するための計算手法です。 カルマンフィルタを理解するためには、まず状態空間モデルが何なのかを理解することが必要です。そのうえでカルマンフィルタの考え方と計算方法を学びます。 この記事では、状態空間モデルもカルマンフィルタもあまり詳しくないという方を対象として、カルマンフィルタの考え方とライブラリを使わない実装方法について説明します。 最後に、R言語における有名なカルマンフィルタの計算パッケージである「dlmパッケージ」の簡単な使い方も解説します。 ソースコードはまとめてこちらに載せてあります。 ブログの内容が本になりました。 書籍サポートページはこちらです スポンサードリンク 目次 状態空間モデルの概要 状態空間モデルとカルマンフィルタの関係 カルマンフィルタの考え方 ライブラリを使わないカルマンフィルタの実装
5 levels of priors Flat prior (not usually recommended); Super-vague but proper prior: normal(0, 1e6) (not usually recommended); Weakly informative prior, very weak: normal(0, 10); Generic weakly informative prior: normal(0, 1); Specific informative prior: normal(0.4, 0.2) or whatever. Sometimes this can be expressed as a scaling followed by a generic prior: theta = 0.4 + 0.2*z; z ~ normal(0, 1);
コインを投げを観測し、コインの表になる確率を予測するとき、みなさんはどのように予測するでしょうか。 (コイン投げに限らず、表か裏のように二値になるような予測であれば、例えば、広告のクリック率や、単語の出現率、ナンパの成功率でもなんでもいいです。) コインが表になる確率が0から1まで一様だ(まんべんなく出る)とすれば、n回投げてs回表を観測したら、平均であるs/nをその確率として予測するのではないでしょうか。 この方法をもっと複雑な言い方をすれば最尤推定(maximum likelihood; ML推定)とよびます。コインが表になる確率が一様という事前確率まで分かっている前提ならば、これは最大事後確率推定(maximum a posteriori estimation; MAP推定)ともいえます。なんか最強っぽいですよね。 他に方法があるのでしょうか。スムージングという方法もあります。スムー
計算の正確さ、使いやすさ、楽しさを追求した本格的な計算サイトです。メタボが気になる方の健康計算、旧暦や九星のこよみ計算、日曜大工で活用される斜辺や面積の計算、高度な実務や研究で活きる高精度な特殊関数や統計関数など多彩なコンテンツがあります。
生物統計を学んでいる人の中には、「結果変数が連続変数の時には線形回帰、二項変数(0と1など2つの値しか取らないもの)のときにはロジスティック回帰分析を使うべき」のように1対1対応のお作法のような形で教わった人も多いと思います。一方で、計量経済学で回帰分析を習った人の中には、「最小二乗法(Ordinary Least Square; OLS, 線形回帰)はありとあらゆる場合に使えるベストな方法であるので、結果となる変数の分布に拘わらずOLSを使える」(ちなみに結果変数が二項変数のときにOLSを用いることをLinear probability modelと呼びます)と教わった人もいるでしょう。初心者向けの統計学や計量経済学の本を読むとこのような説明がされているものが多い印象があります。このような教え方をすれば確かに手っ取り早く手が動かせるようになる(統計解析ソフトウェアを使って解析がはじめられ
パートナーアライアンス部 森田です。有料会員の獲得施策や、それに関わるサービス内動線の最適化を担当しています。 記事の対象 仮説検証を通じて何かを改善をしたいと思っている人 仮説検証の際に「どれくらいのデータを集めたら良いか」分からない人 はじめに 仮説検証とは「仮説を立て、それを証明するためのデータを集め、真偽を確かめること」です。今回は仮説検証を行う際の手順と、その検証に必要なサンプルサイズの考え方を説明します。サンプルサイズの話のみ関心があるかたは、前半を飛ばし「サンプルサイズの決め方」を読んでください。 目次 記事の対象 はじめに 目次 仮説検証のつくりかた 1. 仮説をたてる 2. 施策/KPIを考える 3. 仮説検証後のアクションを決める 4. 対象を決める 5. サンプルサイズを計算する サンプルサイズの決め方 答えを先に サンプルサイズを決める二つの要素 「二つの平均値」と
外国語教育メディア学会第56回全国研究大会 @早稲田大学 2016. 8. 7.
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く