[B! 統計] t10471のブックマーク

ゲルマン先生の「役に立つ統計用語集」 - StatModeling Memorandum

この記事はゲルマン先生（Andrew Gelman）の許諾を得て、Handy statistical lexiconを日本語訳したものです。元記事の用語集は現在も更新中です。英語に抵抗がない人はぜひ元記事を読んで下さい。訳語に関しては親しみやすさを重視し、多くの日本人にあまりなじみのないと思われる言葉や地名は変え、難しい熟語は避けました。また、訳注はリンク先の要約をしばしば含みます。ここで取り上げるものはすべて重要な手法や概念である。それらは統計学に関連しており、よく知っておくべきにもかかわらずあまり知られていないものだ。それらに名前を与えることで、そのアイデアがもっと親しみやすいものになってほしいと思う。ミスターP: マルチレベル（階層モデル）で回帰し、事後層別化（poststratification）する手法のこと。秘密兵器: ある統計モデルを複数の異なるデータセットに繰り返しあ

t10471 2016/10/03

統計

リンク

階層モデルの分散パラメータの事前分布について発表しました - ほくそ笑む

ひと月ほど前になりますが、基礎からのベイズ統計学入門輪読会で発表させて頂きました。タイトルは「階層モデルの分散パラメータの事前分布について」で、Andrew Gelman の論文 Prior distributions for variance parameters in hierarchical models (PDFリンク) の内容をまとめたものです。ベイズ統計において、パラメータの事前分布に何を使うかというのは重要な問題です。分散パラメータの事前分布には伝統的に逆ガンマ分布が使われますが、この論文によると半コーシー分布を使いましょうとのことです。発表資料は SlideShare に上げています。階層モデルの分散パラメータの事前分布について from hoxo_m ベイズ統計に興味のある方は、5/19 に基礎からのベイズ統計学入門輪読会 #5 最終回が行われますので参

t10471 2016/04/23

統計

リンク

いいからベイズ推定してみる

(9/23 表紙を微修正) 機械学習の勉強会の資料ベイズ統計学について 1. イントロダクション 2. 事後分布の要約 3. ベイズ的モデル選択 4. 事前分布 5. 階層ベイズ 6. 経験ベイズ 7. ベイズ的決定理論教科書: Murphy, Kevin P. "Machine learning: a probabilistic perspective (adaptive computation and machine learning series)." Mit Press. ISBN 621485037 (2012): 15.

t10471 2015/11/29

統計

リンク

📈統計的問題を回避するためのデータ解析のプロトコル (Zuur et al. 2010): 4 データの中にゼロがたくさんあるか？ - cucumber flesh

この記事では統計的問題を回避するためのデータ解析のプロトコル (Zuur et al. 2010)で扱われているゼロ過剰問題を取り扱っている。 uribo.hatena blog.com 離散値の整数かならるカウントデータの多くはポアソン分布に従うことが一般的である。しかし、ある生息地における生物の観察数やスポーツにおける試合の得点など、０を多く含むデータが存在する。そうしたデータについて統計モデルを適用する場合、ポアソン分布や負の二項分布を仮定した一般化線形モデル GLMなどを行うと、ポアソン分布で期待されるよりも過剰（あるいは過少）にデータが観測されることがあり推定がうまくいかないことがある。そのデータのように０の割合が多いデータに対して有効なモデルがゼロ過剰なポアソン分布モデル Zero-inflated Poisson Distribution: ZIPモデルである。 📉 カウン

t10471 2015/11/25

統計

リンク

「内積が見えると統計学も見える」第5回プログラマのための数学勉強会発表資料

「第5回プログラマのための数学勉強会発表資料 (2015/11/21[sat])」内容は統計学の素養がある方には基本的な事項ですが、ベクトルと内積で見方を変えてみたという点と、あまり統計学に親しみがない方にも理解してもらえるようなまとめになっている、というところに本スライドの独自性があると考えていますので、その辺り良ければご覧ください＾＾Read less

t10471 2015/11/21

統計

リンク

マイナーだけど最強の統計的検定 Brunner-Munzel 検定 - ほくそ笑む

対応のない 2 群間の量的検定手法として、最も有名なのは Student の t 検定でしょうか。以前、Student の t 検定についての記事を書きました。小標本問題と t検定 - ほくそ笑むしかし、Student の t 検定は、等分散性を仮定しているため、不等分散の状況にも対応できるように、Welch の t 検定を使うのがセオリーとなっています。ただし、これら 2つの検定は分布の正規性を仮定しているため、正規性が仮定できない状況では、Mann-Whitney の U検定というものが広く使われています。 Mann-Whitney の U検定は、正規性を仮定しないノンパラメトリック検定として有名ですが、不等分散の状況でうまく検定できないという問題があることはあまり知られていません。今日は、これらの問題をすべて解決した、正規性も等分散性も仮定しない最強の検定、Brunner-

t10471 2015/02/17

統計

リンク

Optimizelyを使ってクビになりかけたワケ ~統計学が苦手なマーケターへの薦め~ | POSTD

（訳者注: 検定手法について、この記事には一部内容が古い部分があります。Optimizelyは現在、両側検定を採用し、独自開発したより精度の高い統計手法(Stats Engine)でテスト結果を表示しています。Stats Engineに関する記事: 日本語・英語）私たちがSumAllでA/Bテストを一斉にスタートさせて6ヶ月が経ち、あまりよくない結末を迎えました。それは勝算があるとした結果のほとんどが新規ユーザーの獲得改善にはつながらなかったことです。それどころか、私たちは失敗したのです。そして私の一番の責任はユーザー獲得の増加であるということを考えると、本当に最悪の状況でした。私にとっても、私のキャリアにとっても、そしてSumAllにとっても。過去に A/BテストとWebサイト･パーソナライゼーションの会社に勤めていた経験から（はっきり言うとMonetateはOptimize

t10471 2014/11/12

統計

リンク

Pythonで一般化線形モデル - old school magic

概要統計の勉強の一環で、最近はこの本を読んでます。かなり分かりやすいです。データ解析のための統計モデリング入門――一般化線形モデル・階層ベイズモデル・MCMC (確率と情報の科学) 作者: 久保拓弥出版社/メーカー: 岩波書店発売日: 2012/05/19メディア: 単行本購入: 16人クリック: 163回この商品を含むブログ (19件) を見る統計モデリングに関する本です。一般化線形モデルを中心に話が進んでいきます。この本はRを中心に話が進んでいきますが、せっかくなのでPythonで一般化線形モデルを試してみようと思います。 Pythonの統計ライブラリ一般化線形モデルとは、線形回帰を(正規分布以外でも使えるように)拡張した統計モデルです。詳しい説明は教科書に譲るとして、Pythonでのライブラリについてお話します。 Pythonで一般化線形モデル、というか統計全般のライブラ

t10471 2014/05/19

リンク

統計的消去で擬似相関を見抜こう！ - ほくそ笑む

今日は初心者向け記事です。はじめにある範囲の年齢の小学生32人を無作為に選び、算数のテストを受けてもらい、さらにその身長を測定しました。身長に対する算数の点数のグラフは次のようになりました。なんと、身長の高い子供の方が、算数の点数が高いという結果になりました！身長が算数の能力に関係しているなんて、すごい発見です！しかしながら、結論から言うと、この結果は間違っています。なぜなら、抽出したのは「ある範囲の年齢の小学生」であり、年齢の高い子も低い子も含まれているからです。年齢が高いほど算数能力は高くなり、年齢が高いほど身長も高くなることは容易に推測できます。この関係を図で表すと次のようになります。つまり、年齢と算数能力に相関があり、年齢と身長にも相関があるため、身長と算数能力にも見かけ上の相関が見えているのです。このような相関を擬似相関と言います。統計解析では、このような

t10471 2013/07/11

統計

リンク

サービス終了のお知らせ - NAVER まとめ

サービス終了のお知らせ NAVERまとめは2020年9月30日をもちましてサービス終了いたしました。約11年間、NAVERまとめをご利用・ご愛顧いただき誠にありがとうございました。

t10471 2013/05/14

リンク

サービス終了のお知らせ - NAVER まとめ

サービス終了のお知らせ NAVERまとめは2020年9月30日をもちましてサービス終了いたしました。約11年間、NAVERまとめをご利用・ご愛顧いただき誠にありがとうございました。

t10471 2012/09/11

リンク

相関と因果について考える：統計的因果推論、その(不)可能性の中心

Recent Advances on Transfer Learning and Related Topics Ver.2Kota Matsui

t10471 2012/06/26

リンク

市場規模一覧（多分、永遠に未完成） - Chikirinの日記

いろんな業界の市場規模を知りたいなーと思うのだけど、バシッとした一覧表が見つからない。データはあそこにある、ここにあるという人は多いけど、じゃあ、この業界は○兆円ですよ、教えてくれる人は少ない。ので、自分で作ってみた。とりあえずこのサイトの数字をベースに作ったんだけど、普通にググッてでてくる数字と大きくかけ離れている場合もあるんで、他の情報もいろいろ勘案してます。自分用のメモなんで中途半端かつ超適当です。感覚的に「んっ？」な数字もあるので信じないように。適宜、直します。気長にやるつもり。10年計画くらいで。どれかについて知ってる方、ツイッターやブックマークなどで教えて頂けると感謝です。ただし、台とかケースとかトンとか興味ないです。金額が知りたい。数千億未満の市場は割愛。「市場規模ってなにさ？」という質問はボツ。そんじゃーねー ★★★ ＜乗り物関連＞・自動車　44兆円（自動車メーカ

t10471 2011/07/03

リンク

100614 構造方程式モデリング基本の「き」

StanとRでベイズ統計モデリング読書会　Chapter 7（7.6-7.9）　回帰分析の悩みどころ　～統計の力で歌うまになりたい～nocchi_airport

t10471 2011/05/02

リンク

データサイエンティスト上がりのDX参謀・起業家

推定を作ってから約２ヶ月経ってからのコロナ陽性者数の推測結果、以下になりました。第５波までの傾向だったらもう収束しているはずですが、収束しておらず、１日6,000〜7,000人くらいで停滞している感じです。これくらいの陽性者数が底になっている印象。恐らく、これからは今までと違う動きをすると思われるので、また違う推測モデルが必要かも。 2/6に、↓の記事で東京都のコロナ陽性者数に正規関数を当てはめて推移を予測しました。1ヶ月ほど経ったので、その予測の評価をしてみました。 iisssseeiiii.hatena blog.com 評価した結果は次の図のようになりました。オレンジ線が実際の陽性者数で、青破線が2/6までのデータを使ったモデルで推測した値です。モデルを作ってから少し陽性者数が増加し、推測ではもっと増えると計算されてましたが、そこまで増えませんでした。ただ、その後の減り方は緩やかだ

t10471 2011/04/06

統計家って職業いいな。大学のとき、もっと勉強しておけばよかった。

リンク

インターリュード: TwitterとR

今回はTwitterという身近な題材を使って、Rによるデータ収集と可視化をやってみます。Rの豊富なライブラリを使えば意外に手軽にできます。今回は間奏的にIT寄りの話題をこの連載は＠ITの連載でもかなり毛色の違う内容です。それにもかかわらず前回までの4回は、統計的検定をいきなり導入したり、日本政府や世界銀行の経済統計にアクセスしてみたり、さらにはWikiLeaksの暴露データを統計解析してみたりと、かなりハードコアな内容に走ってしまいました。第4回の「あとがき」では同じ路線で突っ走ろうということを申し上げていたのですが、今回は間奏（インタリュード）として、より＠ITらしく、IT寄りの話題を取り上げたいと思います。 TwitterとR Twitterの人気は世界的にまだまだ続いているようです。2010年8月後半に発表された2010年6月分の統計によれば、現在はインドネシアやブラジル、ベネ