タグ

Statisticsに関するheadless_pastaのブックマーク (60)

  • コインを2000回投げて表が1100回以上出る確率 - Qiita

    Twitterでクイズとして出題してみた問題の解答です。 ★分散についての確率クイズです★ 表と裏が出る確率が同じコインがあります。 このコインを2000回投げたときに、表が1100回以上出る確率はどれくらいでしょうか? 以下の選択肢から最も近い値を選んでください。 — Lillian (@Lily0727K) 2019年5月10日 コイン投げ まずは簡単な場合でコインを4回投げた場合を計算してみます。 表が出る回数 確率

    コインを2000回投げて表が1100回以上出る確率 - Qiita
  • 結局、機械学習と統計学は何が違うのか? - Qiita

    これは私達の行っているデータサイエンスのトレーニングで、日でもグローバルでもよく聞かれる質問です。実は2年ほど前にこの質問に正面から真摯に答えていた"Machine Learning vs. Statistics"という、とても素晴らしい記事があるのですが、今日は、そちらの記事をみなさんに紹介してみたいと思います。 ちなみに、筆者のTom FawcettとDrew HardinはSilicon Valley Data Scienceというデータサイエンスのコンサルティング会社で、多くの有名企業がデータサイエンスを使ってビジネスの問題を解決するための支援を行っていました。ちなみに、その会社の方は去年、Appleに買収されています。さらに、Tomは、「Data Science for Business」(翻訳書:戦略的データサイエンス入門 ―ビジネスに活かすコンセプトとテクニック)という有名

    結局、機械学習と統計学は何が違うのか? - Qiita
  • A/Bテストの評価をベイズ統計でやってみない? - tdualのブログ

    遊びでA/Bテストの評価をベイズ統計でやってみたら、思いのほか面白かったので記事に残します。 用語の定義 コンバージョン コンバージョン率 A/Bテスト コンバージョンの確率分布 なぜベイズ統計を使うのか 割合の問題点 尤度と最尤法 尤度 最尤法 ベイズ統計 ベイズの定理 共役事前分布 ベータ分布 事後分布の導出 事後分布のグラフ ベイジアンA/Bテストの実装 コード 使用例 番っぽい使い方 カイ二乗検定と比較 最後に 用語の定義 コンバージョン コンバージョンとは「Webサイト上で起きた最終的な成果」のことです。 具体的に何を意味するかはサイトの種類によっては様々です。 例えば、ECサイトでは商品の購入で、SNSでは会員登録などです。 コンバージョン率 コンバージョン率は「成果に繋がる最初の行動に対して実際に成果に繋がった割合」のことです。 ECサイトではある商品が購入された数をその商

    A/Bテストの評価をベイズ統計でやってみない? - tdualのブログ
    headless_pasta
    headless_pasta 2018/04/21
    ABテストの結果をカイ二乗検定することはあっても、この方法で見たことは無かった。確かに面白い。
  • 間違いの多い統計プロバガンダに騙されないための8つのアドバイス - Qiita

    最近ではフェイクニュースという言葉のおかげで、ニュースなどメディアでみかける主張や数値に対して疑問を持つというスタンスが以前に比べて少しづつではありますが見られるようになってきたように思います。それでもまだ多くの人がふだん毎日忙しい中で、センセーショナルなニュースのヘッドラインをついつい鵜呑みにしてしまい、さらにそれらをソーシャル・ネットワークなどで共有することで知らず知らずのうちにおかしな主張をどんどん拡散してしまっているというのが現状です。社会的に与える影響を考えるとこれは大変憂慮すべきことです。 今日は、Financial Timesのコラムニストで、経済学者のTim Harfordが、データや統計的な主張にまどわされるのでなく、それらを正しく理解するための提案を8つのアドバイスとしてこちらの”Tim Harford’s guide to statistics in a mislea

    間違いの多い統計プロバガンダに騙されないための8つのアドバイス - Qiita
  • 統計検定を理解せずに使っている人のために II

    408 化学と生物 Vol. 51, No. 6, 2013 15 μ σ μ σ μ σ 16 セミナー室 研究者のためのわかりやすい統計学-2 統計検定を理解せずに使っている人のために II 池田郁男 東北大学大学院農学研究科 15 16 409 化学と生物 Vol. 51, No. 6, 2013 μ σ σ σ μ σ * 17 μ σ μ σ * μ μ μ Z n 1 1 = − ( ) X µ σ σ 18 μ σ σ σ σ σ μ σ μ μ μ σ / n σ / n σ / n σ / n * * 17 18 σ 410 化学と生物 Vol. 51, No. 6, 2013 t u n 1 1 = − ( ) X µ σ σ σ σ σ μ t X 1 1 = − ( ) µ SE 19 μ μ μ μ μ 20 μ σ μ μ σ μ μ u n / 19 20 4

  • 統計検定を理解せずに使っている人のために I - J-Stage

    318 化学と生物 Vol. 51, No. 5, 2013 セミナー室 研究者のためのわかりやすい統計学-1 統計検定を理解せずに使っている人のために I 池田郁男 東北大学大学院農学研究科 319 化学と生物 Vol. 51, No. 5, 2013 1 1 320 化学と生物 Vol. 51, No. 5, 2013 2 μ σ σ 3 * 2 3 * 321 化学と生物 Vol. 51, No. 5, 2013 4 * 5 * 6 σ 4 5 6 σ * * 322 化学と生物 Vol. 51, No. 5, 2013 μ μ μ μ μ σ 7 σ σ σ σ σ σ σ σ σ σ 8 8 9 7 σ 323 化学と生物 Vol. 51, No. 5, 2013 9 10 11 * σ σ * * * * 10 11 * * * * 324 化学と生物 Vol. 51, No.

  • 170120 牧田翠「30分でわかる現代エロマンガ」.pptx

    30分でわかる! 現代エロマンガ エロマンガ統計研究者 牧田翠(@MiDrill) 1 全年齢版

    170120 牧田翠「30分でわかる現代エロマンガ」.pptx
    headless_pasta
    headless_pasta 2018/02/28
    手集計すごい。ちょこちょこと面白いデータが。
  • オープンデータ取得先まとめ - Qiita

    2018/1/1時点で利用可能な、オープンデータの主要取得先を記載します。 1. 世界中の国や都市の情報 EUとイギリス Public Data EU http://publicdata.eu Open Data Europe http://data.europa.eu/euodp/en/home UK Government Data https://data.gov.uk アフリカ Africa Open Data https://africaopendata.org Code for South Africa http://code4sa.org Code for Africa https://codeforafrica.org アジア Open Cities Project http://www.opencitiesproject.org Open Nepal http://data

    オープンデータ取得先まとめ - Qiita
  • NHKさん、ビッグデータかAIかよくわからない視覚化した統計情報のようなもので、相関性が不安になる内容を特番で放送予定 - Togetterまとめ

    ■(2017年7月19日追記)「しがらみのない奇抜な提言は”AI”ではなく製作者側の意図」との証言がありましたので別途まとめました→ https://togetter.com/li/1131398 ■因果関係と相関関係について ・因果関係がないのに相関関係があらわれる4つのケースをまとめてみたよ(質問テンプレート付き) http://takehiko-i-hayashi.hatenablog.com/entry/20130418/1366232166 ・相関関係と因果関係の違いが一発でわかる具体例5選 http://atarimae.biz/archives/7374 続きを読む

    NHKさん、ビッグデータかAIかよくわからない視覚化した統計情報のようなもので、相関性が不安になる内容を特番で放送予定 - Togetterまとめ
    headless_pasta
    headless_pasta 2017/07/18
    相関関係と因果関係の違い案件。
  • 女性のバスト、過半数がDカップ以上、Eカップも3倍に トリンプ調査

    下着メーカーのトリンプ(東京・中央区)は2017年6月6日、下着についてのアンケート調査「下着白書」(16年調査)を発表した。 豊満化が進む 同社は1980年以来、ブラジャーの販売実績をもとにした日人女性のカップ数の推移を調査している。 調査当初は、Aカップが約6割と最多を占めており、A~Cカップが全体の9割以上と低カップの女性が大多数という結果だった。 ところが年々カップ数は大きくなっていく。2000年以降、A~Cカップは減少し、一方でDカップ以上の割合が急増していく。1990年ではDカップはわずか10.0%だったが、2015年には約2.5倍となる。Eカップも約3倍に増えた。 今回の調査でもその傾向は続き、Dカップ以上の割合(51.3%)が、A~Cカップの割合(48.7%)をはじめて上回った。

    女性のバスト、過半数がDカップ以上、Eカップも3倍に トリンプ調査
    headless_pasta
    headless_pasta 2017/06/19
    あくまでも母数はトリンプの販売実績。 “ブラジャーの販売実績をもとにした”
  • 1ヶ月で統計学入門したので「良かった本」と「学んだこと」のまとめ - ぴよぴよ.py

    前回の「ゲームプログラマからデータサイエンティストに転職しました」 の記事でもお話したとおり、5月からデータ解析する人になりました。 とはいえ、データ解析に関しては未経験。 少しでも不安を減らすために、4月の有給消化期間は統計学のお勉強しました。 今回はおすすめしてもらった中で読んで良かったの紹介、そして読んだの簡単なまとめを書いて行きたいと思います。 ※前提: 4月時点の自分の知識に関して 自分は大学は情報科学を専攻していたが、難しい数式は苦手 統計学は1コマ分受講していたが、単語を覚えている程度でかなりあやうい まず一番最初に読みたい 「完全独習 統計学入門」 「簡単に統計学の全体像がつかめる入門書はないか」とTwitter相談したら、こちらのを数名の方が薦めて下さった。 完全独習 統計学入門 作者: 小島寛之出版社/メーカー: ダイヤモンド社発売日: 2006/09/28メ

    1ヶ月で統計学入門したので「良かった本」と「学んだこと」のまとめ - ぴよぴよ.py
  • いろんな平均たちの関係を『たった1つの円』で可視化してみる

    こんにちは,学生エンジニアの迫佑樹(@yuki_99_s)です. 高校2年生で習う数学の1つに,『相加相乗平均』の関係というものがあります. 初めて「平均」という単語が出て来たのは小学校の時でした. あの頃は,単純に総和を求めて,個数で割ってあげたものを『平均』と呼んでいましたね 高校ではそれを,『相加平均』と呼んでいます. さて,わざわざ『平均』を『相加平均』に言い方を変えたということは,なにかあるはずです. ここでもう1つ現れる平均が『相乗平均』と呼ばれるもの 相乗平均の例として出した今回の問題をみても分かるように,縦と横の長さが異なるものを均一化しようとしているので,これも一種の平均なわけです. 整理すると,aとbの相加平均及び相乗平均はこのようになります. 先ほど,4と9の相加平均は6.5で,4と9の相乗平均は6となっていたように,『相加平均は常に相乗平均以上である』というのが『相

    いろんな平均たちの関係を『たった1つの円』で可視化してみる
  • A/Bテストに用いられる統計的検定手法(ロジック)のまとめ&比較 | RCO Ad-Tech Lab Blog

    リクルートデータ組織のブログをはじめました。※最新情報はRecruit Data Blogをご覧ください。 Recruit Data Blogはこちら 汎用人型雑用AIの stakaya です。 たまたま数年前に社内のBLOGに書いたABテストのロジックのまとめ&比較記事を発掘したので、 このまま眠らせているのはもったいないぞと、 圧倒的もったいない精神を発揮し、シェアさせていただきます。 あの頃は私も若かった。 社内では”堅物・真面目・一途”で有名なものでして、下記文章がお硬いのはご勘弁ください。 はじめに 記事は、施策の評価手法としてしばしば用いられるA/Bテスト(A/B testing)について、できる限り背後にある仮定を明記した上で、まとめたものである。 A/Bテストとは、主にインターネットマーケティングにおける施策の良否を判断するために、2つの施策(通常、A・Bと記載)を比較す

    A/Bテストに用いられる統計的検定手法(ロジック)のまとめ&比較 | RCO Ad-Tech Lab Blog
    headless_pasta
    headless_pasta 2017/05/01
    ABテストするときはみんな気にかけようね。
  • 数学カフェ 確率・統計・機械学習回 「速習 確率・統計」

    The document describes various probability distributions that can arise from combining Bernoulli random variables. It shows how a binomial distribution emerges from summing Bernoulli random variables, and how Poisson, normal, chi-squared, exponential, gamma, and inverse gamma distributions can approximate the binomial as the number of Bernoulli trials increases. Code examples in R are provided to

    数学カフェ 確率・統計・機械学習回 「速習 確率・統計」
  • 標準偏差とは何か!その求め方と意味を図解で徹底解説

    ここでは高校数学で登場し、統計学を学ぶ上でとても重要な役割を担う「標準偏差」について、図解を駆使し、その求め方と意味について解説していきます。 標準偏差の求め方や意味を理解するには、以下の4つのSTEPを踏めば簡単に理解することができます。 標準偏差は「式を覚える」のではなく「イメージ化」することがとても重要です。 4つのSTEPを質的なイメージで捉えることで「標準偏差とは何か」や「標準偏差はどうやって求めるのか」がスッキリ頭に入ってきますので、ぜひ最後までお付き合い下さい。 標準偏差の求め方 標準偏差を求める式がこちらになります。 いきなりかなり難しい式が登場してきました(汗 この式を覚えることはなかなか厳しいですよね。 ただ、この式の記号のひとつひとつをイメージ化しながら読み解くことで、この難しい式が実はとてもストーリー性のある面白い構造をしていることが分かってきます。 ここではその

    標準偏差とは何か!その求め方と意味を図解で徹底解説
    headless_pasta
    headless_pasta 2017/04/13
    ひとへの説明でこれ使えるな。わかりやすい。
  • データから真実を見抜くために抑えたい『因果推論』の基本 - ゆとりずむ

    こんにちは、らくからちゃです。 原価コンサルタント見習として、コスト・マネジメントのお手伝いをさせて頂いております。売上が増えても、製品を作るのに高い材料が必要だったり、工程が複雑で人件費が掛かるようだと利益には繋がりませんよね?そこで製品ごとに製造コストを計算して『いくらなら利益が出るのか?』『いま一番儲かっている製品はどれか?』といったことを分かりやすくお伝えするシステムの導入を支援させて頂いております。 お客様に『このコストは、この実績に連動して増減するから、これを基準に按分して...』なんてヒアリングをしながら設定作業を進めていくのですが、当にその考え方で良いのかなあなんて思うことはよくあります。そんなモヤモヤした気持ちを抱えながら屋さんに行った所、なかなか面白いを発見いたしました。 「原因と結果」の経済学―――データから真実を見抜く思考法[Kindle版] posted w

    データから真実を見抜くために抑えたい『因果推論』の基本 - ゆとりずむ
    headless_pasta
    headless_pasta 2017/03/06
    因果関係と相関関係の話はこの記事がオススメ http://takehiko-i-hayashi.hatenablog.com/entry/20130418/1366232166
  • 『ダメな統計学 悲惨なほど完全なる手引書』で科学の基盤をより確かなものにする - HONZ

    世界は数字であふれている。政治家の支持率から健康品が病気のリスクを下げる確率まで、ニュースや広告を介して、新たな数字が次々とわたしたちに届けられる。しかしながら、その数字がどのようにつくられ、どのような意味を持つのかを真に理解することは容易ではない。特に、数字の送り手に悪意がある場合には注意が必要だ。50年以上前に出版された世界的ベストセラーの『統計でウソをつく法』で知られるように、統計を恣意的に用いれば、多くの人を欺くことはそれほど困難ではないのだ。 それでは、きちんとした科学研究室・大学によって裏付けられたデータならば無条件で信用できるのだろうか。そうではない、と統計学の講師でもある著者のアレックス・ラインハートはいう。科学者たちに悪意があり、統計学を歪めて使用しているわけではない。科学者たちもまた、わたしたち一般市民と同様に統計学をきちんと理解していないというのだ。 科学者は、統計

    『ダメな統計学 悲惨なほど完全なる手引書』で科学の基盤をより確かなものにする - HONZ
  • totoBIGの件は何が問題なのか、なるべく分かりやすく説明してみる: 不倒城

    目次・記事一覧(1) レトロゲーム(185) 日記(772) 雑文(512) 書籍・漫画関連(56) 子育て・子どもたち観察(115) ゲームブック(12) フォルクローレ・ケーナ・演奏関連(86) FF14(40) レトロでもないゲーム(336) 始めたばっか(13) アナログゲームいろいろ(37) 人狼(48) ネットの話やブログ論(61) 三国志大戦(20) 無謀的世評(52) ゴーストライター(16) 大航海時代ONLINE(40) FF3(6) Civ4(18)

    headless_pasta
    headless_pasta 2017/02/21
    “カルドセプトサーガのダイス問題?イヤな事件だったね…”
  • did2 on Twitter: "「箱ひげ図」の書き方を図にしてみた:https://t.co/aMq8tHc2T1 https://t.co/6rSP4B06Wu"

    headless_pasta
    headless_pasta 2017/02/13
    書き方もそうだけど、見方をわかってない人に説明するのにも良い図だ。
  • 平均値 vs 中央値

    作者のページ ときどき所得などのデータを平均値(算術平均)のみで示している記事があります。しかし極端な外れ値があったり、著しく非対称だったりするデータは中央値で扱わないと実態がよく分からなくなってしまう場合があります。「平均所得600万円!」に騙されないように「平均値」と「中央値」の違いを実感しましょう。 追記1:以下の分布はLog-normalを仮定しているため必ず 中央値<平均値 です。そうじゃない分布も当然存在します。 追記2:このページの趣旨は「平均値だけ見ても実態がよく分からんこともあるので元の分布や他の統計量も気にしようね」ってことなので一々「最頻値も見なきゃ駄目だ」とかメールしてこなくていいです。 使い方:スライダをグリグリ動かして、それぞれの代表値を持つ分布の例を見てみよう。