統計に関するshinepのブックマーク (9)

  • 分子に1を足し、分母に2を足すだけで予測が良くなる話 - CARTA TECH BLOG

    コインを投げを観測し、コインの表になる確率を予測するとき、みなさんはどのように予測するでしょうか。 (コイン投げに限らず、表か裏のように二値になるような予測であれば、例えば、広告のクリック率や、単語の出現率、ナンパの成功率でもなんでもいいです。) コインが表になる確率が0から1まで一様だ(まんべんなく出る)とすれば、n回投げてs回表を観測したら、平均であるs/nをその確率として予測するのではないでしょうか。 この方法をもっと複雑な言い方をすれば最尤推定(maximum likelihood; ML推定)とよびます。コインが表になる確率が一様という事前確率まで分かっている前提ならば、これは最大事後確率推定(maximum a posteriori estimation; MAP推定)ともいえます。なんか最強っぽいですよね。 他に方法があるのでしょうか。スムージングという方法もあります。スムー

    分子に1を足し、分母に2を足すだけで予測が良くなる話 - CARTA TECH BLOG
    shinep
    shinep 2017/04/11
    最尤法の弱点
  • 負の二項分布について

    2. 二項分布 • Binomial Distribution – ベルヌーイ試行において,成功率pで試行数n回中に x回成功する確率 – 試行数nを固定すれば,パラメータは成功率pだけに なる • パラメータpの共役事前分布はベータ分布 3. 負の二項分布 • Negative Binomial Distribution – 離散分布 – 成功率pで,r回成功するまでに必要な試行数の 確率 – 二項分布の成功数と試行数を入れ替えた分布 負の二項分布「私はあと2回の変身を残しています」

    負の二項分布について
  • はてなグループの終了日を2020年1月31日(金)に決定しました - はてなの告知

    はてなグループの終了日を2020年1月31日(金)に決定しました 以下のエントリの通り、今年末を目処にはてなグループを終了予定である旨をお知らせしておりました。 2019年末を目処に、はてなグループの提供を終了する予定です - はてなグループ日記 このたび、正式に終了日を決定いたしましたので、以下の通りご確認ください。 終了日: 2020年1月31日(金) エクスポート希望申請期限:2020年1月31日(金) 終了日以降は、はてなグループの閲覧および投稿は行えません。日記のエクスポートが必要な方は以下の記事にしたがって手続きをしてください。 はてなグループに投稿された日記データのエクスポートについて - はてなグループ日記 ご利用のみなさまにはご迷惑をおかけいたしますが、どうぞよろしくお願いいたします。 2020-06-25 追記 はてなグループ日記のエクスポートデータは2020年2月28

    はてなグループの終了日を2020年1月31日(金)に決定しました - はてなの告知
  • トピックモデルの話

    勤め先の社内勉強会での発表資料です。日語版 Wikipedia の抄録を対象として gensim の LdaModel を利用する例を説明した後、LDA の生成モデルについて説明します。そのうえで、gensim の LdaModel に指定できるパラメータや提供されているメソッドの意味を LDA の生成モデルに照らして確認します。

    トピックモデルの話
  • ダメな統計学:目次|Colorless Green Ideas

    2017年1月20日追記:『ダメな統計学――悲惨なほど完全なる手引書』というが出版されることになった。このは、ここに掲載されているウェブ版の『ダメな統計学』に大幅に加筆したものだ。ウェブ版の『ダメな統計学』を読んで興味を持った方は、書籍となった『ダメな統計学』をぜひ読んでいただければと思う。書籍版の詳細については「『ダメな統計学――悲惨なほど完全なる手引書』の翻訳出版」という記事をご参照願いたい。 ここに公開する『ダメな統計学』は、アレックス・ラインハート (Alex Reinhart) 氏が書いたStatistics Done Wrongの全訳である。この文章は全部で13章から構成されている。詳しくは以下の目次を参照されたい。 はじめに データ分析入門 検定力と検定力の足りない統計 擬似反復:データを賢く選べ p値と基準率の誤り 有意であるかないかの違いが有意差でない場合 停止規則と

    ダメな統計学:目次|Colorless Green Ideas
    shinep
    shinep 2017/01/10
    書籍が出るようなので
  • 「一様乱数の平均値を正規乱数として代用する」という話をゆるふわ統計的に検証する

    「一様乱数を足し合わせて平均値をとった値は正規分布っぽくなるよ」というツイートを見かけて、「それって統計的にどうなんだろう?」という疑問が湧いたので検証してみました。 はじめに 昨日・一昨日ぐらいに Twitter 上でちょっとした話題になっていた アニメーションの監修で、「 Random();の代わりに、(Random()+Random()+Rrandom()+Random()+Random())/5.0f; を使うと、動きにコクが出る」と言ったら、ピュアオーディオ扱いされるのですが・・・これは根拠のあるアルゴです。 — 深津 貴之 (@fladdict) 2016年11月3日 というツイートに関連して、「一様乱数の平均値を正規乱数として代用する」的なツイートをちらほら見かけて気になっていたので、統計的に検証してみましたよ、というブログエントリです (このツイート自体に対して揶揄するつも

    「一様乱数の平均値を正規乱数として代用する」という話をゆるふわ統計的に検証する
    shinep
    shinep 2016/11/06
    ブラインドテストで「コク」を調べたい
  • マイナーだけど最強の統計的検定 Brunner-Munzel 検定 - ほくそ笑む

    対応のない 2 群間の量的検定手法として、最も有名なのは Student の t 検定でしょうか。 以前、Student の t 検定についての記事を書きました。 小標問題と t検定 - ほくそ笑む しかし、Student の t 検定は、等分散性を仮定しているため、不等分散の状況にも対応できるように、Welch の t 検定を使うのがセオリーとなっています。 ただし、これら 2つの検定は分布の正規性を仮定しているため、正規性が仮定できない状況では、Mann-Whitney の U検定というものが広く使われています。 Mann-Whitney の U検定は、正規性を仮定しないノンパラメトリック検定として有名ですが、不等分散の状況でうまく検定できないという問題があることはあまり知られていません。 今日は、これらの問題をすべて解決した、正規性も等分散性も仮定しない最強の検定、Brunner-

    マイナーだけど最強の統計的検定 Brunner-Munzel 検定 - ほくそ笑む
  • Qlik Senseのマップに顧客データを表示する | QlikView Training

    Qlik Cloud 日リージョンへの移行方法(qlik-cli利用時の注意点) 先日、ブログにて、日リージョンへテナントを移行する方法の全体像をご紹介しました。今回は、コマンドラインのqlik-cliを用いたテナント移行時の注意点と、コマンドやスクリプトの記述例をご紹介します。 Qlik Application Automation活用術:Microsoft Teamsにメッセージを配信する Qlik Sense SaaSを使用していて、メジャーの結果と事前に設定した閾値を比較して、閾値を超えたら通知を飛ばせたら良いな、と考えたことはありませんか?記事では、Qlik Sense SaaSの「Qlik Application Automation」でMicrosoft Teamsにメッセージを配信する方法を紹介します。

  • 【サッカー】ポアソン分布を使ってtoto予想してみた。 - 実験スピリッツ

    あらゆるスポーツはデータ分析によって評価されています。今回はサッカーです。 調べてみた結果、試合のゴール数はポアソン分布(正規分布)に従うと仮定できるそうで、簡単そうなのでやってみます。 ※かなり前に実験してみた結果なので、その辺はご容赦下さい。 ポアソン分布とは ポアソン分布は平均値を変数として使用することで、ある事象が起こる確率を求めることができます。 今回の場合、λに平均得点、kに得点の0点~3点を代入します。 例えば、2015年サンフレッチェ広島は1ゲームあたり平均2.03ゴールを得点する可能性があります。この情報をポアソン方程式に当てはめると、広島が試合で0ゴールになる確率は13%、1ゴールは27%、2ゴールは27%、3ゴールは18%になります。簡単ですね。 しかしながら、サッカーは対戦相手あってのものです。単純に、これをそのまま利用するのは適切ではありません。 検証する対象試合

    【サッカー】ポアソン分布を使ってtoto予想してみた。 - 実験スピリッツ
  • 1