import numpy as np import scipy from scipy.stats import binom %matplotlib inline %config InlineBackend.figure_format = 'svg' import matplotlib import matplotlib.pyplot as plt import seaborn as sns print("numpy version :", np.__version__) print("matplotlib version :", matplotlib.__version__) print("sns version :",sns.__version__) numpy version : 1.18.1 matplotlib version : 2.2.2 sns version : 0.8.1
この記事について電通デジタルでデータサイエンティストをしている中嶋です。今回の記事では統計的仮説検定における検出力や効果量の概念及び、それらを考慮した事前のサンプルサイズ設計について説明します。読者層としては、既に統計的仮説検定の基本的な使い方を理解している方を主な対象としていますが、そうでない方にもわかるように最初に簡単な復習をします。 統計的仮説検定について 概要 統計的仮説検定(以下、仮説検定)とは、性質の異なるグループ間で平均や分散など各グループを代表するような数値を比較する際に、その差が偶然生じたものか、そうでなく何かしら必然性がありそうかを検証するための統計手法です。例えば比較分析したい2つの群(ex. ユーザーグループ)があった時にある指標(ex. 各群の年齢の平均値)を比較して、統計的に偶然ではないレベルで差異が生じているかを判定したいときに仮説検定を使うことができます。
こんにちは。じーむです。 念願かなって、統計検定1級に合格しました! これで学生の間にやりたかった勉強はひと通り済んだ気がします。 せっかくなので試験の対策について書こうと思ったのですが、基本的に過去問を解いて分からないところを調べるだけの作業なので、大したことはやっておりません。 そんなわけで、あまり有益なことは言えませんが、ダラダラ書きます。 統計検定1級ってどんな試験? 統計検定の一番上の級です。準1級までと違って、「統計数理」と「統計応用」の2つの試験があり、両方に受かることで認定されます。 統計数理というのは積分コンテストのことで、積分ができると受かります。 統計応用は、より実際(?)に即した問題で、受験時に人文科学・社会科学・理工学・医薬生物学の4分野があり、受験時にどれを受けるか決めます。自分の専攻に近いものを選べば良いと思いますが、インターネットで調べたところ、理工学は統計
ユーザー視点のプロダクト開発を行うにあたり、ユーザーインタビューを通じてユーザー視点を理解することは欠かせないプロセスであり、昨今では様々なインタビュー方法が活用されるようになりました。 そして、ユーザーインタビューで得た情報を正しくプロダクトに反映させるためには、「ユーザーの声」を整理・分析し、ユーザーが持つ本質的なインサイトを理解することが非常に重要です。 本質的なインサイトと言うのは、ユーザー自身が自覚しているという事はほとんど無く、「ユーザーインタビューで得られる発言=インサイト」にはならないため、 「ユーザーの声」を整理・分析することで、インタビューの情報を正しくプロダクトに反映することができます。 本記事では、ユーザーインタビューを通じて取得した情報からユーザーインサイトを抽出する方法の一つである、「上位・下位分析」についてご紹介します。 上位・下位分析とは? 一つ目の上位
こんにちは,株式会社Nospare・千葉大学の小林です.本記事ではGelman and Vehtari (2020)の`What are the most important statistical ideas of the past 50 years?'について紹介します.この論文は過去50年において最も重要だとされる次の8つのアイディアが取り上げられています. 8つのアイデア 反事実(counterfactual)に基づく因果推論 ブートストラップとシミュレーションに基づいた推論 オーバーパラメータ(overparameterized)モデルと正則化(ガウス過程,Lasso, horseshoe, ベイズnonparametric priorなど) ベイズマルチレベル(階層)モデル 汎用的な計算アルゴリズム(EM, MCMC, SMC, HMC, 変分法など) 適応的決定分析(ベイズ最
研究をする方は、p値(p value)とはよく向き合うと思います。p<0.05なら差がある、p≥0.05なら差がない。だいたい差を証明したいので、「p<0.05、よっしゃー!」という感じだと思います。 一方、「p値だけみるのは駄目だ!」という偉い人の意見も聞いたことがあるかもしれません。 あなたはきちんとp値の意味を解釈できますか? この記事では、p値の正しい解釈、歴史、実践的解釈の順に完全解説をしていきます。 p値の解釈を極めましょう。 *簡略のため、この記事ではone-sidedとtwo-sidedについては無視します。そして、使用している統計モデルが正しくバイアスが無い前提です。 p値の解釈とは? Question: 30人のクラスが2つありました。クラスAとクラスB。全員の握力を測定、クラスAの平均は30kg、クラスBの平均は35kgでした。握力はクラスBの方がクラスAより高い、と
しばらく前にQuoraにこんなアンサーを書いたことを思い出したので、ついでにリブログ記事として転載の上加筆修正したものを用意してみました。僕にしては珍しくコッテコテの頻度主義的な話題である上に、「p値なんか使うのはやめてしまえ」という記事を以前に書いておきながらこんな議論をするのは自己矛盾かもしれませんが(笑)、これまでの統計学の歴史を紐解くことで、温故知新ということで新たに理解されることもあるのかなと思っています。 小標本のための統計学と、「スチューデント」ことゴセットの話 補足 小標本のための統計学と、「スチューデント」ことゴセットの話 近代統計学とは、「無作為抽出によって得られた小標本を分析することで、その背後にある母集団の性質を推定する」ために改良が積み重ねられてきた営みです。すなわち、統計学は「少量のデータを扱う学問」そのものだとも言えます。 (Skbkekas - 投稿者自身に
ふと思い立ってこんなアンケートを取ってみたのでした。 頻度主義統計学における「95%信頼区間」の95%というのは、以下のどちらだと思いますか— TJO (@TJO_datasci) 2021年7月16日 結果は物の見事に真っ二つで、95%信頼区間の「95%」を「確率」だと認識している人と、「割合」だと認識している人とが、ほぼ同数になりました。いかに信頼区間という概念が理解しにくい代物であるかが良く分かる気がします。 ということで、種明かしも兼ねて95%信頼区間の「95%」が一体何を意味するのかを適当に文献を引きながら簡単に論じてみようと思います。なお文献の選択とその引用及び解釈には万全を期しているつもりですが、肝心の僕自身が勘違いしている可能性もありますので、何かしら誤りや説明不足の点などありましたらご指摘くださると有難いです。 頻度主義において、95%信頼区間の「95%」は「割合」を指す
記事の内容 問題設定とモデリング 問題設定 2種類の予測 解析: 事後分布の計算 Gibbs samplerの導出 計算とプロット 解析: 予測分布の計算 予測その1 予測その2 コード データ等 Gibbs sampler 予測分布 久しぶりの更新となりました. 今回は階層モデルと予測分布に関して解説します. 問題設定とモデリング 問題設定 次のような問題を考えます. Aさんは15分間に読んだ本のページ数の記録をとっています. ただし, 読む本は観測ごとに異なるものとします. 現在, データが\(N=9\)個ほどあり, 次のような値であるとします. \[ 11, 10, 9, 8, 14, 13, 12, 13, 11 \] このデータを用いて, 予測を行いたいと思いました(ここでいう"予測"の意味については, 後ほど). 予測を行うため, 次のようなモデルを仮定しました. \begin
僕「10回試行で1回発生するバグを改修した」 鬼「改修の効果を、繰り返し試験をして確認しなさい」 僕「10回試行して一度も現象が起きないことを確認した」 システム開発の現場で、経験あると思います!! しかし、上記の確認方法では、改修できていなかったとしても35%の確率で事象は発生しないため、無意味な対応でシステムをリリースしかねません。また、確率的に発生するバグなので、何回試験しようが「<たまたま>今回は発生しなかったのでは?」と言われかねません。 では、「発生しないことの確認」とは、いったい何回試験すればよいのでしょうか? 本記事では、この考え方について簡単に書いていきます。
Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article? はじめに: 統計学の重要性 NTT データ数理システムでリサーチャーをしている大槻 (通称、けんちょん) です。 今回は統計検定 1 級について記します。 統計検定とは日本統計学会による公認の資格であり、統計に関する知識や活用力を評価するものです。 日常的に大量のデータが溢れている昨今、データ分析や機械学習に対するニーズは最高の高まりを見せています。最近では何も考えずともただデータを入力するだけでデータ分析や機械学習手法を実行してくれるツールも多数出回るようになりました。 データ分析や機械学習を実際に遂行するにあたって、統計学は強力な基
先日ですが、旧知の*1Grahamianさんのこんなツイートが話題になっていました。 データ分析をするときシンプルに重要なことは「生のデータを眺める」と「データの分布をグラフにする」ことなんじゃないかと思うんですよね。すぐにクロスとかファネルとかコホートとかやりたくなるんですけど、まずは目の前のデータがどんなものか頭にマッピングさせることが長期的に効いてくる感じ。— Grahamian📊データ分析と機械学習 (@grahamian2317) 2021年1月12日 何を当たり前のことを言っているんだと眉を顰める向きもあるかもしれませんが、これだけデータサイエンスやら機械学習(人工知能)やらが喧伝されている昨今においては、少なからぬ現場で「データはどこかのAPIからバルクでダウンロードしてくるor本番DBから転送してくるだけ」「やってきたデータは中身を見もせずにそのまま統計分析や機械学習など
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く