株式会社ブレインパッドの2023年新卒研修資料です。基礎統計学について扱っています。
![【新卒研修資料】基礎統計学 / Basic of statistics](https://cdn-ak-scissors.b.st-hatena.com/image/square/4a742fdf19b051258a0cdd4100f4ddbd471bc803/height=288;version=1;width=512/https%3A%2F%2Ffiles.speakerdeck.com%2Fpresentations%2Ff5a9d58f0f964eadb1eeddc86986abf0%2Fslide_0.jpg%3F27152388)
はじめに データ解析のための統計モデリング入門 本の構成に関する特徴 本の内容に関する特徴 本の目次と各章の概要 第1章 データを理解するために統計モデルを作る 第2章 確率分布と統計モデルの最尤推定 第3章 一般化線形モデル 第4章 GLMのモデル選択 第5章 GLMの尤度比検定と検定の非対称性 第6章 GLMの応用範囲を広げる 第7章 一般化線形混合モデル 第8章 マルコフ連鎖モンテカルロ法とベイズ統計モデル 第9章 GLMのベイズモデル化と事後分布の推定 第10章 階層ベイズモデル 第11章 空間相関のある階層ベイズモデル 対象読者 想定と違ったとなる前に こんな人に最適です はじめに 正直今更感が非常に強い一冊になります。 既によく知られているベストセラーと言ったところですが、例えば「自分はR使いではないからな」とか、その程度の理由で購入をためらっている人もいるかもしれません(現に
先日、当面の目標にしていた統計検定2級に合格することができた。 今回は、受験に関する諸々について書いてみることにする。 受験のきっかけ 以前から、データ分析や機械学習に興味があった。 そして、それらの書籍を読んだり手法を調べていくうちに、だんだんと統計学に対する興味が湧いてきた。 統計学は、データ分析や機械学習に深い関わりがある。 その後は、初心者向けの統計に関する書籍などを読んで学び始めた。 とはいえ、それだけでは統計が身についているのかがよく分からない状況に陥ってしまう。 そんなとき、統計検定の存在を知った。 ウェブで下調べしたところ、概ね統計検定の 2 級に合格すれば統計の基礎は分かっていると胸を張れるらしい。 現在、統計検定は 1 級 (数理・応用)、準 1 級、2 級、3 級、4 級と五つのレベルに分かれている。 公式では 2 級の試験内容を「大学基礎課程で習得すべきこと」と位置
整然データとは、1) 個々の変数が1つの列をなす、2) 個々の観測が1つの行をなす、3) 個々の観測の構成単位の類型が1つの表をなす、4) 個々の値が1つのセルをなす、という4つの条件を満たした表型のデータのことであり、構造と意味が合致するという特徴を持つ。R言語などを用いたデータ分析の際には非常に有用な概念である。 はじめに データ分析の際には、データが扱いやすい形式になっている必要がある。データの中身がぐちゃぐちゃになっていたり、データの形式が統一されていなかったりすれば、分析は骨の折れる作業となる。 それでは、どのようなものがデータ分析において扱いやすい形式のデータになるのだろうか。この問題に対する唯一の正しい解答というものは存在しない。しかし、表の形式で表すことができるデータを考える場合、ハドリー・ウィッカム (Hadley Wickham) 氏が提唱した整然データ (tidy d
2016/12/15: にわかに閲覧者が増えたのでおかしなところを微修正 概要 統計学史をちょっと調べていておもしろかったのでまとめてみた 技術的にはすごく初歩的な話なので, 回帰分析 (最小二乗法) の入門的な「読み物」という位置づけになりそう 入門的な読み物なので, 特に最小二乗法の説明箇所は中学高校の数学の知識だけで理解できるような表現をしている, したつもり. PDF換算で 10 ページ (ただし画像が結構多い) 惑星の軌道を予測する連立方程式で惑星の軌道を予測する19世紀初頭にフランスの数学者ルジャンドル*1が最小二乗法のアイディアを最初に発表したが, ドイツの数学者ガウス*2が直後に自分こそが先に思いついたと主張し, 論争を生んだという (Abdulle & Wanner, 2002, 200 Years of Least Squares Method). しかし, いずれが先
連続的なリスクのどこに「線」を引くのか:米国EPAのPM2.5基準値改訂、その"正当化ロジック"を読むtakehikoihayashi
まず初めに、次のようなヒストグラムがあったとする。 このヒストグラムには、青色と緑色のふたつのグループが含まれている。 それぞれのグループは、平均値や度数が異なるようだ。 果たして、それぞれのグループはどちらの方が値のバラつきが大きいのだろうか? 標準偏差だけでは比較できない 通常、データセットの値のバラつきは分散や標準偏差、四分位数といった統計量で表される。 しかし、これらの統計量は、平均値や単位などが異なると単純に比較することはできない。 例えば、あるカブトムシの大きさの標準偏差が 1 cm で、あるクジラの大きさの標準偏差が 1 m だとしよう。 クジラの方が標準偏差にして 100 倍の大きさがある。 しかし、だからといってクジラの方がバラつきも大きいとは限らない。 元々、その生物がだいたいどれくらいの大きさなのかが分からなければ判断がつかない。 先ほどの例であれば、カブトムシがだい
どーもこんにちは、ハヤトです。 アンケートやオンライン広告を計画するときに、 どれくらいのサンプルサイズがあれば妥当な検証結果を得られるか知りたい 、なんて時が結構あると思います。 今回は、必要なサンプルサイズをPythonで計算します(ちょっと無理やりですが・・・) サンプルサイズについて アンケートの回答数が3人なら、結果は妥当でないと感覚的にわかります。 しかし、それじゃあ50だったら?100, 300, 1000だったら? 多くのサンプルサイズを集めようと、するとそれだけ費用も手間もかかります。かといって、少なすぎては意味のない結果を得ることになり、それまた失敗です。 そこで、十分なサンプルサイズの最小数を求める必要が出てきます。 前提条件を考える 統計的に妥当かどうか判断するために、まずは前提条件から設定していきましょう。 許容できる誤差の範囲、何%で信頼できるか、回答比率はどれ
犯罪の原因とは大きく,逸脱主体と統制機関に関わるものに分けられます。前者は,生物学的・心理学的・社会学的要因に分かれます。「バイオ・サイコ・ソシオ」とカタカナにすると,覚えやすい。 後者の統制機関とは,警察や世論などです。ある行為に犯罪というラベルを付与し,警察統計に計上する活動です。この有様によっても,犯罪量は大きく左右されます。統計上の犯罪量は,こちらに大きく依存しているともいえるでしょう。 当局の統計によると,2013年中に刑法犯で検挙された人員は26万2486人です。法に触れることをして御用となった人間(14歳以上)の数ですが,実際の量はこれだけではありますまい。逮捕を免れている,あるいは事件そのものが発覚していない暗数が相当多いものとみられます。 2010~14年に実施された『世界価値観調査』によると,日本の18歳以上の国民のうち,「この1年間で犯罪被害に遭ったことがある」と答え
2016年3月25日にアップデートしました。 こんにちは。Hayatoです。仕事では大きなデータの処理とかそのクリーニングや解析をしています。 大学時代は熱心に勉学に励まなかったこともあり統計的知識が弱く、いつも平均だけだしてパパっと分析済ませちゃったりしていたのです。 しかし時代はデータサイエンティスト!僕もデータクリーナーじゃなくてデータサイエンティストになりたい!ということでGoogleに入社してからこつこつ統計の勉強をしています。 その過程で、基礎を学ぶのに、統計検定二級がとても効率的だったのでご紹介します。 統計検定2級 統計検定2級ってなに? 総務省が後援している統計検定は、日本で一番有名な統計の技術を測る資格試験です。 1級, 2級, 3級とあり、その真ん中のレベルに当たるのが統計検定です。 想定受験者 プログラマーだけど統計周りの基礎知識がない人。 データサイエンティストと
ITエンジニアのためのデータサイエンティスト養成講座(10): 時系列分析II―ARMAモデル(自己回帰移動平均モデル)の評価と将来予測 過去の時系列データを基に、将来予測につながるモデルを検討、実際に将来予測を行って検証してみましょう。(2014/9/1) ITエンジニアのためのデータサイエンティスト養成講座(9): 時系列分析I ――ARMAモデルと時系列分析 システムログも金融取引データも時系列で分析できる。ビジネスシーンで求められるデータ分析の多くを占める「時系列データ」分析の基礎を解説。(2014/6/24) ITエンジニアのためのデータサイエンティスト養成講座(8): 富山県民を分類してみたら……?――クラスタリング分析の手法 あるグループを属性ごとに分類する「クラスタリング分析」の基本を学ぼう。今回も自治体が公開しているオープンデータを題材にします。(2014/3/19) I
googleさんやマイクロソフトさんは「次の10年で熱い職業は統計学」と言っているようです。またIBMは分析ができる人材を4,000人増やすと言っています(同記事)。しかし分析をするときの基礎的な学問は統計学ですが、いざ統計学を勉強しようとしてもどこから取りかかればいいか分からなかくて困るという話をよく聞きます。それに機械学習系の本は最近増えてきましたが、統計学自体が基礎から学べる本はまだあまり見かけないです。 そこで今回は、統計学を初めて勉強するときに知っておいた方が良い10ポイントを紹介したいと思います。 1. 同じ手法なのに違う呼び名が付いている 別の人が違う分野で提案した手法が、実は全く同じだったということがあります。良く聞くのは、数量化理論や分散分析についてです。 数量化理論 数量化I類 = ダミー変数による線形回帰 数量化II類 = ダミー変数による判別分析 数量化III類 =
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く