並び順

ブックマーク数

期間指定

  • から
  • まで

1 - 40 件 / 77件

新着順 人気順

中心極限定理の検索結果1 - 40 件 / 77件

  • まあ、なんちゅうか、トラバも盛大に伸びているので、私の書くここまで、..

    まあ、なんちゅうか、トラバも盛大に伸びているので、私の書くここまで、元増田は辿り着かないかもしれませんが・・・ 私はゲノム科学者ですが、元増田の持つ疑問は、別に自然なものだと思うんですよね。というより、ゲノム配列決定が非常に身近になっている昨今、ちゃんと向き合っていかなければならない疑問だと思っています。私は私の持つ知識の範囲で、疑問にお答えしたいと思います。倫理は専門外なので扱いません。タブーとか扱いません。裏の意図を読もうとしているブコメが多数ありましたが、理系なのでよくわかりません。 まず、元増田の挙げているような、運動能力、将棋の能力、見た目の美醜とか、学歴、といったヒト個人ごとに異なる特徴を「形質」と言います。形質を遺伝学の観点から見ると大きく分けて二つあり、単一遺伝子型(メンデル型)と多遺伝子型(多因子型)です。 おそらく優生学にせよ遺伝にせよ、専門外の人が通常頭に思い浮かべる

      まあ、なんちゅうか、トラバも盛大に伸びているので、私の書くここまで、..
    • もうなんか間違ったことしか書いてなくて増田が何でこんなもの書こうと思..

      もうなんか間違ったことしか書いてなくて増田が何でこんなもの書こうと思ったのかちょっと意味が分からないんだけど 一応気になったところだけ訂正・説明を入れておく。(ほぼ全文にわたっているが…) 途中で「なんでこんな中間テストの採点みたいなことやってんの…」みたいな気分になったけど 万が一これを読んで本気にしている人がいるといけないので義務感で最後まで書きました。 あまりの衝撃に最初からテンション高いですけどね。もう疲れたからこのまま上げます。 なんなんやいったい... 遺伝病の断種は、遺伝病の根絶について特に有効ではないと考えられています。まず、潜性遺伝病の場合はどうでしょうか。これは、両方の染色体に、多くは遺伝子機能欠失型の遺伝子変異があると起こります。親は、片方しか持っていなければ健康なのですね。すると、両方の遺伝子変異を持つ遺伝病患者を断種させたところで、片方だけを持つ親が世の中にたくさ

        もうなんか間違ったことしか書いてなくて増田が何でこんなもの書こうと思..
      • WebサービスのA/Bテストや機械学習でよく使う「確率分布」18種を解説 - paiza times

        主な確率分布の関連図 こんにちは、吉岡(@yoshiokatsuneo)です。 Webサービスを運営していると、利用状況を分析・予測したり、A/Bテストなどで検証したりすることがよくあります。 データを一個一個見ていてもよくわからないので、データ全体や、その背景の傾向などがまとめて見られると便利ですよね。そんなとき、データの様子を表現するためによく使われているのが「確率分布」です。 学校の試験などで使われる偏差値も、得点を正規分布でモデル化して、点数を変換したものです。 今回は、Webサービスなどでよく使われる確率分布18種類を紹介します。 それぞれ、Webサービスでの利用例やPythonでグラフを書く方法も含めて説明していきます。コードは実際にオンライン実行環境paiza.IOで実行してみることができますので、ぜひ試してみてください。 【目次】 正規分布 対数正規分布 離散一様分布 連続

          WebサービスのA/Bテストや機械学習でよく使う「確率分布」18種を解説 - paiza times
        • 基礎から学ぶ統計学

          本章では、二項検定を学びます。二項検定は、本書で学ぶ統計手法の中では、最も使用頻度が低い手法です。しかし、統計学の入門に最適な学習項目です。理由が3つあります。第一に、高校1~2年で学んだ数学だけで、この手法の原理を完全に理解できます。統計手法はたくさんありますが、唯一この手法だけは、全て手作りの計算で実行できます。第二に、面倒な検定統計量の計算を必要としません。第三に、二項検定には、検定の論理の全てが詰まっています。こうした理由から、読者のお父さんやお母さん、もしくは、お爺ちゃんやお婆ちゃんの世代では、二項検定は、高校の数学の教科書で解説されていました。この「とても分かりやすい」という長所を、活用しない手はありません。本書では、統計学の学習を、二項検定から始めます。本章では、当時の大学入試の頻出問題をさらに簡単にした例題を使って、学びます。… 本書の使い方 統計学を学ぶ心がけ/予備知識/

            基礎から学ぶ統計学
          • 「全数調査なら何でもわかる」という誤解 - 間違えがちな母集団とサンプリングそしてベイズ統計 - - ill-identified diary

            この文章は pandoc-hateblo で tex ファイルから変換しています. PDF 版はこちら 2021/10/15 追記: 後半のベイジアンブートストラップに関する解説はこちらのほうがおそらく正確です ill-identified.hatenablog.com 概要挑発的なタイトルに見えるかも知れないが, 私はしらふだしこれから始めるのは真面目な話だ — 正直に言えばSEOとか気にしてもっと挑発的なタイトルにしようかなどと迷ったりはしたが. 「全数調査できれば標本抽出の誤差はなくなるのだから, 仮説検定は不要だ」という主張を見かけた. いろいろと調べた結果, この問題を厳密に説明しようとすると最近の教科書には載ってない話題や視点が必要なことが分かった. ネット上でも勘違いしている or よく分かってなさそうな人をこれまで何度か見かけたので, これを機に当初の質問の回答のみならず関

              「全数調査なら何でもわかる」という誤解 - 間違えがちな母集団とサンプリングそしてベイズ統計 - - ill-identified diary
            • 【完全網羅】統計検定2級チートシート | とけたろうブログ

              統計検定2級に満点で合格するために必要な全知識を紹介します。試験範囲に含まれているようで実際には出題されていないものはバッサリとカットしています。 受検前の知識の確認に使ってください! 1変数,2変数の記述統計の分野 代表値 ヒストグラム…データをいくつかの階級に分けて,縦の長さが度数,横の長さが階級の幅に等しい長方形で表したグラフ データの範囲…最大値ー最小値 中央値…データを大きさの順に並べたときの中央の値です。データが偶数個のときは,中央に並ぶ2つの値の平均です。 四分位数…データを大きさの順に並べて中央値(第2四分位数)で2つに分けるとき,第1四分位数は値の小さいグループの中央値,第3四分位数は値の大きいグループの中央値 四分位範囲…第3四分位数ー第1四分位数 箱ひげ図…データの散らばりを,第1四分位数と第3四分位数を両端とする箱と,最大値,最小値を端とするひげで表した図 相対度数

                【完全網羅】統計検定2級チートシート | とけたろうブログ
              • 50代になってから始めた数学の学び直しを振り返り、独習ノートを晒します。

                PDFを見返すと独習を始めた頃の線形代数のノートはほとんど殴り書きで、単に計算用紙としてノートを使っています。微分積分に入ると少しはましになってきますが、頭に入れたい概念の定義や定理の証明を何度も書き直したりしています。また独習ですから間違った理解を正しいと思い込んだまま証明を書いて、分かったつもりになっている箇所も少なからずありそうです。とまれ上記の表に挙げた各書籍に曲がりなりにも取り組んだことを示す、書証のつもりでノートを晒しました。 余談ですが、使用したノートは、PLUS の品番 NO-204GS (A4 G罫 5mm方眼 40枚) という方眼ノートです。また筆記用具は当初シャープペンシルを使っていましたが、「オイラーの贈物」からは万年筆に替えました。プラチナ#3776センチュリーUEF(超極細字)を使っています。 1.3 私について 本記事の作者であり学び直しをした本人である私は、

                  50代になってから始めた数学の学び直しを振り返り、独習ノートを晒します。
                • 『「誤差」「大間違い」「ウソ」を見分ける統計学』は既に統計学を学んだ人がさらなる理解の深みと多様さを求めて読むべき「副読本」 - 渋谷駅前で働くデータサイエンティストのブログ

                  「誤差」「大間違い」「ウソ」を見分ける統計学 作者:デイヴィッド・サルツブルグ共立出版Amazon しばらく前に共立出版様からご恵贈いただいたのがこちらの『「誤差」「大間違い」「ウソ」を見分ける統計学』。お気付きの方もいらっしゃるかもしれませんが、原著者デイヴィッド・ザルツブルグは『統計学を拓いた異才たち―経験則から科学へ進展した一世紀』で知られる生物統計学者で、その彼の近著です。なお本書の訳者の一人竹内惠行氏は『統計学を拓いた〜』の翻訳も手がけており、同じチームによるいわば「続編」的な一冊と言って良いかと思います。 前著は割と分厚い「統計学史」についての「読み物」という雰囲気の強い一冊でしたが、本書はそれに比べると古今東西の統計学がキーワードとなった幅広い分野における実例を挙げつつ、同時に統計学の具体的なポイントについての解説を加えていくというスタイルで書かれており、いわば統計学テキスト

                    『「誤差」「大間違い」「ウソ」を見分ける統計学』は既に統計学を学んだ人がさらなる理解の深みと多様さを求めて読むべき「副読本」 - 渋谷駅前で働くデータサイエンティストのブログ
                  • 何から勉強始めたらいい?(非情報系が機械学習を使う研究をしたいとき) - 木曜不足

                    以前、「非情報系が機械学習を使う研究をしたいとき」という記事を書きましたが、内容の半分はサイボウズ・ラボユースの宣伝だったんで、今回はタイトル詐欺じゃあないことも書きます。 いままで機械学習や深層学習に縁のなかった人が、それを使った研究を始めたいとなったとき、共通して直面する大きな課題は「何を優先的に勉強したらいいか」と「実験用の環境(PC)をどのように整えたらいいか」でしょう。 今回は何から勉強する? という話。 機械学習そのもの(特に自分が使おうとしているモデル)を学ぶのは必須に決まっているので、機械学習を使う上で必要となる前提知識を学ぶ優先順位について考えてみます。 機械学習(深層学習を含む)を使う上でキーになる前提知識は、数学(特に解析・線形代数・統計)とプログラミングを含む情報科学であることは意見の一致するところだと思います。 情報系の人なら、情報科学はさすがにやってます。プログ

                      何から勉強始めたらいい?(非情報系が機械学習を使う研究をしたいとき) - 木曜不足
                    • 書評 「統計学を哲学する」 - shorebird 進化心理学中心の書評など

                      統計学を哲学する 作者:大塚 淳発売日: 2020/10/26メディア: 単行本(ソフトカバー) 本書は応用統計学にも造詣の深い科学哲学者大塚淳による統計学の哲学の入門書になる.序章では本書について「データサイエンティストのための哲学入門,かつ哲学者のためのデータサイエンス入門」だとある. これまで読んだ統計学の哲学についてはソーバーの「科学と哲学」がなかなか面白かった.本書ではソーバー本では扱っていなかった因果推論や深層学習についても論じられていて,そのあたりも勉強したいと思って手に取った一冊になる. 序章 統計学を哲学する? 序章では本書のねらいと構成が書かれている.ねらいとしては,上記の入門書というだけでなく,「統計は確固とした数理理論であり,そこに哲学的思弁が入り込む余地はない」とか「統計は単なるツールであり,深遠な哲学とは無縁だ」とかいう誤解を解きたいということが挙げられている.

                        書評 「統計学を哲学する」 - shorebird 進化心理学中心の書評など
                      • 数字のバラ付きを考慮して意思決定する技術 - Hatena Developer Blog

                        こんにちは。MackerelチームでCRE(Customer Reliability Engineer)をしているid:syou6162です。主にカスタマーサクセスを支えるデータ基盤の構築や、データ分析を担当しています。 意思決定をする際には不確実性がつきまといますが、不確実性を信頼区間という形で考慮して意思決定を行なおう、という話をします。 この記事ははてなエンジニア Advent Calendar 2020の4日目の記事です。 前日はid:dekokunさんによるGoogle Cloud の Associate Cloud Engineer 資格を取得するためにした勉強でした。 数字のバラ付きを考慮して意思決定したいケース: NPSでの事例 統計学を使って数字のバラ付きを考慮する: 信頼区間 NPSの信頼区間をSQLで計算する まとめ 数字のバラ付きを考慮して意思決定したいケース: N

                          数字のバラ付きを考慮して意思決定する技術 - Hatena Developer Blog
                        • 統計学・機械学習を自分なりに概観してみた - Qiita

                          *この記事は統計学や機械学習を専門としていない学生が書いた主観的なまとめ記事です。間違いが含まれている可能性があります。 統計学・機械学習を学んでいると、たくさんの手法や考えが出てきてよくわからなくなります。 特に自分が何かに取り組んでいるときには、今やっている手法が全体から見てどういうものなのか、より良い手法が無いのかが気になってしまいます。 まるで地図を持たず森の中を彷徨っているような感覚です。 そこで、統計学・機械学習で使われる概念や手法を自分なりにまとめて頭を整理したいと思います。 以下のような図になりました。 以下にそれぞれを説明します。 数理科学 統計学・機械学習のベースとなる学問です。 主に解析学、代数学、幾何学からなります。 微分積分学と線形代数学が基本になってるのは言うまでもないと思います。 その他に個人的に関わりが深いと思う分野を3つ挙げます。 確率論 大数の法則(中心

                            統計学・機械学習を自分なりに概観してみた - Qiita
                          • データサイエンスのための統計学入門 第2版

                            データサイエンスにおいて重要な統計学と機械学習に関する52の基本概念と関連用語について、簡潔な説明とその知識の背景となる最低限の数式、グラフ、RとPythonのコードを提示し、多面的なアプローチにより、深い理解を促します。データの分類、分析、モデル化、予測という一連のデータサイエンスのプロセスにおいて統計学の必要な項目と不必要な項目を明確にし、統計学の基本と実践的なデータサイエンス技法を効率よく学ぶことができます。データサイエンス分野における昨今のPython人気を反映し、第1版ではRのみの対応だったコードが、今回の改訂でPythonにも対応。コードはすべてGitHubからダウンロード可能です。 日本語版まえがき 訳者まえがき まえがき 1章 探索的データ分析 1.1 構造化データの諸要素 1.1.1 さらに学ぶために 1.2 テーブルデータ 1.2.1 データフレームとインデックス付け

                              データサイエンスのための統計学入門 第2版
                            • 【統計検定1級】データ解析のための数理統計入門を読む | とけたろうブログ

                              ―本書は統計検定の準1級と1級(統計数理,統計応用)の内容にもほぼ対応している―初版第2刷以降の「はじめに」には,この文言が入っています。はたして,これは本当か,本稿では忖度なく一刀両断にしていきます。 本書(以下,青本と呼ぶ)は2023年10月に共立出版から出版されました。現在,著者の久保川達也先生は東大経済学研究科の教授であり,同じ出版社から出ている「現代数理統計学の基礎(以下,白本と呼ぶ)」の著者としても有名ですね。著者の慧眼によって様々な統計手法の本質が審らかにされていく様子は読んでいてとても刺激的であり,青本は私も好きな1冊です。本稿を読んで興味をもった人は,本書をぜひ購入してみてください。 青本は統計検定1級対策として適している 準1級は統計学の初学者や文系出身者でも努力すれば合格できる知識主体の試験であるのに対して,1級は難関国立大学理系2次試験を彷彿とさせるガチの数学力勝負

                              • 信頼区間と不確かさ(“α = 7.297 352 569 3(11)×10⁻³”とは一体何を意味するのか) - Qiita

                                このとき、測定値の標本平均は$$\bar{T}=\frac{1}{N}\sum_iT_i=2.00\,\text{s}$$、標本不偏分散は$$s^2=\frac{1}{N-1}\sum_i(T_i-\bar{T})^2=1\times10^{-3}\,\text{s}^2$$、標準不確かさ6をタイプA評価すると、$$\frac{s}{\sqrt{N}}=1\times10^{-2}\,\text{s}$$である(ただし以下$N=10$)。学生がこの実験レポートを書くとき、こう記述することになるだろう。 $$T=2.00(1)\,\text{s}$$ 数理モデルの世界 このとき、次のような数理モデルを考える。 仮定0 :$x_1,\dots,x_N$は平均$\mu$の独立同分布に従う確率変数の実現値である。 仮定1 :$x_1,\dots,x_N$が従う分布は正規分布である。 仮定2 :$N

                                  信頼区間と不確かさ(“α = 7.297 352 569 3(11)×10⁻³”とは一体何を意味するのか) - Qiita
                                • 評点の分布が滑らかでないのは不自然なのか - お勉強メモ

                                  話題の評点分布についての自分用まとめです。 特に統計的な議論においては各々想定している状況が違っているようなので整理してみました。 筆者は統計というよりは確率の人間なので、ベイズだとかには触らずに確率変数の演算ばかり使います。 大数の法則が使えるような状況 店 の真の評点 が宇宙のどこかに存在していて、レビュワー の 店 に対する評点 は平均 を持つ独立同分布な確率変数と考えます。 店 の評点 は 件のレビューが付いていたときに と書けます*1が、これはレビュワーが増えていくと に収束することが知られています。 確率変数である を仮に に置き換えて考えれば、もはや評点分布は何ら確率的な性質を持ちません。 宇宙のどこかに存在している の値は3.6が多いかもしれませんし3.8が多いかもしれませんし、そうでないかもしれません。 レビュワー数は実際には有限なので収束せず幾らかは確率的なところがある

                                    評点の分布が滑らかでないのは不自然なのか - お勉強メモ
                                  • 効果検証入門 1章の個人的最難関だった t 検定の話 - 俵言

                                    はじめに 巷で話題になっているアイツを僕も読み始めてます。(他の本も読まないといけないのに) 効果検証入門〜正しい比較のための因果推論/計量経済学の基礎 作者:安井 翔太出版社/メーカー: 技術評論社発売日: 2020/01/18メディア: 単行本(ソフトカバー) 初歩的な所から理解したいという気持ちで輪講で1章の担当になり資料を作っていたのですが、有意差検定のあたりで頭がバグったので t 検定の復習をして行間を埋めることになりました。 これのせいもあって1.3節だけスライドのボリュームが多い— 俵 (@tawatawara) February 20, 2020 おそらく1章で一番( 無駄に*1 )頑張ってしまったので、その内容を備忘録がてら書くことにします*2。統計全然わからんので、変なこと言っててもつよつよ勢はどうかヤサシクシテホシイ.... 介入(ガチ勢からのいいね)によって急激に書

                                      効果検証入門 1章の個人的最難関だった t 検定の話 - 俵言
                                    • 読書メモ:統計学を哲学する(大塚淳 著) - 重ね描き日記(rmaruy_blogあらため)

                                      統計学を哲学する 作者:大塚 淳 発売日: 2020/10/26 メディア: 単行本(ソフトカバー) 発売後すぐに入手し、夢中になって読んだ『統計学を哲学する』。とても大事な本だと感じ、Twitterで次のような(押しつけがましい)投稿もした。 大げさに聞こえるかもしれないことを言います。大塚淳『統計学を哲学する』は、自然科学・情報科学に従事する日本語圏のすべての学生や研究者が、まる一週間手元の勉強や研究を止めてでも読む価値のある本だと思います。https://t.co/DHQ1SwnuKb — R. Maruyama (@rmaruy) 2020年10月28日 ところがその後、書店で『統計学を哲学する』を眺めたという知り合いから、次のようなことを言われた。 「哲学者が統計学を語る意味がよくわかりません。」 「数ページ読んでみたけど、哲学用語が頭に入ってこず、やめてしまいました。」 これに

                                        読書メモ:統計学を哲学する(大塚淳 著) - 重ね描き日記(rmaruy_blogあらため)
                                      • GPT搭載・教育用AIフィードバックシステムを無料公開しました|遠藤太一郎

                                        東京学芸大学 教育AI研究プログラム / ㈱カナメプロジェクトの遠藤太一郎です。教育現場でのAI活用に関して、色々な試みをしています。最近、こんな記事も書きました。 さて、話題の生成AIですが、ものすごい勢いで開発が進み、出来ることもどんどんと増えてきています。ChatGPTを授業に活用している先生方も少なくないのではないでしょうか? 一方で、本格的に試そうとするとある程度の「自動化」が必要で、なかなかハードルが高いのではないかとも思います。 そこでGPT-4o等を使い、簡単に、まとめてAIがフィードバックを生成するシステムを作りました。これを、無料で公開します! 以下、公開の経緯も含めて詳しくご説明していきます。 システム無料公開の経緯東京学芸大学の「教育のためのデータサイエンス」という授業で、毎週上がってくる出席レポートに対し、AIがフィードバックする仕組みを導入しました。 500人ほ

                                          GPT搭載・教育用AIフィードバックシステムを無料公開しました|遠藤太一郎
                                        • プログラミングのための確率統計-Ohmsha

                                          第I部 確率そのものの話 第1章 確率とは 第2章 複数の確率変数のからみあい 第3章 離散値の確率分布 第4章 連続値の確率分布 第5章 共分散行列と多次元正規分布と楕円 第II部 確率を役立てる話 第6章 推定と検定 第7章 擬似乱数 第8章 いろいろな応用 付録 付録A 本書で使う数学の基礎事項 付録B 近似式と不等式 付録C 確率論の補足 第I部 確率そのものの話 第1章 確率とは 1.1 数学の立場 1.2 三つの扉(モンティホール問題) ――― 飛行船視点 1.2.1 モンティホール問題 1.2.2 正しい答とよくある勘違い 1.2.3 飛行船視点への翻訳 1.3 三つ組(Ω,F, P) ――― 神様視点 1.4 確率変数 1.5 確率分布 1.6 現場流の略記法 1.6.1 確率変数の記法 1.6.2 確率の記法 1.7は裏方 1.7.1の正体にはこだわらない 1.7.2のと

                                            プログラミングのための確率統計-Ohmsha
                                          • 書評 「「誤差」「大間違い」「ウソ」を見分ける統計学」 - shorebird 進化心理学中心の書評など

                                            「誤差」「大間違い」「ウソ」を見分ける統計学 作者:デイヴィッド・サルツブルグ共立出版Amazon 本書は「統計学を拓いた異才たち」の著者デイヴィッド・サルツブルグによる一冊.「統計学を拓いた異才たち」は統計学史を中心に一般向けに逸話をたくさん交えて楽しく書かれていて,同じような楽しい本だろうと手を出した.ところが実は本書はもともと「科学と社会のための統計的推論」シリーズの一冊として書かれており,ある程度専門知識がある読者が想定されているようで,統計的論理になじみのない読者にはやや取っつきにくい本になっている.内容的には,統計学全般ではなくいくつかのテーマに絞って書かれている.原題は「Errors, Blunders, and Lies: How to Tell the Difference」 序文では自分は50年以上も統計学の裏庭の泥や汚泥を掘り返すことに喜びを感じてきたと振り返り,その

                                              書評 「「誤差」「大間違い」「ウソ」を見分ける統計学」 - shorebird 進化心理学中心の書評など
                                            • リーディングDAT | 統計数理研究所 統計思考院

                                              思考院トップ 統計思考院の事業活動 リーディングDAT 2022年度 リーディングDAT無料動画 思考院トップ 統計思考院の事業活動 統計教育動画配信 リーディングDAT無料動画 情報・システム研究機構 データサイエンス高度人材育成プログラム リーディングDAT無料動画 ※2023/6/30に「3. 因果と相関」の一部の図を差し替えた動画を公開しました。内容には変更ありません。 リーディングDAT講座の動画公開について ここでは、2021年度リーディングDAT L-A講座(4日間)の前半2日間分、および、関連して作成された補助動画を無料で公開しています。後半2日間分は有料の講座として開催中で、当面は公開の予定はありません。講義の特徴などについてはこちら(所外 YouTube)の動画をご覧ください。 ・動画中で言及されている「付録」については各講師の判断で一部のみPDFで提供します。また、も

                                              • より正しい意思決定のための統計的仮説検定とサンプルサイズ計算 - Gunosyデータ分析ブログ

                                                はじめに こんにちは、Gunosy Tech LabのBIチームに所属しているクボタです。 Gunosyではアプリ内のロジックやUI等の変更において数値ベースでの意思決定を行なっています。 例えば新たなキャンペーンでのCVR増加やUI変更によるA/Bテストでのクリック数増加の効果検証などで統計的に裏打された手法を用いることで正しく意思決定を行うことを目指しています。 data.gunosy.io 本記事ではそのような状況で必要となるサンプルサイズの設計や統計的仮説検定のお話をさせていただきます。 はじめに 検定手法の選択 統計的仮説検定の手順 比較する指標の選定 帰無仮説 と対立仮説 の決定 検定統計量の選定 有意水準の決定 検出力の決定 効果量の決定 サンプルサイズの計算 ノンパラメトリック検定 多重比較 おわりに 参考文献 検定手法の選択 数値による意思決定を行う際に検定はよく利用され

                                                  より正しい意思決定のための統計的仮説検定とサンプルサイズ計算 - Gunosyデータ分析ブログ
                                                • ABテストにおける分散削減手法①〜少ないサンプルから小さな改善効果を検出する〜|あならいずパンダ

                                                  マネーフォワード 分析推進部の石田と申します。 社内では、データサイエンティストとして施策効果検証系の案件を中心に担当しています。 本稿から2回に渡って、「ABテストにおける分散削減手法」というテーマで記事を執筆したいと思います。 馴染みのない方もいらっしゃるかもしれませんが、ABテストへ分散削減手法を適用することで、例えば以下に挙げたメリットを享受することができます。 必要サンプルサイズを低減できるため、意思決定サイクルを高速化できる より小さな改善効果を検出できる 魅力的だと感じていただけた方は、ぜひ最後まで本稿をお読みください! 目次 想定する読者層と書いてある内容本稿のメインターゲットは、以下のような方です。 統計的仮説検定の理論を少し勉強したことがあるけど、分散削減と言われてもあまりピンと来ていない 確率変数、標本平均、分散、正規分布の意味は分かるけど、t検定の検定統計量がパッと

                                                    ABテストにおける分散削減手法①〜少ないサンプルから小さな改善効果を検出する〜|あならいずパンダ
                                                  • Python・データマイニング・統計・機械学習帳など、データサイエンスを無料で勉強できる教材6選 | Ledge.ai出張所

                                                    2022年はデータサイエンスという言葉が色々な場所で聞かれる1年だったと思います。今回は、2023年にもっと多くの人が興味を持つであろうデータサイエンスを無料で学べる教材6選を紹介したいと思います。これらの教材は、アメリカの大学で統計学や機械学習などを勉強している筆者が実際に利用したり、利用しようと思っているものです。Pythonや統計学、機械学習を学んでみたいと思っている方はぜひ活用してみてください。また、この記事の最後にはレッジAIが今までに紹介してきた学習コンテンツ紹介の記事へのリンクもあるのでぜひそちらもチェックしてみてください。 筑波大教授が著した無料の初心者向けPython教材筑波大学の三谷純教授によって著されたスライド教材で、2021年5月に初公開され、2022年2月に大幅に内容が更新された新たな改訂版が公開された。同スライドは三谷教授の著書である「Python ゼロからはじ

                                                      Python・データマイニング・統計・機械学習帳など、データサイエンスを無料で勉強できる教材6選 | Ledge.ai出張所
                                                    • 統計検定準1級に受かるための勉強法・参考サイト

                                                      2022/02/15 初稿 2022/02/15 細かな修正 2022/04/20 一部リンク先の動画について注釈を追加 この度、無事に統計検定準1級に合格したので勉強法、参考にしたサイトなどを共有しようと思います。 バックグラウンド 非理数∧非情報系大学生 →高校数学は数学Ⅲまでできる。いわゆる大学数学は教養で軽く学んだ程度(偏微分、固有値ベクトルを求めるくらいはできる)。 機械学習に関しての予備知識は少しある。 統計WEB-BellCurveで2級範囲の内容は履修済みで2級に受かりそうな知識はあった。(自称) →過去問解いて合格できそうになったし今週末で2級申し込みするで~ →直前過ぎて無理ですと断られる →大学の試験期間に入る →気がつけば受けずじまい 件のワークブックが出版され、これがあるなら準1級いけるやろと思い初版で購入するも挫折 といったところです。 2021年12月の中頃く

                                                        統計検定準1級に受かるための勉強法・参考サイト
                                                      • レスポンスタイムの平均 - happy_siro's blog

                                                        人間が目で、今と過去のレスポンスタイムを比較して遅くなっている・早くなっているを判断すると正確な判断ができないこともあるし、正確な判断ができるかどうかが人によってしまいそうです。 また、うちのチームでは二週間に一度ぐらい、主だったエンドポイントのレスポンスタイムが悪化していないかを点検していたんですが、なかなか忙しくて手が回らなくなってきてしまいました。 レスポンスタイムが悪化していないかは、過去のある時点のレスポンスタイムと、現時点のレスポンスタイムを比較し、差がない事がいえればよさそうです。 この比較は、標本平均に差があるかどうかを検定することで、行う事ができます。 この記事では、標本平均の差の検定をするための基礎知識についてまとめます。 中心極限定理 レスポンスタイムの母平均は、レスポンスタイムの確率分布がわかっていれば直接求められます。その差を検定することもできそうです。しかし、レ

                                                          レスポンスタイムの平均 - happy_siro's blog
                                                        • ゼロから作るDeep Learning ❺

                                                          人気シリーズの第5弾。今回のテーマは「生成モデル」です。本書では「正規分布」から「拡散モデル」に至るまでの技術を繋がりのあるストーリーとして展開します。読者は小さな学びを積み重ねながら、ステップバイステップで実装し、最終的には「Stable Diffusion」のような画像生成AIを完成させます。技術の面白さは細部にあります——ゼロから作る、数式に挑む。 まえがき ステップ1 正規分布 1.1 確率の基礎 1.1.1 確率変数と確率分布 1.1.2 確率分布の種類 1.1.3 期待値と分散 1.2 正規分布 1.2.1 正規分布の確率密度関数 1.2.2 正規分布のコード 1.2.3 パラメータの役割 1.3 中心極限定理 1.3.1 中心極限定理とは 1.3.2 中心極限定理の実験 1.4 サンプル和の確率分布 1.4.1 サンプル和の期待値と分散 1.4.2 コードで確かめる 1.4.

                                                            ゼロから作るDeep Learning ❺
                                                          • 【書評】「統計学入門」を読んでみた感想と内容紹介 - GMO RESEARCH Tech Blog

                                                            システム部の福原です。 最近はデータ分析事業に従事しています。 社でも新しい取り組みで、試行錯誤の毎日です。 また、個人としてもデータ分析の基礎を学びたいと思ったので、統計学の勉強をしています。 そこで、いろいろなところで紹介されている統計学入門を読んでみました。 https://www.amazon.co.jp/dp/4130420658 この書評を書いてみたいと思います。 はじめに、至極簡単に読んだ感想をお伝えしておくと、統計の基礎を一通り学びたい人におすすめできると思いました。 詳しい感想・読んだ印象は一番最後にまとめてあります(目次からも飛べます)。 それでは、内容紹介に入っていきますので、この本の内容が気になる方は読んでみて下さい。 大まかな内容紹介 多数の数字データの特徴や傾向を知りたい。 特にそれぞれのデータではなく、全体的な傾向が知りたいと考えたとします。 そのための数字デ

                                                              【書評】「統計学入門」を読んでみた感想と内容紹介 - GMO RESEARCH Tech Blog
                                                            • 『現代数理統計学の基礎』章末演習問題解答 (答案) - Qiita

                                                              0.はじめに 『現代数理統計学の基礎』(久保川達也 著)の章末問題の答案を作成する.略解は久保川先生がこちらのサイトに掲載して下さっているが,「略解」なだけあって途中式がかなり端折られていたり,エレガントすぎて凡人では思いつきようのない解答だったりするので,多少計算がゴツくなったとしても庶民的な答案を心がける.また必要に応じて答案とは別に必要な知識の確認を行う. 各リンクから問題の方針と答案に飛べる. 1.確率 (易) ベン図書く (易) 和事象,積事象の性質 (易) 条件付き確率と同時確率 (易) 部分集合についての確率 (易) 条件付き確率の典型問題 (易) 条件付き確率の典型問題2 (易) 因果関係と相関関係,独立性 (易) 和事象と確率の和 2.確率分布と期待値 (標準) 分布関数,密度関数の定義 (標準) 分布関数,密度関数の定義2 (標準) 分布関数,密度関数の定義3 (標準)

                                                                『現代数理統計学の基礎』章末演習問題解答 (答案) - Qiita
                                                              • 推測統計フローチャート(推定、検定を考えるにあたっての解法の整理) - あつまれ統計の森

                                                                中心極限定理などに基づいて母集団の確率分布のパラメータの点推定・区間推定や、パラメータに関する仮説の検定を行う推測統計は、基本的な考え方は一貫している一方で推定の対象や分散の既知・未知などに置ける場合分けなど、関連する概念が多くわかりにくい。 そのため当稿では解法の整理の補助となるように、推測統計に関連するトピックをフローチャートの形式にまとめる。作成にあたっては、「基礎統計学Ⅰ 統計学入門(東京大学出版会)」の$9$章〜$12$章を主に参考にした。 大枠の整理 推測統計を考える際の前提 推測統計を考える際に前提となるのが母集団(population)と標本(sample)である。記述統計学(descriptive statistics)では得られた標本についてのみ考えるが、得られた標本の裏側の母集団についても考察を行うのが推測統計である。 推測統計では母集団の持つ分布である、母集団分布(

                                                                  推測統計フローチャート(推定、検定を考えるにあたっての解法の整理) - あつまれ統計の森
                                                                • Neural Tangentsによる無限幅深層ニューラルネットワークの構築とベイズ推論

                                                                  要点¶Neural TangentsはGoogle AIが開発したJAXのラッパーライブラリです。無限幅 (中間層のユニット数$\to \infty$)のニューラルネットワーク (以後, NN: neural networks)を高速かつ簡単に構築及び学習させることを目的としています。 Neural Tangentsでは無限幅のNNを学習させる手法としてNNGP (Neural Network Gaussian Process)と NTK (Neural Tangent Kernel)の2つを実装しています。 この記事ではNNGPとNTKの要点を紹介し、Neural Tangentsを用いた実装について紹介していきます。 Neural-Tangentsに関連する文献¶ Paper : https://arxiv.org/abs/1912.02803 OpenReview : https:/

                                                                  • 2020年度講義情報ページ

                                                                    講義 九州大学集中講義「深層学習および機械学習の数理」 2020年9月2日~4日 講義資料 資料1:機械学習概要・統計的学習理論 資料2:統計的学習理論・汎化誤差解析の理論 資料3-0:カーネル法の導入とガウス過程回帰 資料3-1:カーネル法と再生核ヒルベルト空間 資料4:再生核ヒルベルト空間の性質 資料5:カーネル法の学習効率 資料6:再生核ヒルベルト空間における最適化/深層学習とカーネル法の繋がり (8/29改訂) 資料7:深層学習の数理 統計数学セミナー 発表スライド レポート課題:pdf 広島市立大学集中講義「カーネル法と深層学習の数理」 2020年8月28日~29日 講義資料 資料1:機械学習概要・統計的学習理論. 資料2-0:カーネル法の導入とガウス過程回帰. 資料2:カーネル法と再生核ヒルベルト空間. (背景無し版) 資料3:再生核ヒルベルト空間の性質. (背景無し版) 資料

                                                                    • ■タートルズの全貌 を読んで - 思考と読書【お金・健康・人間関係 編】

                                                                      伝説のトレーダー集団 タートルズの全貌 作者:マイケル・W・コベル 発売日: 2019/03/26 メディア: 単行本 書名:タートルズの全貌 著者:マイケル・w・コベル ●本書を読んだきっかけ トレンドフォロー戦略について 学びたいと思いAmazonで検索 していると本書に出会った 手ごろな値段でもあったのと 「トレンドフォロー大全」の 入門的な書にも見えたので購入 ●読者の想定 業務拡大につき人材募集 (400ドルを2億ドルに増やした) 独自のトレーディング手法を教えます ↑ こんな求人見てピンときた人 ①市場でトレードしている人、これからする人 ②ファンダメンタルズ分析の ファンドマネージャー ③一般及び裕福な投資家、資産家 ④学生、学校関係者 ⑤ファイナンシャルプランナーなど 運用に関係のある職業の方 ⑥その他、一般の読者 要は全ての人が対象 ●本書の説明 監訳者まえがき トレンド

                                                                        ■タートルズの全貌 を読んで - 思考と読書【お金・健康・人間関係 編】
                                                                      • 標本数が多い場合の標本平均はガウス分布になる誤解の多い話 - HELLO CYBERNETICS

                                                                        はじめに 中心極限定理 標本数 なぜに標本数を必要とするか 標本平均 標本平均の分布の極限 中心極限定理の誤用 データで見る標本平均の分布 ある標本の分布(データの分布) とある標本の代表値:標本平均 1000人の研究者に協力してもらう 本当の中心極限定理 補足 最後に はじめに 中心極限定理と呼ばれるガウス分布にまつわる恐ろしく強力な定理に関して、勘違いが出てくることが多いようなので、勘違いが出る理由と実例について簡単に見ます。 中心極限定理 中心極限定理とはコトバに「極限」が含まれている通り、何かを無限大に飛ばしたときに何かが(非自明な)極限値を持つことを述べた定理です。 標本数 ここで重要なコトバとして「標本数」というのを見ておきましょう。 不慣れな場合だと、標本とかサンプルと言ったとき、何か1つのデータのように思ってしまうのではないでしょうか。統計学のコトバとして使わない限りは、例

                                                                          標本数が多い場合の標本平均はガウス分布になる誤解の多い話 - HELLO CYBERNETICS
                                                                        • 気がつくと忘れている統計の細々したこと - Qiita

                                                                          かつて統計を一生懸命勉強したladies & gentlemen 普段pythonとかRとかexcelとかmatlabとかがいい感じにしてくれるので、逆に基本的なことが飛んでいませんか。私は飛んでいます。ここでは一旦、忘れられがちな統計の概念を、今一度復習したいと思います。忘れたことすら忘れられた概念もあると思いますが、思い出したら追記します。 確率変数の定義ってなんだっけ? 確率変数 (stochastic variables)は、確率的に値が決まる変数のこと。試行をしないと値がわからない。 (例)サイコロが出る目は、$X = 1, 2, 3, 4, 5, 6$ の確率変数 中心極限定理ってなんだっけ? 中心極限定理 (Central limit theorem)は以下のように書ける。 ある母集団が平均$\mu$、分散$\sigma^{2}$の分布であるとする。正規分布でなくてもOK。そ

                                                                            気がつくと忘れている統計の細々したこと - Qiita
                                                                          • 統計学公式集 - Qiita

                                                                            はじめに この資料は,統計検定準1級までの範囲を一通り学習した人のためのものである。 導出や解説を省いて,問題を解くために必要な公式のみをまとめてある。 参考は「統計検定準1級対応 統計学実践ワークブック」(日本統計学会) 離散型分布,連続型分布,分散分析と実験計画法に関しては,表記の都合上別途まとめることとする。 なお,以下の議論において,厳密性は度外視している。 序章 2級の内容軽くまとめ スタージェスの公式 データ数$n$に対するクラスの数$k$ $$ k=\color{red}{1+3.322 \log_{10} n} $$ フィッシャーの3原則&抽出法 〇フィッシャーの3原則 $$ \color{red}{\mbox{無作為化,繰り返し(反復),局所管理}} $$ 〇抽出法 $\color{red}{\mbox{単純無作為抽出}}$ 母集団から全ての個体が等しい確率で選ばれる。大

                                                                              統計学公式集 - Qiita
                                                                            • 統計学 標準演習100選 〜確率、推測統計、回帰、応用、数理統計学〜 - あつまれ統計の森

                                                                              統計学の理解にあたって行っておくとよい重要な演習について、$100$題を厳選して取りまとめを行う予定です。 それぞれの主要トピックの導出の流れを取り扱ったり、解答・解説ありきで作成を行なったりなど、理解度の確認用の問題ではない場合も多いので、$1$周目については解答を読みながら理解する形式で進めると良いと思います。解法を抑えて類題が解ければ十分なものが多いです。 確率・確率分布 確率分布② Q.$1$ 超幾何分布と母分散の有限修正 Q.$2$ 重複組合せと負の二項分布 Q.$3$ 多項分布 Q.$4$ コーシー分布 Q.$5$ 対数正規分布 「確率分布①」は「基本演習$100$選」で取り扱いました。 区間推定 等比数列の和・マクローリン展開と離散確率分布の確率母関数 Q.$1$ 確率母関数の定義と期待値$E[X]$・分散$V[X]$の対応 Q.$2$ ベルヌーイ分布・二項分布の確率母関数と

                                                                                統計学 標準演習100選 〜確率、推測統計、回帰、応用、数理統計学〜 - あつまれ統計の森
                                                                              • 新型コロナウイルスを封じ込めるために必要な自粛度合いを定量化してみる - Qiita

                                                                                はじめに 新型コロナウイルス感染症(COVID-19)は、世界中で猛威を振るっており、中国・欧州・米国・アジアなど様々な地域で都市封鎖、いわゆるロックダウンが実行されています。日本においても、4月4日現在、国内での感染者は3360名で、東京都は891名となっており、週末の外出自粛や特定飲食業の回避を知事が要請する事態となっています。また、東京・大阪など都心部だけでなく、全国的な広がりを見せつつあり、まさにオーバーシュートが生じる緊急事態に限りなく近い状況と言えるでしょう。そのような緊急事態を回避するため、政府の専門家会議などでは、3密空間(密閉・密集・密接)を避けるよう、盛んに呼び掛けをしています。 では、このような3密空間をどれだけ避ければいいのでしょうか?本記事では、感染拡大を防ぐために必要な3密空間の避け具合を数値として定量化してみたいと思います。 3密空間と基本再生産数 基本再生産

                                                                                  新型コロナウイルスを封じ込めるために必要な自粛度合いを定量化してみる - Qiita
                                                                                • それはベイズ統計学ではなくて、言わば情報量規準主義ですよ

                                                                                  統計学を専門としない数学者から、ベイズ統計学の事前確率を主観的と言うのはトンデモだという非難から、ベイズ主義や頻度主義と言う分類を考えるのは有害無益だからやめて、カルバック・ライブラー情報量に基づく“主義によらない”統計学を考えるべきだと主張が展開され、その他のオモシロ主張*1も含めて困惑が広がっている。 昨日から統計学にはやはり主義が要ると言う批判もされている*2のだが、“主義によらない”と言う誤った謳い文句に騙されている。統計学の主義は手順や解釈の方針である事に注意すると、カルバック・ライブラー情報量に基づいた統計手法と言うのは一つの主義である。情報量規準主義。 もう少し具体的に説明すると、ベイズ統計学の事前確率(先験確率)を、データから定まらないと言う意味で主観的なものではなく、データから定まると言う意味で客観的なものにしようと言うのが、情報量規準主義だ。情報量規準主義者はその始祖を

                                                                                    それはベイズ統計学ではなくて、言わば情報量規準主義ですよ