並び順

ブックマーク数

期間指定

  • から
  • まで

1 - 40 件 / 62件

新着順 人気順

統計的仮説検定の検索結果1 - 40 件 / 62件

  • データサイエンティストは何を勉強すべきか:「教養」と「必須」と「差別化」と - 渋谷駅前で働くデータサイエンティストのブログ

    (Image by Wokandapix from Pixabay) 個人的な観測範囲での話ですが、データサイエンティストという職業は「21世紀で最もセクシーな職業」として刹那的な注目を集めた第一次ブーム、人工知能ブームに煽られて火がついた第二次ブーム、そして「未経験から3ヶ月で人生逆転」ムーブメントと折からのDXブームに煽られる形で沸き起こった第三次ブームを経て、何だかんだで社会に定着してきた感があります。 で、このブログを始めた頃からの連綿と続くテーマになっていますが、いつの時代も話題になるのが「データサイエンティスト(になるに)は何を勉強すべきか」ということ。7年前から恒例にしてきた「スキル要件」記事では、基本的には「どれも必要な知識(学識)」であるという前提で分野・領域・項目を挙げてきました。少なくとも、最初の3回ぐらいはそういう認識でスキル要件記事を書いていた気がします。 ところ

      データサイエンティストは何を勉強すべきか:「教養」と「必須」と「差別化」と - 渋谷駅前で働くデータサイエンティストのブログ
    • 基礎から学ぶ統計学

      本章では、二項検定を学びます。二項検定は、本書で学ぶ統計手法の中では、最も使用頻度が低い手法です。しかし、統計学の入門に最適な学習項目です。理由が3つあります。第一に、高校1~2年で学んだ数学だけで、この手法の原理を完全に理解できます。統計手法はたくさんありますが、唯一この手法だけは、全て手作りの計算で実行できます。第二に、面倒な検定統計量の計算を必要としません。第三に、二項検定には、検定の論理の全てが詰まっています。こうした理由から、読者のお父さんやお母さん、もしくは、お爺ちゃんやお婆ちゃんの世代では、二項検定は、高校の数学の教科書で解説されていました。この「とても分かりやすい」という長所を、活用しない手はありません。本書では、統計学の学習を、二項検定から始めます。本章では、当時の大学入試の頻出問題をさらに簡単にした例題を使って、学びます。… 本書の使い方 統計学を学ぶ心がけ/予備知識/

        基礎から学ぶ統計学
      • 書評 「ダーウィンの呪い」 - shorebird 進化心理学中心の書評など

        ダーウィンの呪い (講談社現代新書) 作者:千葉聡講談社Amazon 本書は千葉聡による「ダーウィンの自然淘汰理論」(特にそれが社会にどのような含意を持つかについての誤解や誤用)が人間社会に与えた負の側面(本書では「呪い」と呼ばれている)を描く一冊.当然ながら優生学が中心の話題になるが,それにとどまらず様々な問題を扱い,歴史的な掘り下げがある重厚な一冊になっている. 冒頭ではマスメディアがしばしばまき散らす「企業や大学はダーウィンが言うように競争原理の中でもまれるべきであり,変化に対応できないものは淘汰されるべきだ」という言説を,まさに「呪い」であると憂いている.そしてそれが「呪い」であるのは,「進歩せよ,闘いに勝て,そしてそれは自然から導かれた当然の規範である」というメッセージがあるからだと喝破している(それぞれ,「進化の呪い」「闘争の呪い」「ダーウィンの呪い」と名付けられている). 第

          書評 「ダーウィンの呪い」 - shorebird 進化心理学中心の書評など
        • 『効果検証入門』はマーケティング実験&分析に関わる全ての人にお薦めの統計的因果推論の入門書 - 渋谷駅前で働くデータサイエンティストのブログ

          このブログを普段からお読みになっている皆さんはご存知かと思いますが、僕は割と口を酸っぱくして「マーケティングに携わるならきちんと実験して効果検証せよ、その介入がピュアな施策だろうと機械学習システムによるものだろうと変わらない」ということを折々に触れ言い続けています。 一方で、その効果検証の方法については純粋なRCT(ランダム化比較対照試験)でない限りは往々にして統計的因果推論が必要とされることが多く、その辺のマーケティングの現場で行われている「実験」と称するものを見ていると「それどう見ても交絡まみれやん」と言いたくなるケースが珍しくない、というのが現状のように見受けられます。しかし実務を意識した統計的因果推論の解説書はほぼ皆無に近い状態で、今年の恒例推薦書籍リスト記事を書きながら「相変わらず良い本がないなぁ」と思っていたのでした。 効果検証入門〜正しい比較のための因果推論/計量経済学の基礎

            『効果検証入門』はマーケティング実験&分析に関わる全ての人にお薦めの統計的因果推論の入門書 - 渋谷駅前で働くデータサイエンティストのブログ
          • バンディットアルゴリズムを用いた推薦システムの構成について - ZOZO TECH BLOG

            はじめに ZOZO研究所ディレクターの松谷です。 ZOZO研究所では、イェール大学の成田悠輔氏、東京工業大学の齋藤優太氏らとの共同プロジェクトとして機械学習に基づいて作られた意思決定の性能をオフライン評価するためのOff-Policy Evaluation(OPE)に関する共同研究とバンディットアルゴリズムの社会実装に取り組んでいます(共同研究に関するプレスリリース)。また取り組みの一環としてOPEの研究に適した大規模データセット(Open Bandit Dataset)とOSS(Open Bandit Pipeline)を公開しています。これらのオープンリソースの詳細は、こちらのブログ記事にまとめています。 techblog.zozo.com 本記事では、ZOZO研究所で社会実装を行ったバンディットアルゴリズムを活用した推薦システムの構成について解説します。バンディットアルゴリズムを用い

              バンディットアルゴリズムを用いた推薦システムの構成について - ZOZO TECH BLOG
            • 再現性問題のはなし - 渋谷駅前で働くデータサイエンティストのブログ

              経済セミナー2022年6・7月号 通巻726号【特集】経済学と再現性問題 日本評論社Amazon 最近は計量経済学・統計学方面の方々との交流が多いんですが、そのご縁で『経済セミナー』の2022年6・7月号が再現性問題を取り上げていたと知り、入手して読んでみました。特集部分の目次を以下に引用すると、 特集= 経済学と再現性問題 【鼎談】再現性の問題にどう向き合うか?……川越敏司×會田剛史×新井康平 心理学における再現性の危機――課題と対応……大坪庸介 経済学における再現性の危機――経済実験での評価と対応……竹内幹 フィールド実験・実証研究における再現性……高野久紀 健全な研究慣習を身に付けるための実験・行動経済学101……山田克宣 再現性問題における統計学の役割と責任……マクリン謙一郎 という内容で、幾つかの分野にまたがって論じられています。特に、このブログ含めて個人的に度々お世話になってい

                再現性問題のはなし - 渋谷駅前で働くデータサイエンティストのブログ
              • 書評 「統計学を哲学する」 - shorebird 進化心理学中心の書評など

                統計学を哲学する 作者:大塚 淳発売日: 2020/10/26メディア: 単行本(ソフトカバー) 本書は応用統計学にも造詣の深い科学哲学者大塚淳による統計学の哲学の入門書になる.序章では本書について「データサイエンティストのための哲学入門,かつ哲学者のためのデータサイエンス入門」だとある. これまで読んだ統計学の哲学についてはソーバーの「科学と哲学」がなかなか面白かった.本書ではソーバー本では扱っていなかった因果推論や深層学習についても論じられていて,そのあたりも勉強したいと思って手に取った一冊になる. 序章 統計学を哲学する? 序章では本書のねらいと構成が書かれている.ねらいとしては,上記の入門書というだけでなく,「統計は確固とした数理理論であり,そこに哲学的思弁が入り込む余地はない」とか「統計は単なるツールであり,深遠な哲学とは無縁だ」とかいう誤解を解きたいということが挙げられている.

                  書評 「統計学を哲学する」 - shorebird 進化心理学中心の書評など
                • 京都大学、データサイエンス講座のオンライン受講者募集を開始 | Ledge.ai

                  ※この記事はデータサイエンス専門メディア「Da-nce」からの転載です 京都大学は8月2日、「京都大学データサイエンス講座」と題したオンライン講座の受講生を募集開始した。「文系のための統計入門講座~統計検定®3級を目指して~」「データ分析に役立つ統計基礎講座 ~統計分析ソフトウェアR活用を目指して~」の2講座だ。 >>「京都大学データサイエンス講座 文系のための統計入門講座 ~統計検定®3級を目指して~」受講生募集について | 京都大学 >>「京都大学データサイエンス講座 データ分析に役立つ統計基礎講座 ~統計分析ソフトウェアR活用を目指して~」受講生募集について | 京都大学 はじめて統計を学ぶ人向けの「文系のための統計入門講座」文系のための統計入門講座は、統計学を初めて学ぶ人やデータ分析業務を始めてみたい人が対象。データ分析の手法を身に着け、身近な問題解決に生かす力が習得できるとされる

                    京都大学、データサイエンス講座のオンライン受講者募集を開始 | Ledge.ai
                  • 機械学習のデータドリフト検知を自動化する方法|Dentsu Digital Tech Blog

                    電通デジタルでデータサイエンティストを務める吉田です。 本記事では、機械学習においてモデル学習時点でのデータと推論時点でのデータが経時的に乖離を起こしていく、いわゆるデータドリフトの検知を自動化するために構築したワークフローについてご紹介いたします。 データドリフトによる機械学習モデルの劣化とは機械学習モデルを実運用していく際に課題になる事象の1つとして、データドリフトの問題があります。 一般的に、機械学習ではいくつかの特徴量Xに対する目的変数Yとの隠れた関係を定式化します。XとYの関係は時間が経つにつれて変化していくことがしばしばあり、これに伴って一度作成したモデルの推論精度も低下していきます。 簡単な例として、あるWebサービスにおいてサイト上の行動ログを元にユーザーごとにコンバージョンの発生を予測する機械学習モデルを作成したとします。このモデルは、「平均的に10分以上閲覧しているユー

                      機械学習のデータドリフト検知を自動化する方法|Dentsu Digital Tech Blog
                    • ポケモンを題材に因果推論を実践してみる - kanayamaのブログ

                      問題設定 有意差検定 交絡因子の存在 線形重回帰によるモデル化 回帰係数の推定 回帰係数の仮説検定 補足など 残差の分布について 他の交絡因子について データの生成方法について 参考文献 @tkanayama_です。最近「計量経済学*1」と「効果検証入門 *2」を読んだので、せっかくなので実際に手を動かすことによって理解の整理をしたいと思いました。 www.yuhikaku.co.jp gihyo.jp そこで今回は、人工データを用いて「ボールの性能と捕獲確率」の関係性を効果検証してみました(人工データの生成方法は記事の末尾に記述しました)。 問題設定 今は昔、モンスターボールしか存在せず、スーパーボールが世の中で出回り始めたばかりの頃、オーキド博士が「スーパーボールは本当にモンスターボールより捕まえやすいのか?」という仮説を検証しようとしています。 そこでオーキド博士は世界中のトレーナー

                        ポケモンを題材に因果推論を実践してみる - kanayamaのブログ
                      • [数理統計学]統計的検定のまとめ – かものはしの分析ブログ

                        都内の事業会社で分析やWebマーケティングの仕事をしています。大学・大学院では経済学を通じて統計解析を行うなどしておりました。企業に勤めてからは、機械学習やテキストマイニング、クローリング技術などに関心を持っています。 Twitterアカウント Mr_Sakaue( SKUE ) GitHub 読書メーター ほしいものリスト 通勤電車のなかで私が勉強する用のシリーズ第5弾です。今回は統計的検定についてまとめておこうと思います。 【これまでのシリーズへのリンク】 ・[数理統計学]統計的推定のまとめ ・[数理統計学]正規分布から導かれる分布(カイ二乗分布/t分布/F分布)の期待値と分散の導出まとめ ・[数理統計学]連続型確率分布の期待値と分散の導出まとめ ・ [数理統計学]離散型確率分布の期待値と分散の導出まとめ 目次 統計的仮説検定 検出力 一様最強力検定 ネイマン-ピアソンの基本定理 不偏

                          [数理統計学]統計的検定のまとめ – かものはしの分析ブログ
                        • 統計的仮説検定における効果量の概念と必要サンプルサイズの算出|Dentsu Digital Tech Blog

                          この記事について電通デジタルでデータサイエンティストをしている中嶋です。今回の記事では統計的仮説検定における検出力や効果量の概念及び、それらを考慮した事前のサンプルサイズ設計について説明します。読者層としては、既に統計的仮説検定の基本的な使い方を理解している方を主な対象としていますが、そうでない方にもわかるように最初に簡単な復習をします。 統計的仮説検定について 概要 統計的仮説検定(以下、仮説検定)とは、性質の異なるグループ間で平均や分散など各グループを代表するような数値を比較する際に、その差が偶然生じたものか、そうでなく何かしら必然性がありそうかを検証するための統計手法です。例えば比較分析したい2つの群(ex. ユーザーグループ)があった時にある指標(ex. 各群の年齢の平均値)を比較して、統計的に偶然ではないレベルで差異が生じているかを判定したいときに仮説検定を使うことができます。

                            統計的仮説検定における効果量の概念と必要サンプルサイズの算出|Dentsu Digital Tech Blog
                          • 2030年に不足する79万人のIT人材は、 技術者・専門家だけとは限らない DX推進に欠かせない「3種の人財」の重要性

                            経済産業省と独立行政法人情報処理推進機構(IPA)が、DXを推進する人材の役割やスキルを定めた「DX推進スキル標準」では、5つの人材類型が示されています。中でも、DXの目的を設定し関係者をコーディネートする「ビジネスアーキテクト」と、業務変革や新規ビジネスの実現のために、データを収集・解析する仕組みの設計・実装・運用を担う「データサイエンティスト」の育成は喫緊の課題となっています。本記事では、「Udemy」の社会人向け統計活用・データサイエンスの基礎講座などが好評の金森保智氏による、データ活用を進める上で必要な人材やスキルについての講演をお届けします。 IT人材は2030年の段階で79万人不足 金森保智氏:テーマは「生成AI時代のデータ活用スキル ~データとビジネスを繋げるこれからの『問い』の基本~」なんですけれども。サブタイトルにある、「データとビジネスを繋げるこれからの『問い』の基本」

                              2030年に不足する79万人のIT人材は、 技術者・専門家だけとは限らない DX推進に欠かせない「3種の人財」の重要性
                            • ビジネス価値を生むことに責任を持つために実践している内容を『仕事ではじめる機械学習 第2版』に書きました

                              第2版がでました。 仕事ではじめる機械学習 第2版 オライリー・ジャパン (2021年04月) 有賀 康顕、中山 心太、西林 孝 著 電子版版/紙版両方あり 私は7章の「効果検証」と13章の「オンライン広告における機械学習」を執筆しました。12章は書き下し新章です。既に発売からは時間が経っているのでこの2つの章の裏話というか思想について解説します。 PoC貧乏という言葉があるように機械学習を用いてビジネス価値を生む施策は失敗しがちなことが知られてきました。前提として本書はその様な失敗しやすい施策をできるだけ成功に近づけるにはどうしたら良いかを広く扱っています。 ビジネス価値を定義する予測を当ててどんな価値を生みたいのかを定義しないと開発は始まりません。13章では広告配信事業者の顧客である広告主の効用を選びました。オンライン広告ではオークションによる広告枠の売買が行なわれます。広告主は財の買

                                ビジネス価値を生むことに責任を持つために実践している内容を『仕事ではじめる機械学習 第2版』に書きました
                              • グラフィカルモデルに基づく因果探索手法の調査 - Fire Engine

                                最近,因果推論や因果探索に興味を持ち,勉強している.というのも最近,ゆううきさん と一緒に分散システムの異常の原因を即時に診断するための研究を進めている.原因を診断するためのアプローチとして,サーバやコンテナ等から取得できる様々なメトリック(CPU使用率やメモリ使用率など)を(グラフ理論における)ノードとして,因果グラフを構築することを考えている.メトリック同士の単なる「相関」ではなく,結果と原因の関係である「因果」を捉えようとするアプローチである.例えば,システムの障害が発生した場合,相関だけでは,AとBが関連がありそうというところまでしか言えないが,因果を特定できると理想的には,Aの原因はBであるといった議論ができるため,有用だと考えている. 実際に,前述のような因果グラフを構築して障害の原因を特定しようというアプローチは,以下の例に挙げるようにここ数年で増えている印象がある. 「Mi

                                  グラフィカルモデルに基づく因果探索手法の調査 - Fire Engine
                                • Amazon SageMakerを利用したエンタープライズのためのMLOps基盤ロードマップ | Amazon Web Services

                                  Amazon Web Services ブログ Amazon SageMakerを利用したエンタープライズのためのMLOps基盤ロードマップ この記事はMLOps foundation roadmap for enterprises with Amazon SageMakerを翻訳したものです。 企業が組織全体で機械学習 (ML)の採用を進めるにつれて 、MLモデルの構築、学習、デプロイのための手動ワークフローがイノベーションのボトルネックになる傾向にあります。これを克服するために、企業はデータサイエンティスト、データエンジニア、MLエンジニア、IT、ビジネス関係者などの複数のペルソナがどのように協業すべきか、懸念事項、責任、スキルをどのように分離するか、AWSのサービスをどのようにして最適に使用するかなどについて明らかにし、明確な運用モデルを構築する必要があります。 このようなMLと運用

                                    Amazon SageMakerを利用したエンタープライズのためのMLOps基盤ロードマップ | Amazon Web Services
                                  • ABテストにおける分散削減手法①〜少ないサンプルから小さな改善効果を検出する〜|あならいずパンダ

                                    マネーフォワード 分析推進部の石田と申します。 社内では、データサイエンティストとして施策効果検証系の案件を中心に担当しています。 本稿から2回に渡って、「ABテストにおける分散削減手法」というテーマで記事を執筆したいと思います。 馴染みのない方もいらっしゃるかもしれませんが、ABテストへ分散削減手法を適用することで、例えば以下に挙げたメリットを享受することができます。 必要サンプルサイズを低減できるため、意思決定サイクルを高速化できる より小さな改善効果を検出できる 魅力的だと感じていただけた方は、ぜひ最後まで本稿をお読みください! 目次 想定する読者層と書いてある内容本稿のメインターゲットは、以下のような方です。 統計的仮説検定の理論を少し勉強したことがあるけど、分散削減と言われてもあまりピンと来ていない 確率変数、標本平均、分散、正規分布の意味は分かるけど、t検定の検定統計量がパッと

                                      ABテストにおける分散削減手法①〜少ないサンプルから小さな改善効果を検出する〜|あならいずパンダ
                                    • より正しい意思決定のための統計的仮説検定とサンプルサイズ計算 - Gunosyデータ分析ブログ

                                      はじめに こんにちは、Gunosy Tech LabのBIチームに所属しているクボタです。 Gunosyではアプリ内のロジックやUI等の変更において数値ベースでの意思決定を行なっています。 例えば新たなキャンペーンでのCVR増加やUI変更によるA/Bテストでのクリック数増加の効果検証などで統計的に裏打された手法を用いることで正しく意思決定を行うことを目指しています。 data.gunosy.io 本記事ではそのような状況で必要となるサンプルサイズの設計や統計的仮説検定のお話をさせていただきます。 はじめに 検定手法の選択 統計的仮説検定の手順 比較する指標の選定 帰無仮説 と対立仮説 の決定 検定統計量の選定 有意水準の決定 検出力の決定 効果量の決定 サンプルサイズの計算 ノンパラメトリック検定 多重比較 おわりに 参考文献 検定手法の選択 数値による意思決定を行う際に検定はよく利用され

                                        より正しい意思決定のための統計的仮説検定とサンプルサイズ計算 - Gunosyデータ分析ブログ
                                      • 分析結果が有意にならなくて困っている人々のためのハウツー本を書きました - 渋谷駅前で働くデータサイエンティストのブログ

                                        近年様々な議論もあるようですが、依然として「統計的仮説検定」を初めとする統計分析においては「p < 0.05」なるp値が得られるような「有意差」もしくは「有意性」が重視される業界は世間には数多く、有意な分析結果が得られなくて困っている人々は少なくないようです。 そこで、そんな人々のためになるようなハウツー本的な書籍をこの度上梓しました。題して『今日からはじめる達人p値ハッキング』ということで、p-hacking及びそれ以外の様々な「有意な分析結果を得るためのテクニック」をまとめてあります。以下に目次を挙げておきます。 目次 第1章:何故貴方の分析にはp < 0.05が必要なのか 第2章:全てのサンプルを使うことをやめよう 第3章:サンプルをもっと増やしてみよう 第4章:p < 0.05が得られるような仮説を設定してみよう 第5章:検定手法を使い分けてみよう 第6章:p < 0.05が大変な

                                          分析結果が有意にならなくて困っている人々のためのハウツー本を書きました - 渋谷駅前で働くデータサイエンティストのブログ
                                        • 本当に給与の高いIT系企業がどこなのかを分析してみよう|シティズンデータサイエンスラボ

                                          上場企業の年収を比較する記事が話題になることがありますが、私たちは以前から「ランキング上位の会社の給料が高いのはその企業の平均年齢の高さのせいなのではないか?」という疑問を抱いていました。今回は独自の切り口でIT業界の最新の話題を提供するブログ「Publickey」さんがまとめたIT系企業の年収データを、弊社のツール「dataDiver」で実際に分析し、この疑問に迫ります。シティズンデータサイエンスラボは「データサイエンスを全ての人に」を掲げる株式会社データビークル(https://www.dtvcl.com/)が運営する公式noteです。 先に結論だけ知りたい人向けのまとめ IT系の上場企業は… ・平均年齢が1歳増えるごとに平均年収は17万円ほど高い傾向 ・従業員規模が10倍に増えるごとに平均年収は100万円ほど高い傾向 ・業種別ではパッケージソフトウェア/サービス系が平均して109万円

                                            本当に給与の高いIT系企業がどこなのかを分析してみよう|シティズンデータサイエンスラボ
                                          • 騙されない自分:Hiroshi Maruyama's Blog

                                            騙されない自分 7月に、「ホモデウス」で有名なイスラエルの歴史学者ユヴァル・ノア・ハラリと、台湾のデジタル担当大臣オードリー・タンの対談[1]がありました。テーマは「ハックするか、ハックされるか -- 民主主義、仕事、アイデンティティの未来」というもので、情報技術に対するハラリの危機感と、タンの楽観論が対照的でした。 ハラリは、「自分自身より、機械のほうが自分のことをよく知っている」世の中に強い危機感を抱いてています。「自分にある特定の行動を起こさせるには、どのボタンを押せばよいか、機械はよく知っているのだ」と。 情報技術が発達する以前から、詐欺師が人々を騙して不要な品物を買わせたり、新興宗教が人々を高揚させる儀式を通して勧誘したり、あるいはまた、戦時中の大本営発表のように偏った情報を流すことによって人々の意見を誘導したりすることは繰り返し行われてきました。これらはいずれも、私たちの心の中

                                              騙されない自分:Hiroshi Maruyama's Blog
                                            • AIを使った儲かる自動売買の見分け方 ~トレーディングのバイアス対策技術の歴史と展望~|UKI

                                              0.はじめにUKIです。 主題と副題の序列を迷いましたが、いったんPVを稼げそうなほうを主題に置きました(そのうち修正します)。 (1)対象読者 ・EAやbotなどの自動売買に興味がある方 先に結論を書いてしまいますが、たとえAIを使ったとしても儲かる自動売買の戦略を完全に見分けることは不可能です。 商材自体は悪いものではありません。当然、製作者が誠意をもって製作したものもあるでしょう。しかし現実には、悪意のあるもの(儲からないと分かっているが儲かるように振る舞っているもの)や、悪意はなくともバイアスに気付いておらず、結果として購入者が不利益を被るものが大多数紛れ込んでいます。 そもそも市場にアルファ(収益の根源)は殆ど存在しておらず、自動売買の戦略構築過程で発生するバイアスの影響を掻い潜って将来的に利益が出る戦略を作る(見分ける)のは極端に難しいことを知るべきです。不特定多数に販売されて

                                                AIを使った儲かる自動売買の見分け方 ~トレーディングのバイアス対策技術の歴史と展望~|UKI
                                              • 「サンプルサイズが大きすぎると良くない」ってどういうこと?|nekoumei

                                                はじめにこんにちは。 データ分析界隈でたまに、「サンプルサイズ大きすぎると良くない」って話を聞きます。 主に、検定を行いp-valueから有意差を確認する文脈で言われているようです。 サンプルサイズ設計に関してー理論編より引用 基本的に、多くの検定では例数が大きくなると、有意差があるという結果が得られやすくなります。 (中略) 例数が多すぎる場合:実際には差がなくても有意と判定してしまう 統計的仮説検定をするときのサンプルサイズの決め方より引用 現実には仮説検定でつかうサンプルサイズは大きすぎないほうがよいといわれています。 (中略) 標語的になってしまいますが、別のいいかたをすれば、サンプルサイズをいくらでも大きくできれば、どんな仮説検定でも棄却できるということもできます。 他にも色々な方が言及されていることをまとめると、「サンプルサイズが大きいとどんなにわずかな差でもp-valueが小

                                                  「サンプルサイズが大きすぎると良くない」ってどういうこと?|nekoumei
                                                • 『現代数理統計学の基礎』章末演習問題解答 (答案) - Qiita

                                                  0.はじめに 『現代数理統計学の基礎』(久保川達也 著)の章末問題の答案を作成する.略解は久保川先生がこちらのサイトに掲載して下さっているが,「略解」なだけあって途中式がかなり端折られていたり,エレガントすぎて凡人では思いつきようのない解答だったりするので,多少計算がゴツくなったとしても庶民的な答案を心がける.また必要に応じて答案とは別に必要な知識の確認を行う. 各リンクから問題の方針と答案に飛べる. 1.確率 (易) ベン図書く (易) 和事象,積事象の性質 (易) 条件付き確率と同時確率 (易) 部分集合についての確率 (易) 条件付き確率の典型問題 (易) 条件付き確率の典型問題2 (易) 因果関係と相関関係,独立性 (易) 和事象と確率の和 2.確率分布と期待値 (標準) 分布関数,密度関数の定義 (標準) 分布関数,密度関数の定義2 (標準) 分布関数,密度関数の定義3 (標準)

                                                    『現代数理統計学の基礎』章末演習問題解答 (答案) - Qiita
                                                  • データアナリストを目指したい人のために個人的な道案内をしてみる - 俺のOneNote

                                                    コロナ影響による陰りがありつつ、データサイエンス人気は依然として高そうです。 僕自身も、データサイエンス・データアナリティクスは引き続きビジネスにあたって、なくてはならない技術でありつづける気はしています。 (コレだけでは食っていけなくなる危機感もある) データアナリストを名乗る底辺な私ではありますが、これから目指したいと思っている学生やキャリアチェンジ組の方、新卒でデータアナリストになってこれから頑張ろうとしている人に、自分の経験を元にした至極私的な道案内をしてみます。 ※なんかamazonリンクばっかで大変アフィリエイトっぽい感じですが、一切リンクないので安心してご閲覧ください!爆 私はどんな人? そもそも私はこんな感じです。 ・10年ぐらいコンサル兼データアナリスト、転職後2年ぐらいデータアナリスト専業 ・R、Python等のプログラミング言語ちょっと。Power BI , Tabl

                                                      データアナリストを目指したい人のために個人的な道案内をしてみる - 俺のOneNote
                                                    • 山岡重行の統計的仮説検定の説明に対する北田暁大の批判について

                                                      社会心理学者の山岡重行氏の『腐女子の心理学2』の巻末の統計学用語の説明に関して、社会学者の北田暁大氏が色々と批判している*1。しかし、あれこれ経緯がある*2からだと思うが、全般的に勇み足になっているので指摘しておきたい。山岡氏の記述にも問題が無いとは言い切れないのだが、統計学を学んでいない人向けの説明であろうことを念頭に置くと、山岡氏が統計学に無理解であるかのような批判は適切ではないと思われる。 1. P値の解釈について 北田氏は、山岡氏のように統計的仮説検定で「事実認定」をすることは、アメリカ統計学会(ASA)の声明*3に合致しないと主張しているのだが、何を「事実認定」するのかについて注意が払われていない不適切な批判になっている。 山岡氏の説明では、分類したグループ間の平均値に差があるのか「事実認定」するために、統計的仮説検定を用いることになっている(pp.72–73)。つまり、データと

                                                        山岡重行の統計的仮説検定の説明に対する北田暁大の批判について
                                                      • STUDY 1

                                                        九州大学大学院芸術工学研究院 河原一彦博士との共同研究により「話し声を聞き取りやすくする」物理特性を見出しました。この研究の成果として誕生したのが、声への「集中力」が高まる学習専用イヤホン「STUDY 1」です。主観評価実験の結果、「STUDY 1」は、「会話をどれだけ正しく聞き取れたかの正答率」が、他社音楽用イヤホンに比べて有意に高いことが、統計的仮説検定で確認されました。 「STUDY 1」は、人の声が聞き取りやすい音響設計により、オンライン授業や英会話トレーニングなどで、学習への集中力を高めることができます。さらに、ハンズフリーマイクを搭載していますので、通話やWEB会議等にも、幅広くご使用いただけます。 話し声を聞き取りやすくする音響設計 九州大学大学院芸術工学研究院 河原一彦博士との共同研究により見出した、「話し声を聞きとりやすくする」物理特性に基づき音響設計を行ないました。主観

                                                          STUDY 1
                                                        • ベイズ統計学と再現性の危機(テンプル大学統計科学部助教授:マクリン謙一郎) #心理統計を探検する|「こころ」のための専門メディア 金子書房

                                                          心理学において、これまでに得られた著名な研究結果が再現されないという再現性の危機が話題となっています。その原因の一端は、統計的仮説検定の使用にあると考えられています。そして、仮説検定のオルタナティブとして、ベイズ統計学に対する注目も高まっています。しかし、仮説検定がもつ問題の一部がどのようにしてベイズ統計学によって解決されうるのか、両者の立場の相違、ベイズ統計学の限界などについて、心理学においてまだ十分な議論がなされていないように見受けられます。そこで今回は、こうした再現性の危機と仮説検定の関係、ベイズ統計学の可能性と限界について、テンプル大学統計科学部助教授のマクリン謙一郎先生にご解説いただきました。 ※今回の記事は、統計的意思決定、仮説検定、ベイズ統計学について基礎的な知識があることを前提としています。あらかじめご承知おきのうえお読みください。 はじめに 再現性の危機が心理学を含む諸分

                                                            ベイズ統計学と再現性の危機(テンプル大学統計科学部助教授:マクリン謙一郎) #心理統計を探検する|「こころ」のための専門メディア 金子書房
                                                          • 比較的少なめのデータで機械学習する時は交差検証 (Cross Validation) をするのです - Qiita

                                                            口上 『ゼロから作る Deep Learning ~ Python で学ぶディープラーニングの理論と実装』という本を買って深層学習の勉強をマターリしているのですが、 「そういえば情報検索や自然言語処理の実験でもよくやる交差検証 Cross Validation って意外に気にしてる人いないかも?」 と思ったので、自分でまとめることにしました。 もちろん、今までにも優秀な人達が記事を書いてくださっていますし(しかもググるとイパーイ出てくる)「もう知っているよ!」「やってるし!」っていう方は全く読む必要がないので、華麗にスルーして 1 回でも多く自分の学習のための Epoch を回した方がいいと思うのですが、もしお時間があって「よし粗探しでもしてやるか!」と思った奇特な方がいらっしゃったならばお読みいただいて、妙なところがあれば是非ご指摘・ご指導ください。 m(__)m 誰のための記事か? 「

                                                              比較的少なめのデータで機械学習する時は交差検証 (Cross Validation) をするのです - Qiita
                                                            • Pythonによる統計学〜t検定編〜 - Qiita

                                                              はじめに 教育心理学系の学部の方から対応の無いt検定をPythonで行いたいという質問をいただきました。 今回紹介する対応の無いt検定は実際の分析でも使用することも多く、統計的仮説検定を実務に活用するというとっかかりとしても勉強しておいて損はないと思います。 また、2標本t検定の中でも等分散性を仮定できない場合に実行するウェルチのt検定を中心に解説しようと思います。(汎用性が高く、例えばRではデフォルトの設定がウェルチのt検定です。) ※最後にでも記載しましたが、統計的仮説検定そのものに対する問題点やp値についての議論はここでは行いません。 主に使用する関数 #  両側検定(SciPyのデフォルト) stats.ttest_ind(data1, data2, equal_var=False) # 片側検定 stats.ttest_ind(data1, data2, equal_var=Fa

                                                                Pythonによる統計学〜t検定編〜 - Qiita
                                                              • 統計的推定と統計的仮説検定

                                                                ✧「指導用 高校からの統計・データサイエンス活用~上級編~」 第5部 統計的探究の実践 Ⅳ ~標本データから全体を推測する~ ✧「高校からの統計・データサイエンス活用~上級編~」 第5部 統計的探究の実践 Ⅳ ~標本データから全体を推測する~ 推定の方法 推定は、母集団の特性値(平均や分散など)を標本のデータから統計学的に推測することで、推定には点推定と区間推定があります。点推定で推定するのは1つの値で、区間推定ではある区間(幅)をもって値を推定します。 点推定 点推定は、母集団の平均や分散などの特性値を、1つの値で推定します。 例えば母平均(母集団の平均)の点推定は、大数の法則から標本の大きさが大きくなるほど、標本の平均は母平均に近づくため、標本の平均が母平均の推定値となります。ただし、実際の標本の大きさは無限に大きいものではないため、母平均の推定値は、実際の値と完全には一致しないことが

                                                                • 「京都大学データサイエンス講座」の受講生募集について

                                                                  京都大学は、2022年(令和4年)に文部科学省から「数理・データサイエンスに・AI教育の全国展開の推進」拠点大学の一つに選定され、データ科学の教育とそれに必要な調査研究等を行ってきました。 本学では、その知見を活かしたデータサイエンス関連の公開講座を全5講座実施しています。各講座とも、オンラインビデオ講義(+ライブ配信)となっており、時間を気にせず学ぶことが可能です。 ビデオ講義では、1回15分程度の動画に分けて概念と問題の注意点等を交えながら丁寧に説明しています。データ科学の最先端で研究をしている講師から直接統計学を学べるまたとない機会ですのでふるってご参加ください。 実施、配信期間および受講料は講座ごとに異なりますので、詳細は各講座のページをご確認ください。 各講座概要 データ分析に役立つ統計基礎講座 ~統計ソフトウェアR活用を目指して~ 実務に必要な統計学の基礎事項について分かりやす

                                                                    「京都大学データサイエンス講座」の受講生募集について
                                                                  • KDD 2019 : Diagnosing Sample Ratio Mismatch in Online Controlled Experiments: A Taxonomy and Rules of Thumb for Practitioners を読んだ - OKIYUKI99 Blog

                                                                    KDD2019な時期がきましたので、A/Bテスト系の論文あるかなと探してたときに気になった論文を読みました。 Booking.comのDirector of Experimentation のLukas Vermeer氏のツイートより Diagnosing Sample Ratio Mismatch in Online Controlled Experiments: A Taxonomy and Rules of Thumb for Practitioners. The goal of this paper is to make diagnosing, fixing, and preventing SRMs easier. https://t.co/Qga8rPz31Z #KDD2019— Lukas Vermeer (@lukasvermeer) August 6, 2019 dl.ac

                                                                      KDD 2019 : Diagnosing Sample Ratio Mismatch in Online Controlled Experiments: A Taxonomy and Rules of Thumb for Practitioners を読んだ - OKIYUKI99 Blog
                                                                    • 統計検定1級の勉強法(まとめノートの作り方) - クルトンのプログラミング教室

                                                                      こんにちは、クルトンです! 以前に統計検定1級の勉強法について記事を出したのですが、そこで勉強法として「まとめノートを作る」というものを紹介しました。 kuruton.hatenablog.com そこで、この記事ではまとめノートの作り方について詳しく説明しようと思います。 なぜまとめノートを作るのか? 具体的な内容 確率分布のまとめ 他の部分のまとめ 良く使う公式 良く使う言い回し 用語集 解法パターン やりがちなミス 最後に なぜまとめノートを作るのか? これは上の記事でも説明したのですが、まとめノートを作ることには 分からなかった部分がまとめノート1冊にまとまっているので、2周目の解きなおしが楽になる テキストの内容をまとめながら読むことで、漫然と読む場合に比べてしっかりと理解できるようになる 「この1冊を完璧にすれば過去問は解ける」という状態を作ることで、ノートが精神的な支えになる

                                                                        統計検定1級の勉強法(まとめノートの作り方) - クルトンのプログラミング教室
                                                                      • 『DELISH KITCHEN』のA/Bテスト基盤を構築しました - every Tech Blog

                                                                        はじめに こんにちは。株式会社エブリーでデータサイエンティストをしている伊藤です。 『DELISH KITCHEN』では、サービスをより良くするため、新機能の開発や既存機能・デザインの改善など様々な施策が行われています。 これらの施策は、一部のユーザのみを対象とする「A/Bテスト」によってオンライン評価され、その効果が認められてからユーザ全体にリリースされます。 直近、A/Bテストの信頼性・アジリティをより高めるため、データチームが主導となり新しくA/Bテスト基盤を構築・導入しました。 本記事では、新しく導入したA/Bテスト基盤の概観を紹介させていただきます。 今回紹介するA/Bテスト基盤の活用については、少し前の記事でも紹介していただいているので、そちらも是非合わせてご覧ください。 tech.every.tv これまでの課題 これまで、A/Bテストは各運営チームが主導となって実施されてき

                                                                          『DELISH KITCHEN』のA/Bテスト基盤を構築しました - every Tech Blog
                                                                        • それはベイズ統計学ではなくて、言わば情報量規準主義ですよ

                                                                          統計学を専門としない数学者から、ベイズ統計学の事前確率を主観的と言うのはトンデモだという非難から、ベイズ主義や頻度主義と言う分類を考えるのは有害無益だからやめて、カルバック・ライブラー情報量に基づく“主義によらない”統計学を考えるべきだと主張が展開され、その他のオモシロ主張*1も含めて困惑が広がっている。 昨日から統計学にはやはり主義が要ると言う批判もされている*2のだが、“主義によらない”と言う誤った謳い文句に騙されている。統計学の主義は手順や解釈の方針である事に注意すると、カルバック・ライブラー情報量に基づいた統計手法と言うのは一つの主義である。情報量規準主義。 もう少し具体的に説明すると、ベイズ統計学の事前確率(先験確率)を、データから定まらないと言う意味で主観的なものではなく、データから定まると言う意味で客観的なものにしようと言うのが、情報量規準主義だ。情報量規準主義者はその始祖を

                                                                            それはベイズ統計学ではなくて、言わば情報量規準主義ですよ
                                                                          • 統計的仮説検定とは?サンプルサイズの決め方も解説

                                                                            こんにちは。データサイエンスチーム tmtkです。 この記事では、統計的仮説検定をするときのサンプルサイズの決め方の入門的解説を行います。 この記事は、永田靖『サンプルサイズの決め方』を参考に書かれています。 統計的仮説検定の枠組み 最初に、統計的仮説検定について復習します。 まずは身近な例で説明します。いま、表と裏が等確率で出るとされているコインがあるとします。このコインを10回投げて、10回とも全部表が出たとしたら、コインの表が出る確率が裏が出る確率より高いと疑うのではないでしょうか。実際、表と裏が等確率で出るコインを10回投げて、10回連続で表が出る確率は です。つまり、表裏が等確率で出るコインを投げて表が10回連続で出たとすると、0.1%程度の確率しかないことが起こっているということになります。この場合、非常に低確率なことが起こっているので、「このコインはおかしい」と判断することが

                                                                              統計的仮説検定とは?サンプルサイズの決め方も解説
                                                                            • バンディットアルゴリズムで最適な介入を見つける(基本編) - Qiita

                                                                              はじめに 「複数の選択肢からできるだけ最適なものを選択したい」というような問題設定は世の中にありふれています。例えば、広告Aと広告Bのどちらが効果的にクリック数を稼ぐことができるのかだったり、新薬Aと新薬Bのどちらがある病気を効果的に治癒するのかだったりというような状況です。このような問題が難しいのは、最適な選択をできるだけ多く取りたいという活用と最適な選択が何であるかをできるだけ正確に知りたいという探索のトレードオフがあるからです。つまり、できるだけ多く広告Aと広告Bの優れている方を用いてマーケティングを活用したいというモチベーションと、広告Aと広告Bのどちらが優れているのかを正確に知りたいという探索のモチベーションが混在するのです。 これらの状況において最適な介入を選択するためによく用いられるのは、A/BテストやRCTと呼ばれる手法です。それは、AとBの二つの介入を被験者にランダムに割

                                                                                バンディットアルゴリズムで最適な介入を見つける(基本編) - Qiita
                                                                              • 統計検定2級合格体験記 【試験対策法を紹介】

                                                                                システム部の福原と申します。 統計検定2級に合格できました。 合格ラインギリギリでお恥ずかしい。しかし、努力の方向性は見えてきたと思います。 この経験から、これから受験しようとしている人向けにどんな準備をすればよいかについて話してみたいと思います。 統計検定2級取得対策の結論 結論を言ってしまえば、「統計検定2級対応 統計学基礎」(以下、公式テキストと呼びます。)を通読し過去問を4~5回分ぐらいやって70%以上ぐらい正答できるようになれば、合格できるようになると思います。 改訂版 日本統計学会公式認定 統計検定2級対応 統計学基礎 日本統計学会公式認定 統計検定 2級 公式問題集[2018〜2021年] ただ公式テキストは、必ずしも読みやすくはないかもしれません。 それもそのはず、統計検定2級は大学1~2年次のレベルであり公式テキストも大学生向けの教科書とほぼ同じ内容だからです。 もっと言

                                                                                  統計検定2級合格体験記 【試験対策法を紹介】
                                                                                • 開発合宿に行ってきました @おんやど恵 - LIVESENSE ENGINEER BLOG

                                                                                  2023年7月30日と31日にリブセンスのエンジニア有志で開発合宿に行ってきました。この記事ではその模様をお伝えします。 リブセンスでは過去、何度か開発合宿が開催されていました。 ↓過去のレポートはこちらです https://made.livesense.co.jp/entry/2019/04/06/094643 https://made.livesense.co.jp/entry/2019/12/03/070000 新型コロナウイルスの流行などの事情により、2019年を最後にしばらく中断していましたが、この度再開することができました。 今回は開発合宿プランがあるということもあり、前回と同じくおんやど恵を利用しました。 おんやど恵のHP 1日目 湯河原駅で集合し、駅の近くでお昼ご飯を食べたあとバスでおんやど恵に向かいました。 開発スタート 開発用の部屋として宿の宴会場を貸し切りにしました。

                                                                                    開発合宿に行ってきました @おんやど恵 - LIVESENSE ENGINEER BLOG