タグ

statisticsに関するsomathorのブックマーク (82)

  • 新しい相関係数の理論的性質

    はじめに あるデータの組み合わせが手元にあるとき、それらがどれほど依存関係にあるのか?というのはデータを触っていると自然に湧いてくる疑問だと思う。 データの依存関係を見る時、「相関係数」なるものを計算するのは大半の人が行うと思うが、この相関係数は「ピアソンの相関係数」を指すことがほとんどであろう。この相関係数は Y = aX + b という線形の関係を捉えることはできる。 と、ここまで書いてたのだが、つい先日 Qiita にこんな記事が投稿された。 まさにこういう話をしたかったので完全に先を越されてしまった。悔しい… だがせっかくなので、実はこの相関係数は「バイアス」があると指摘した論文についてでも紹介しようかと思う。以下はarXivに投稿されたワーキングペーパーをベースにしたものである 注意:以下は夜中に勢いで書いたので、構成とか変わる可能性がある (12/10) 新しいセクションを追加

    新しい相関係数の理論的性質
  • 「外れ値は捨てる」と教えておられる高校の先生がけっこうおられ、「研究倫理上「データ改ざん」になります」と最近はちょっと強めに言ったりしている

    Haruhiko Okumura @h_okumura 「外れ値は捨てる」と教えておられる高校の先生がけっこうおられて、「安易に捨ててはいけません」と言っても響かないらしく、最近は「研究倫理上「データ改ざん」になります」とちょっと強めに言ったりしている 2025-12-08 13:47:08 野嵜健秀/NOZAKI Takehide @nozakitakehide 小学生でも理科の実験のレポートでデータを改竄するのは常識だつたりする へんなデータが出た時、どうするか、を教へない教師側にも問題がある。小学生は「自分で考えなさい」なんて言はれても困惑するだけだよ。 x.com/h_okumura/stat… 2025-12-08 16:38:46 江藤光 | CEO@Kaibutsu Co., Ltd. @hikaru_eto 理科の最初の方でやる、プロットを一直線を使って抽象化するアレが良く

    「外れ値は捨てる」と教えておられる高校の先生がけっこうおられ、「研究倫理上「データ改ざん」になります」と最近はちょっと強めに言ったりしている
  • キャンベルの法則(Campbell's Law)とは?

    「指標が意思決定に使われるほど、目的を見失って行動が偏り、プロセス(=制度や活動の進め方)がゆがむ」という経験則。もともとは教育改革におけるテストスコアの扱われ方を問題提起したものだが、現在では企業のKPI運用や政策評価、AIモデルの性能指標などで引用される。 連載目次 用語解説 キャンベルの法則(Campbell's Law)とは、「ある指標が意思決定に使われるようになるほど、来の目的を見失って人々の行動がその指標に合わせて変化し、社会にある特定のプロセス(=制度や活動の進め方)がゆがむ傾向がある」という、指標利用に関する経験則である。米国の社会科学者ドナルド・T・キャンベル(Donald T. Campbell)氏が1976年に発表した論文で述べた次の言葉に由来する。 「いかなる定量的な社会指標も、社会的な意思決定のために用いられるようになればなるほど、それはゆがんだ社会的圧力を受け

    キャンベルの法則(Campbell's Law)とは?
  • ヘリンガー距離(Hellinger distance)とは?

    2つの確率分布間の“距離”を測る指標で、値は0(一致)~1(不一致)の範囲に収まる。ユークリッド距離に似た計算式で定義されており、確率分布の違いを直感的に扱えるのが特徴である。主に統計学や機械学習の分野で、確率分布間の比較や類似度評価に利用されている。

    ヘリンガー距離(Hellinger distance)とは?
  • 統計検定準1級合格の感想と出題範囲の個人的要点|うぇるち_憂いの篩

    先日統計検定準1級に合格しましたので、その感想と出題範囲の個人的な要点を備忘録として記録したいと思います。長編になってしまいました。また勉学に使ったノートブックも公開していますので、是非最後まで読んでいただけると嬉しいです。 受験者のバックグラウンド 国立大学院(化学工学)を卒業後、化学研究職、化学プラントのデザイナー、品質管理、技術営業を経て、現在はデータアナリストの業務をしています。統計検定2級は合格済みで83点でした。統計学は業務と独学で学んでいます。ただの勉強熱心な男性です。 試験結果74点を獲得し合格しました。幸運にも優秀成績賞も頂くことが出来ました。 勉強時間 3回受験をしています。初回の試験までの勉強時間はおおよそ400時間です。1日2時間程度をほぼ毎日と、週末は4時間を1日以上心がけていました。 2回目以降は時間を記録していませんが、試験終了後に覚えている出題された設問また

    統計検定準1級合格の感想と出題範囲の個人的要点|うぇるち_憂いの篩
  • カイ二乗検定は何をやっているのか|コグラフ株式会社 データアナリティクス事業部

    こんにちは。コグラフ株式会社データアナリティクス事業部の塩見です。 私は「カイ二乗検定」に対して、当初は納得できない部分がありました。やりたいことに対して、必要以上に複雑な手法のように感じたからです。同じような疑問を持つ方も多いのではないでしょうか。この記事では、私が「カイ二乗検定」を理解し納得するまでの過程をお伝えします。 結論から言いますと、一度頻度論を離れてベイズ統計の視点で考えてみたところ、実は非常に単純なことを行っていると気づきました。その後、カイ二乗検定を再び考え直すと、すんなり理解できたというお話です。 カイ二乗検定の手順まず、サイコロを何度も投げ、出た目の回数(実測値)を記録します。偏りのないサイコロでは、全ての目が均等に出るはずです。この理論的な回数を理論値と呼びます。 次に、実測値と理論値の差を計算し、その差を二乗してから理論値で割ります。この計算結果を「ズレ」と呼びま

    カイ二乗検定は何をやっているのか|コグラフ株式会社 データアナリティクス事業部
  • 統計検定®︎準1級は実務で役に立つのか?

    タイトルの結論は、「役に立つ」です。 役に立つか立たないかの議論は一切せず、記事では、如何に統計や数学が実社会で役に立つかを紹介します。 はじめに こんにちは。ZENKIGENデータサイエンスチーム所属の廣田です。原籍はオムロンソーシアルソリューションズ株式会社 技術創造センタですが、社外出向でZENKIGENに所属しており、数理最適化機械学習を用いたデータの分析業務、それらの結果に基づいた顧客への提案をしております[1]。 出向先であるZENKIGENの同僚にも、原籍のオムロンの同僚にも、統計検定®の準1級や1級を持っている方がいて、私も負けじと準1級を受験しました。結果、統計検定®準1級に合格し、優秀成績賞までいただくことができました。 統計検定®合格証と優秀成績賞 試験対策を通じて、改めて統計学の考え方は有用と感じました。この手の検定試験は物事を体系的に学ぶきっかけになるため、私

    統計検定®︎準1級は実務で役に立つのか?
  • ベイズ統計学を勉強する参考書のフロー - Qiita

    慶應義塾大学・株式会社Nospareの菅澤です. 今回はベイズ統計学を勉強するための参考書の順番 (私見) について紹介していきます. 3年ほど前に『日語で学べるベイズ統計学の教科書10冊』を紹介しましたが,今回は「どのような順番でどの参考書を読んでいくと比較的スムーズに勉強が進められるのか」に焦点を当て,比較的最近の書籍や英語の書籍まで含めて紹介していきます. まずは全体的なフローのイメージを提示しておきます. 今回の記事では,「ベイズ統計学を勉強すること」のスタートとゴールを以下のように定めます. (スタート) 統計学の基礎的な内容 (統計検定2級程度の内容) は身についている (ゴール) ベイズモデリングに関する最新の論文がある程度理解して読め,自力でモデルを組んだり実装することができる また,このゴールへの道のりとして,大きく2通りのルートを想定します. (ルートA: フルスクラ

    ベイズ統計学を勉強する参考書のフロー - Qiita
  • 【「0.05」の謎】統計学好きでも意外と知らない「統計的に有意」の本当の正体

    「すべての科学研究は真実である」と考えるのは、あまりに無邪気だ――。 科学の「再現性の危機」をご存じだろうか。心理学、医学、経済学など幅広いジャンルで、過去の研究の再現に失敗する事例が多数報告されているのだ。 鉄壁の事実を報告したはずの「科学」が、一体なぜミスを犯すのか? そんな科学の不正・怠慢・バイアス・誇張が生じるしくみを多数の実例とともに解説しているのが、話題の新刊『Science Fictions あなたが知らない科学の真実』だ。 単なる科学批判ではなく、「科学の原則に沿って軌道修正する」ことを提唱する書。 今回は、書のメインテーマである「再現性の危機」の実態に関する書の記述の一部を、抜粋・編集して紹介する。 ある閾値を下回れば「統計的有意」になる 自分の結果がノイズによるものではないと確信するためには、p値はどのくらい低くなければならないのだろうか。別の見方をすれば、偽陽性

    【「0.05」の謎】統計学好きでも意外と知らない「統計的に有意」の本当の正体
  • 統計検定準1級 合格体験記 - Qiita

    Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article? はじめに 統計検定準1級は(一財)統計質保証推進協会が実施、(一社)日統計学会が公式認定する「2級までの基礎知識をもとに、実社会の様々な問題に対して適切な統計学の諸手法を応用できる能力を問う」試験です。現在はCBTでの実施となっています。 主観を込めて言いますと、2級と準1級では難易度に雲泥の差があります。 強調して言っておきます。まったく違います! 準1級では統計的推定や検定に加えて、多変量解析(重回帰、PCA、主成分分析、数量化)、時系列解析、マルコフ連鎖、確率過程、分散分析、ベイズ統計、MCMC...と範囲が広いのが特徴です。

    統計検定準1級 合格体験記 - Qiita
  • コード品質はやはりビジネスに影響を与える - mtx2s’s blog

    私たちソフトウェアエンジニアは、コード品質についてしばしば論ずるけれども、ではコード品質の良し悪しがどれほどビジネスに影響するのかと問われると、回答に窮する。只々、「コード品質が悪いと変更により多くの時間がかかります」だとか、「欠陥の修正に追われて開発時間が奪われます」だとか、個人の経験やエンジニア的一般論に頼った定性的な説明に終始するしかない。ソフトウェアを繰り返し変更する頻度が高いほど、コード品質が開発時間に影響を与えるのは確かにそのとおりだと思えるが、はたしてそれは、どれほどのインパクトなのだろうか。 2022年の研究論文 "Code Red: The Business Impact of Code Quality – A Quantitative Study of 39 Proprietary Production Codebases" では、コード品質がビジネスに与えるインパクト

    コード品質はやはりビジネスに影響を与える - mtx2s’s blog
  • 教科書が教えてくれない「交絡」の話

    Performance Evaluation and Ranking of Drivers in Multiple Motorsports Using Massey’s Method

    教科書が教えてくれない「交絡」の話
  • 統計検定準1級に合格した話 - i5882353iの日記

    2022年4月13日の試験で統計検定準1級に合格したので、記事を書く気になりました。daminです。(Twitter: @5882353i) うおおおおおおお統計検定準1級合格!!!!!!!うおおおおおおお!!!おおおおおお!!!!!!うおおおおおお!!!!!!!!!!!!!!! pic.twitter.com/J1LDsgUVm1 — 惰眠👻 (@5882353i) 2022年4月13日 背景や、合格するまでに使ったなどを書いていきます。 背景(受験までのおおまかな流れなど) 余談:センター統計選択のススメ 持っていた方がよいもの・知識 線形代数の知識 Pythonの知識 goodnotes5 使った 東大出版の統計学入門(通称:赤い) 公式の準1級対策(通称:ワークブック) 過去問 クラインバウム生存時間解析 ゼロDL ベイズ漫画 まとめ 真剣に読んでいる人向けのまとめ あま

    統計検定準1級に合格した話 - i5882353iの日記
  • データマイニング入門

    ビックデータ分析技術は情報処理技術を学ぶ上で重要となっている。講義では、データ分析・データマイニングの基礎について学ぶとともに演習を通して実際にデータを分析するプロセスを学ぶ。特に、前期課程の「データマイニング入門」講義のさらに発展的な内容を学習することで、後期課程や大学院におけるデータサイエンス、人工知能機械学習、自然言語処理などの関連講義の基礎となる知識を習得することを目標とする。

    データマイニング入門
  • P値のトリセツ

    Sequences of Logits Reveal the Low Rank Structure of Language Models

    P値のトリセツ
  • 初中級プロマネはIPAデータ白書の統計情報を見積り、生産性、品質の観点で活用せよ - プログラマの思索

    初中級プロマネがIPAデータ白書の統計情報をどんな観点で活用できるか、説明した利用事例がとても良かった。 理解できた内容をラフなメモ。 【参考】 初中級プロマネのための 現場で活かせ!統計情報1 初中級プロマネのための 現場で活かせ!統計情報2 「ソフトウェア開発分析データ集2020」の発行:IPA 独立行政法人 情報処理推進機構 「ソフトウェア開発データ白書」のダウンロード:IPA 独立行政法人 情報処理推進機構 初中級プロマネのための現場で活かせ!統計情報  2019年4月19日| CITP Community CITPアニュアルレポート2018を公開しました | CITP Community 【0】「ソフトウェア開発分析データ集2020」をIPAデータ白書と呼ぶことにする。 【1】IPAのソフトウェア開発データ白書を使いたい動機は2つある。 1つ目は、プロマネとしてシステムの企画書や

    初中級プロマネはIPAデータ白書の統計情報を見積り、生産性、品質の観点で活用せよ - プログラマの思索
  • 統計検定1級(2021)を受験した話(統計数理の試験対策・勉強編) - Taro Masuda’s diary

    この記事は何? タイトルの通り、2021年の統計検定1級試験を受験し統計数理に合格してきたので、記憶が鮮明なうちに勉強してきた内容をメモしておこうと思います。ちなみに、統計検定は私にとって今回が(級によらず)初めての受験でした。 対策・勉強した内容以外の、当日の受験体験記は以前に公開していますので、そちらもご興味あればぜひ併せてご覧ください。 taro-masuda.hatenablog.com 免責 あくまで個人的な方法論であるため、記事の情報が必ずしも今後の試験においてそのまま有効であるとは限りませんのでご注意ください。損失等をこうむられた場合であっても、筆者は一切の責任を負いかねます。 TL;DR 久保川先生の教科書『現代数理統計学の基礎』の2~8章の章末問題((*)印は飛ばす) + 統計数理は過去問を仕上げました。過去問は1ヶ月以上前からやるのがお勧めです。 現代数理統計学の基礎

    統計検定1級(2021)を受験した話(統計数理の試験対策・勉強編) - Taro Masuda’s diary
  • 「回帰分析から分かること」と「変数選択」

    10/23にp.11をアップデート

    「回帰分析から分かること」と「変数選択」
  • 統計の入門

    この講座は『受講登録する(無料)』ボタンを押すと受講開始となる『開始日可変型講座』です。 『開始日可変型講座』とは、受講者個々の受講開始日に応じて進行する講座です。 ご自身のスケジュールは、以下の講座スケジュール(PDF)を参考にご確認ください。 講座内容 統計に関する知識は、実験、試験、調査などの結果を用いた実証研究を行う上でなくてはならないものである。生活に関わるさまざまな効果やリスクがデータとともに語られ、生活者としても統計に対するリテラシーが求められるようになった。企業活動では、情報技術の発展によって、日々膨大なデータが生成されており、その活用が求められるようになった。講座は、研究や、生活、社会・経済活動に不可欠な統計を、集計・分析し、理解する力を養うことを目的とした「統計入門」「続統計入門」を圧縮した内容になっている。これから統計を学ぼうとする初学者や、学び直しを目指す学生を主

    統計の入門
  • 2つの事象に因果関係がないのにあるように見える『擬似相関』の中でも「メイン州の離婚率とマーガリンの消費量」の相関係数が高すぎて面白い

    リンク Wikipedia 擬似相関 擬似相関(ぎじそうかん、英: Spurious relationship, Spurious correlation)は、2つの事象に因果関係がないのに、見えない要因(潜伏変数)によって因果関係があるかのように推測されること。擬似相関は、客観的に精査するとそれが妥当でないときにも、2つの集団間に意味の有る関係があるような印象を与える。 2つの(確率)変数間の擬似相関は、第三の原因変数を導入することで生み出される。換言すれば、A と B の間の相関を見出す。従って、考えられる関係としては次の3つがある。 最 41 users 77 リンク GIGAZINE ニコラス・ケイジの映画が増えるとプールで溺死する人も増えるのか? 「首つり自殺数」と「アメリカの科学・宇宙・テクノロジーに関する支出」や、「水泳プールでの溺死数」と「ニコラス・ケイジの映画出演数」、「

    2つの事象に因果関係がないのにあるように見える『擬似相関』の中でも「メイン州の離婚率とマーガリンの消費量」の相関係数が高すぎて面白い