タグ

統計に関するni66lingのブックマーク (30)

  • 【徹底解説】有限母集団から抽出した標本平均の期待値と分散 | Academaid

    \begin{align} E[\overline{X}] &= \mu \\[0.7em] V[\overline{X}] &= \frac{N-n}{N-1} \frac{\sigma^2}{n} \end{align} 超幾何分布の平均と分散を簡単に導出するために利用できる定理です。無限母集団の場合の標平均の分散は$\sigma^2/n$になりますが,有限母集団の場合は前に$(N-n)/(N-1)$が付いていますね。この項を有限修正と呼びます。また,有限母集団の定義では観測値が大文字の$X$を使って表されていることからも分かる通り,観測値$X_1, \ldots, X_n$は確率変数であることに注意してください。無限母集団の場合は観測値を$x$のように小文字を用いて表していましたが,有限母集団の場合は抽出操作自体が確率的な操作とみなされますので,観測値が確率変数になります。

    【徹底解説】有限母集団から抽出した標本平均の期待値と分散 | Academaid
    ni66ling
    ni66ling 2023/02/12
    有限母集団における標本平均の分散の導出(有限母集団の修正項の導出)
  • 回帰分析における「調整変数」の選び方:実践編 - Unboundedly

    回帰分析を用いて「●●の効果を推定する」ことに取り組んだことがある人は多いのでは無いかと思います。 回帰モデルには「調整変数」として、年齢・性別・教育歴・(医学研究の場合は)既往歴などなど様々な要因を投入して、その影響を"補正"しますよね。 今回は、これらの「調整変数」をそもそもどのように選べばいいのか、その実践的な考え方についてまとめます。 ステップワイズつかって選べばいいんでしょう? アウトカム/曝露因子と有意に関連しているものを選べばいいんでしょう? とにかくたくさん調整すればするほど良いのでしょう? 調整して推定値が大きく変わるものを使えばいいのでしょう? はいはいドメイン知識、DAGを書くんでしょう? と思った人は参考になるかもしれません。 なお、記事は以下の論文の内容をもとに構成されています。 そもそも「調整」するとはなにか? 教科書的な正解はDAGを書くこと 調整変数選択の

    回帰分析における「調整変数」の選び方:実践編 - Unboundedly
  • 単価診断の2,000人の回答をgoogle data studioで公開してみた - Qiita

    ISSUEサービス内に蓄積された単価診断のデータを公開しました! このレポートを確認するにはこちらからアクセスしてください↓ ISSUEの業務委託単価診断レポート おすすめの使い方 ぜひ、「ISSUEの業務委託単価診断レポート」をブックマークしていただければ幸いです。毎日回答数が蓄積されていくにつれてより正確な単価が算出されていくようになります。どなたでも確認できるように常に公開しておきます。 経緯 2021年末に単価診断機能をリリースしました。おかげ様で約2000人の回答が得られました。一方で副業フリーランスになる方々の単価設定はまだばらつきがあるように感じます。回答結果を参考にして、単価の目安を把握、また次の段階の単価交渉のタイミングを見極める判断材料になれば幸いです。 単価表のインサイト 4,000 ~ 5,000円の単価層が最も多い 診断を回答された方々の中で最も多かったのが4,

    単価診断の2,000人の回答をgoogle data studioで公開してみた - Qiita
  • 賃金構造基本統計調査 | ファイル | 統計データを探す | 政府統計の総合窓口

    時系列(~令和元年まで) 5 令和5年賃金構造基統計調査 247 令和4年賃金構造基統計調査 281 令和3年賃金構造基統計調査 280 令和2年賃金構造基統計調査 286 【参考掲載】令和2年調査と同じ推計方法を用いた過去分の集計(平成18年~令和元年) 906 令和元年賃金構造基統計調査 226 平成30年賃金構造基統計調査 215 平成29年賃金構造基統計調査 216 平成28年賃金構造基統計調査 216 平成27年賃金構造基統計調査 216 平成26年賃金構造基統計調査 218 平成25年賃金構造基統計調査 216 平成24年賃金構造基統計調査 215 平成23年賃金構造基統計調査 217 平成22年賃金構造基統計調査 215 平成21年賃金構造基統計調査 214 平成20年賃金構造基統計調査 143 平成19年賃金構造基統計調査 173 平成18

    賃金構造基本統計調査 | ファイル | 統計データを探す | 政府統計の総合窓口
  • 統計ダッシュボード

    知りたい地域の人口ピラミッドを時系列で表示します。人口構造の変化や将来の人口規模を確認することができます。

  • 【R】順序ロジットモデルと順序プロビットモデル |

    Rで順序選択モデル (ordered choice model) , 具体的には MASS::polr() で順序ロジットモデル (ordered logit model) と順序プロビットモデル (ordered probit model)を試してみたメモ。 目的変数が質的変数で3択以上の場合の分析 順序ロジットモデル / 順序プロビットモデル 順序ロジットモデル / 順序プロビットモデルの例 目的変数が質的変数で3択以上の場合の分析 目的変数が質的変数 [1] の場合, {いいえ, はい} のような2択であればダミー変数として0/1に2値化することで, 結果を自然に確率として解釈しても良さそうである。しかし, 3択以上の場合は少し複雑になる。 目的変数が順序尺度の場合 目的変数が {一等, 二等, 三等, その他} のように順序はあるが等距離を仮定できない場合, 質的変数を量的変数に変

  • ロジットとプロビットの使い分け - アドファイブ日記

    出力変数(被説明変数)がYes/Noみたいな2値で表されるようなモデルを学習させたい場合についてググるとロジスティック回帰とかプロビット回帰とか出てきて、 「どうやらロジスティック回帰を使うのが定石っぽいけど、プロビットっていう良くわからないのがいっつもくっついて説明されてて困るなぁ」 と思ったりするのは僕だけじゃないはず。そこで自分なりに違いを考えたのでシェアしてみます。 問題1(プロビットが合う) 「ある人の年齢Nを聞いたとき、その人が既婚者か」を確率P(N)で表わすという問題を考えてみます。 結婚という「変化のイベント」について考えると、なんとなく平均結婚年齢あたりにピークがあって、その前後ではなだらかに頻度が少なくなっているイメージがあります。なのでその分布を正規分布だとしましょう。そうすると、年齢Nを聞いたときにその人が結婚してるかどうかは、正規分布の累積分布関数P(N)、すなわ

    ロジットとプロビットの使い分け - アドファイブ日記
  • 人間の選択をモデル化するプロビット・ロジットモデルの違いと経済学的解釈法 - バナナでもわかる話

    今日は人間の選択をモデル化する方法について書いてみようと思います。 一応事前にプロビット・ロジットについてネット記事が無いか漁ってみたのですが、 ・機械学習の文脈で説明されていることが多い ・プロビット・ロジットの選択基準が説明変数の観点から説明されていることが多い(実はもう一個ある) ということで 「じゃあ私は経済学的な観点から定式化を行って、統計学的な観点からこのモデルの説明をして、モデルにおける2種類の選択基準に関して説明をすることで差別化して書いてみよう~」 なんて考えてみました。 それでは記事を書いていきます。 ちなみに、プロビット・ロジットや経済学の話はとりあえず良いから、この二つのモデルの違いだけ知りたい!という方は ↓下の方にあるこの見出しから読むと良い感じに理解できるかと。 プロビット・ロジットの特徴 ↑ スポンサーリンク 人間の選択とは まず人間の選択について少し経済学

    人間の選択をモデル化するプロビット・ロジットモデルの違いと経済学的解釈法 - バナナでもわかる話
  • 母比率の区間推定における必要なサンプルサイズの計算フォーム | ブログ | 統計WEB

    誤差(:デルタ) サンプル比率が母比率に対して上下何%の範囲内に収まって欲しいかを表します。 信頼度() 例えば、誤差を5%、信頼度を90%としたとき、これは100回中90回は サンプル比率と母比率との差が±5%の範囲内に収まることを意味します。 母比率() 母集団に含まれる、ある条件を満たす対象の比率です。母比率の予測が困難な場合は50%とすると最も安全なサンプルサイズを求めることができます。 サンプルサイズ 母比率の区間推定は以下の式で行われます。

    母比率の区間推定における必要なサンプルサイズの計算フォーム | ブログ | 統計WEB
  • https://www.smrj.go.jp/doc/research_case/h28_ryokan_full.pdf

  • 統計をグラフにあらわそう(種類と特徴)|なるほど統計学園

    統計は、データを集めて集計しただけでは、単なる数字の集まりであり、そこから何が読み取れるか必ずしも明らかではありません。 統計を作成するときは、必ず、「○○について知りたい!」という目的があるはずですから、得られた結果を、その目的に合わせて上手に使うことが重要です。グラフは、結果を視覚的に表す便利な道具であり、グラフをうまく使うことによって、自分の考えていることを相手に的確に伝えることができます。 グラフにはいくつかの種類があり、それぞれ、得手・不得手があります。自分が伝えたい目的に応じて、適切なグラフを使うことにより、説明力もぐっと高まります。ここでは、そういったグラフの種類やそれぞれの用途、注意点について説明します。 グラフの種類 棒グラフ:棒の高さで、量の大小を比較する。 折れ線グラフ:量が増えているか減っているか、変化の方向をみる。 円グラフ:全体の中での構成比をみる。 帯グラフ:

  • ガンマ分布のはなし - 統計学といくつかのよしなしごと

    いまいちイメージがつかみにくい*1 「ガンマ分布!」と言われてもイマイチなんのこっちゃわかりにくい気がする。二項分布やポアソン分布のように直感的なイメージを持ちにくく、教科書でも「ガンマ分布は指数分布の一般化です」などとどことなく味気ないからだと思う。なので今回は、ガンマ分布の成り立ちとこれに従う現実の現象をみることで、なんとなくイメージを持ちやすくしてもらうことを目指して記事を書いてみる。 ガンマ分布 先に書いた通りガンマ分布は指数分布を一般化したもので、以下の確率密度関数で定義される。 このガンマ分布に対して与えられる意味合いは、「一定期間に1回起きると期待されるランダムな事象が複数回起きるまでの時間の分布」というものだが、なぜこの式がその意味を持つのかを理解するには、幾何分布や指数分布との関連を見ていくのが良い。図示するとこんな感じ。赤枠の確率分布について、以下順に追ってみる。 幾何

  • ビジネス実務の現場で有用な統計学・機械学習・データマイニング及びその他のデータ分析手法10+2選(2016年版) - 渋谷駅前で働くデータサイエンティストのブログ

    そう言えば3年前にこんなまとめ的エントリを書いたのでした。この内容はそのままかなりの部分が2年前に刊行した拙著の原案にもなったということで、色々思い出深いエントリです。 なのですが。・・・この3年の間に統計学・機械学習・データマイニングの諸手法及びそれを取り巻くビジネスニーズには様々な進歩があり、そろそろこの内容にも陳腐化が目立つようになってきました。ということで、3年間の進歩を反映してアップデートした記事を書いてみようと思います。前回は「10選」でしたが、今回は「10+2選」に改めました。そのラインナップは以下の通り。 統計学的検定(t検定・カイ二乗検定・ANOVAなど) t検定 カイ二乗検定 ANOVA(分散分析) その他の検定 重回帰分析(線形回帰モデル) 一般化線形モデル(GLM:ロジスティック回帰・ポアソン回帰など) ロジスティック回帰 ポアソン回帰 正則化(L1 / L2ノルム

    ビジネス実務の現場で有用な統計学・機械学習・データマイニング及びその他のデータ分析手法10+2選(2016年版) - 渋谷駅前で働くデータサイエンティストのブログ
  • Univariate Distribution Relationship Chart

    A clickable diagram of probability distributions and their relationships

  • 日本声優統計学会

    声優統計学会は声優,声,アニメ作品,ラジオ,アニメソング,アニメイベント,アニメスタッフ,及び声優ファンにまつわる諸現象に対して数理統計的・機械学習的アプローチを用いて分析する集団です. 日声優統計学会は正式な学会ではなく,同人活動を行うサークルです. 独自に構築した音素バランス文,及びそれらをプロの女性声優 3 名が 3 パターンで読み上げた音声です. (2020.11.01) あなたがライセンスがある程度自由な音素バランス文やその読み上げ音声を必要としている場合,声優統計コーパスではなく, JVS コーパスの利用を検討してください.より詳しい説明はこちらの文章をお読みください. 更新履歴 詳細な変更履歴はこちら (ChangeLog.md) をご確認ください. 2021年02月28日 : つくよみちゃんコーパスへのリンクを追加. 2020年11月01日 : JVS corpus

  • 因果関係がないのに相関関係があらわれる4つのケースをまとめてみたよ(質問テンプレート付き) - Take a Risk:林岳彦の研究メモ

    どもっす。林岳彦です。ファミコンソフトの中で一番好きなのは『ソロモンの鍵』です*1。 さて。 今回は、因果関係と相関関係について書いていきたいと思います。「因果関係と相関関係は違う」というのはみなさまご存知かと思われますが、そこをまともに論じていくとけっこう入り組んだ議論となります。 「そもそも因果とは」とか「因果は不可知なのか」のような点について論じるとヒュームから分析哲学(様相論理)へと語る流れ(ここのスライド前半参照)になりますし、統計学的に因果をフォーマルに扱おうとするとRubinの潜在反応モデルやPearlのdo演算子やバックドア基準(ここのスライド後半参照)の説明が必要になってきます。 その辺りのガッツリした説明も徐々に書いていきたいとは考えておりますが(予告)、まあ、その辺りをいちどきに説明しようというのは正直なかなか大変です。 なので今回は、あまり細かくて遭難しそうな話には

    因果関係がないのに相関関係があらわれる4つのケースをまとめてみたよ(質問テンプレート付き) - Take a Risk:林岳彦の研究メモ
  • [R] 散布図行列 (corrplot, pairs, GGally)

    データが与えられた時にはまず可視化をします。そのデータがどのような仕組み(メカニズム)で作られてそうなったかを考えるために必須のプロセスです。しかしながら、どんな可視化がベストかははじめの段階では分からず、とにかくプロットしまくることになります。そのとっかかりに僕がよく使うのが散布図行列(scatter matrix,scatter plot matrix)です。 今回は3つほど紹介します。 ●1. {corrplot}パッケージの corrplot()関数 5行目で相関係数行列を作ってそれを渡しておしまいです。相関係数行列の作り方は各自の自由です。上記ではSpearmanの順位相関係数を使っていますがMICとかでもいいと思います。 このcorrplotのデメリットとしましては散布図は表示できない点です。散布図行列と言っておきながらすみません。説明変数が100個以上あるときなどは散布図を描

    [R] 散布図行列 (corrplot, pairs, GGally)
  • 統計を学びたい人へ贈る、統計解析に使えるデータセットまとめ - ほくそ笑む

    はじめに 統計解析の手法を学ぶのに、教科書を読むのは素晴らしい学習方法です。 しかし、教科書で理論的なことを学んだだけでは、統計手法を使いこなせるようにはなりません。 統計解析手法を身につけるには、実際のデータについて手法を適用し、パラメータを変えるなどの試行錯誤を行い、結果を考察するというような経験を積むことが大切です。 それでは実際のデータをどうやって手に入れましょうか? 実験や調査をして実際のデータを得るのは大変でお金もかかります。 幸運なことに、世の中には適度なサイズの自由に使えるデータがたくさん存在します。 例えば、統計言語 R には、100以上ものデータセットがデフォルトで付属しています。 ただし、不幸なことに、それらのほとんどは英語で説明が書かれています。 英語は、いつかは乗り越えなければならない壁ですが、最初のうちはちょっと避けて通りたいところです。 というわけで、今日は、

    統計を学びたい人へ贈る、統計解析に使えるデータセットまとめ - ほくそ笑む
  • 統数研チャンネル - ニコニコチャンネル:社会・言論

    こんにちは!統数研チャンネルへようこそ。 統数研チャンネルでは統計に関する所内講演などを 放送していきます。 ぜひ一度チェックしてみて下さい。 ※統数研チャンネルは 情報・システム研究機構 統計数理研究所の チャンネルです。 http://www.ism.ac.jp/

    統数研チャンネル - ニコニコチャンネル:社会・言論
  • 面白いデータは転がりまくってるけど転がってるままなので誰か助けてくれろ - あんちべ!

    転職して丁度2年がたちました。 現在はWebベンチャーで統計屋しています。大変楽しい毎日です。 なぜ楽しいかというと勿論リスプを書いているからというのも大きなる理由の一つです*1。 このエントリでは何が楽しいのか近況交えてつらつらまとまりなく書いてます。 あと現職の解決しがたい不満についても書いています。 糞長くなってしまったので要約すると 「今糞面白いけど超えられない壁あるので誰か助けて」 です。 現職面白い理由5個。 1.データが面白い*2 私は経済学科・数理統計の研究室出身で、応用先としてコミュニケーション活性化を目的とした 行動経済学やテキストマイニングをやっていました。 そういう背景があるため、学生時代いつか壮大な社会実験をやりたいと思ってたけど、 それには大変なお金がかかったり大がかりなシステムを構築しないといけなかったりで断念した。 ですが今はSNSやソーシャルゲームや広告の

    面白いデータは転がりまくってるけど転がってるままなので誰か助けてくれろ - あんちべ!