統計に関するindenkunのブックマーク (21)

  • GLMMをRで実行する方法 | Sunny side up!

    RでGLMMができる関数 RではGLMMを実行するためのプロシージャはいくつかあります。代表的なのは,glmmMLパッケージのglmmML関数と,lme4パッケージのglmer関数でしょうか。 glmmML関数は,ガウス-エルミート求積法による積分計算を行うので推定精度は高いようです。ただし,SASの時と同様に,変量効果は1種類しか指定できません。 一方,lme4パッケージのglmer関数は,ラプラス近似を用いますが,変量効果は複数推定することができます。 どちらがオススメか,というのは難しいところですが,変量効果が一つだけならglmmMLが,それ以上ならlme4がいいように思います。lme4はバージョンによっても結果が変わってきていて,現状の最新版のver 1.1-7はSASと一致する結果が得られましたが,ver 1.0-5では標準誤差がやや小さめに推定されていました。この辺りの不安定な

    indenkun
    indenkun 2023/12/08
    “glmmML関数は,ガウス-エルミート求積法による積分計算を行うので推定精度は高いようです。 一方,lme4パッケージのglmer関数は,ラプラス近似を用いますが,変量効果は複数推定することができます。”
  • A Tutorial on LME and VWP

    背景と概要 近年盛んに⼼理⾔語学分野で⽤いられている視線計測実験は、 専攻の学⽣の関⼼を多く集めていますが、 個⼈で装置にアクセスして技術を習得することは困難です。 そこで統計分析/視線計測実験の経験を持つ 申請者がその知識を活かし、 パンデミック収束後多くの学⽣がプロジェクトを開始できるよう、 (i) データ分析 と (ii) 視線計測実験のセットアップ/実施 を技術指導します。 なお感染防⽌に万全の注意を払うため、 形式は必要に応じて以下を想定しています。 (i) オンラインでのワークショップ型指導 (ii) ラボ内での対⾯実習指導 (1–2名を上限とした⼩数指導) また成果を活かした技術資料および、 トレーニング課題(サンプル実験を含む)の作成を⾏い オンライン媒体で共有します。 なお、このウェブページはデモですので、 将来的にURLが変更される可能性があります。 LME資料 日程は

    indenkun
    indenkun 2023/12/08
    "線形混合効果モデル・視線計測実験のオンラインチュートリアルサイト"
  • easystats(+ ggeffects)でglmやglmerの結果を簡単に抽出&検証&描画! - Qiita

    Rで統計解析を行う際には、しばしばモデルからのデータの抜き出しや結果の描画が面倒です。それはパッケージ間で出力結果の形式が異なったり、出力された結果自体が複雑な構造を持つオブジェクトに格納されるためです。 それを解決するのがeasystatsパッケージ群であり、Qiitaでこの一年その便利さをたびたびご紹介してきました。 せっかくのAdvent Calendarなので、ここではそれらの記事の振り返りもかねて自分なりにeasystatsパッケージ群の便利さをご紹介したいと思います。 他の方による紹介記事であるeasystatsについて①: パッケージ群の紹介もご覧いただくと、より理解が深まるかと思います。 easystatsとは? easystatsはRのパッケージ群です。このパッケージ群は、おっかないRの統計とそのやっかいなモデルたちを、手懐け、しつけて、うまく利用するための統合的で一貫し

    easystats(+ ggeffects)でglmやglmerの結果を簡単に抽出&検証&描画! - Qiita
  • データセットの本質的な性質を踏まえないデータ分析には、大抵何の意味もない - 渋谷駅前で働くデータサイエンティストのブログ

    前回のブログ記事は、論文紹介という地味なテーマだったにしてはだいぶ話題を呼んだ*1ようで、個人的にはちょっと意外な感があったのでした。確かに、今をときめくTransformerにも苦手なものがあるという指摘は、NN一強の現代にあってはセンセーショナルなものと受け止められても不思議はなかったかと思います。 しかし、それは同時に「データセットが持つ質的な性質」と「データ分析手法の性質」とのミスマッチと、それが引き起こす問題とについてこれまであまり関心を持ってこなかった人が多いということなのかもしれません。そして、そのミスマッチは冗談でなく古来からある程度定まった類型があり、データ分析業界の古参なら「そんなの常識だよ」というものばかりだったりします。 ところが、最近僕の周囲でもそういうミスマッチが深刻な実問題を招いているケースが散見され、思ったよりもそれは常識ではないのかな?と思わされることが

    データセットの本質的な性質を踏まえないデータ分析には、大抵何の意味もない - 渋谷駅前で働くデータサイエンティストのブログ
    indenkun
    indenkun 2023/12/04
    “「分析は始める前から既に成否が決まっている」わけで、是非読者の皆様におかれましては分析を始める前のデータセットの準備(場合によってはデータセットの「発生源」の適正化)から注力していただければ”
  • CausalImpactは実装によって中身に重大な差異がある - 渋谷駅前で働くデータサイエンティストのブログ

    CausalImpactについては、過去にこのブログでも何度か話題にしてきたかと思います。端的に言えば、seasonalityによるバイアスを補正するための実験計画であるDID(Difference in Differences:差分の差分法)によって得られたtest/controlグループの時系列データセットに対して、介入後期間において反実仮想(counterfactual)ベースラインを予測値として与えた上で、これと実測値との差を分析することで介入の因果効果を推定するというものです。以前このブログで取り上げた記事と、ill-identifiedさんの詳細な解説記事とを以下に挙げておきます。 実際の使い方については、このブログで取り組んだ事例の記事を以下に挙げておきます。これはコロナ禍における政府の人流抑制策が、現実としてどれくらいの効果があったかを検証しようとしたものです。 業界全体を

    CausalImpactは実装によって中身に重大な差異がある - 渋谷駅前で働くデータサイエンティストのブログ
    indenkun
    indenkun 2023/12/04
    “「論文通りに実装されていない」ケースは少なくない”“「実装の中身」がどうなっているかをきちんとソースコードを読んで確認することも時には必要なのかな” Use the Source, Luke
  • メタアナリシスで、サンプルサイズが最も大きいわけではないのに、weightが最大になるのはおかしくないですか? - 驚異のアニヲタ社会復帰の予備

    という質問を受けた。 結論から言うとおかしくない。メタアナリシスのweight は各研究内の分散 と研究間の分散により (fixed model の場合)もしくは(random effect model の場合) で決まるから、分散が小さい、すなわち推定精度の高い研究はweight が大きくなる。サンプルサイズが大きいと推定精度が増すので、サンプルサイズが大きいことがweight を大きくする要因だが、分散がそもそも小さいことも重要である。 とあるメタアナリシスで、サンプルサイズが114+115のKienast という研究(29%)より、サンプルサイズが33+23のBaudoという研究(57%)のほうがweight が大きい。 Baudo の研究だけ取り出してみると、分割表は であるが、周辺度数を固定したときに、この分割表の取りうる運命は、 を変動させて となる。 を変動させて、そのときの

    メタアナリシスで、サンプルサイズが最も大きいわけではないのに、weightが最大になるのはおかしくないですか? - 驚異のアニヲタ社会復帰の予備
    indenkun
    indenkun 2023/11/21
    “メタアナリシスの分散が小さい、すなわち推定精度の高い研究はweight が大きくなる。”
  • Rで実践!欠損データ分析入門【1】 | NHN テコラス Tech Blog | AWS、機械学習、IoTなどの技術ブログ

    こんにちは。データサイエンスチームの t2sy です。 この記事は DataScience by DATAHOTEL tech blog Advent Calendar 2017 の8日目の記事です。 2回に渡り、欠損データの可視化・検定・代入に関するCRANパッケージをご紹介します。 今回、ご紹介するCRANパッケージは以下になります。 VIM BaylorEdPsych imputeMissings mice 実行環境は R 3.3.2 です。 例として米国ボストン市郊外における地域別の住宅価格のデータセットである BostonHousing を扱います。BostonHousing データセットには以下のカラムがあります。 crim: 人口1人当たりの犯罪発生率 zn: 25,000 平方フィート以上の住居区画の占める割合 indus: 小売業以外のビジネスが占める面積の割合 chas

    Rで実践!欠損データ分析入門【1】 | NHN テコラス Tech Blog | AWS、機械学習、IoTなどの技術ブログ
    indenkun
    indenkun 2023/11/20
    “LittleのMCAR検定はデータが MCAR または MAR であるという帰無仮説のもとで検定を行います。”
  • 一般化線形モデルと一般化線形混合モデル - Qiita

    はじめに 千葉大学・株式会社Nospareの川久保です. 今回は,回帰モデルのうち,目的変数が連続変数ではなく,カウントだったり二値変数だったりする場合のモデルを含んだ一般化線形モデル(Generalized Linear Model, GLM)について解説します.また,GLMに変量効果を導入した一般化線形混合モデル(Generalize Linear Mixed Model, GLMM)も解説します. 一般化線形モデル(GLM) 線形モデル(LM)のおさらい 目的変数 $y_i \ (i=1,\dots,n)$ を説明変数 $x_i = (x_{i1},\dots,x_{ip})^\top$の線形結合で説明することを目的とした, $$ y_i = x_i^\top \beta + \varepsilon_i, \quad \varepsilon_i \overset{\mathrm{ii

    一般化線形モデルと一般化線形混合モデル - Qiita
  • Hosmer-Lemeshow test results depend upon which category of the dependent variable is treated as the target category

    indenkun
    indenkun 2023/05/17
    ""deciles of risk," attempting to place 10% of the cases in each decile. Unless the number of cases is an exact multiple of 10 and there are no ties among cases at the grouping cut points, there is no unique way to assign cases to groups."
  • SPPSによる多重ロジスティック回帰分析の結果の見方をわかりやすく解説 ロジスティック回帰モデルにおけるオッズ比とは? 偏回帰係数・AIC・Hosmer-Lemeshow(ホスマー・レメショウ)検定って何?論文での記載方法は?

    SPPSによる多重ロジスティック回帰分析の結果の見方をわかりやすく解説 ロジスティック回帰モデルにおけるオッズ比とは? 偏回帰係数・AIC・Hosmer-Lemeshow(ホスマーレミショー)検定って何? 前回の記事で多重ロジスティック回帰分析の方法についてご紹介させていただきました. ここでは多重ロジスティック回帰分析の結果の見方についてご紹介させていただきます.

    SPPSによる多重ロジスティック回帰分析の結果の見方をわかりやすく解説 ロジスティック回帰モデルにおけるオッズ比とは? 偏回帰係数・AIC・Hosmer-Lemeshow(ホスマー・レメショウ)検定って何?論文での記載方法は?
    indenkun
    indenkun 2023/05/17
    メモ:Hosmer-Lemeshow testの自由度はspssだと何によって決定されるのだろうか。選択肢はなさそうだが、貼り付けられた画像では自由度2となっているが。
  • Little's Missing Completely at Random (MCAR) 検定 - 井出草平の研究ノート

    naniarパッケージを用いた方法 library("naniar") Little (1988)の検定統計量を用いて、データが完全にランダムに欠落しているかどうか(MCAR)を評価する。この検定の帰無仮説は、データがMCARであるというもので、検定統計量はカイ二乗値である。 mcar_test(airquality) 結果。 statistic df p.value missing.patterns 1 35.1 14 0.00142 4 P値が5%以下であるため、このデータは完全にランダムに欠損値が発生しているわけではないことがわかる。 mistyパッケージを用いる方法 library(misty) na.test(airquality) 結果。 Little's MCAR Test n nIncomp nPattern χ² df pval 153 42 4 35.11 14 0.0

    Little's Missing Completely at Random (MCAR) 検定 - 井出草平の研究ノート
    indenkun
    indenkun 2023/04/14
    ”Little (1988)の検定統計量を用いて、データが完全にランダムに欠落しているかどうか(MCAR)を評価する。”
  • Phindでリコードのコードを書く[R] - 井出草平の研究ノート

    統計の分野の人がリコードと呼ぶ作業をPhindで実験してみた。リコードという呼び方は方言(ジャーゴン)だそうで、プログラミングの分野ではnormalizeかcanonicalizeと呼ぶらしい。統計でnormalizeというと正規分布を用いて0から1までの数字にすることなどを指すことが多いので、まだまだ難しい問題が横たわっている。少なくとも、現在のAIでは詳しく作業内容(プロンプト)を説明しないといけない。 Phindのコマンド Rのコードを作成してください。 dataというデータフレームにtimeという変数が入っており、データタイプはnumeric型です。 値は1から7までの値をとります。dplyrパッケージを用いて、 値1を0.5に、2を0.75、3を1.5、4を2.5、5を3.5、6を4.5、7を欠損値に書き変えるコードを書いてください。 library(dplyr) data %>

    Phindでリコードのコードを書く[R] - 井出草平の研究ノート
    indenkun
    indenkun 2023/04/07
    “memiscやcarはデータラベルを書き換えるだけで、データそのものを置き換えていない。view()コマンドで確認しても、表示されているのはデータラベルであり、データそのものが置き換わっているかは確認できない”
  • 局所的平均処置効果(LATE) - Qiita

    indenkun
    indenkun 2023/03/27
    “Rubinの因果モデルの考え方と2値変数の操作変数による推定法を組み合わせることで,因果効果の推定が可能であることを示したのである.”
  • Rで学ぶ計量経済学と機械学習 8 計量経済学4:固定効果モデル

    indenkun
    indenkun 2023/03/22
    “固定効果モデルはパネルデータの分析で使われる代表的な分析手法のひとつである。”
  • Rで学ぶ計量経済学と機械学習 9 計量経済学5:差分の差分(DID)法

    indenkun
    indenkun 2023/03/22
    “lm_robust()を用いた差分の差分法(Difference-in-Differences)の推定の基礎を学ぶ。 ”
  • 統計学の講義資料(2022年度) | Logics of Blue

    帝京大学経済学部で用いた講義資料です。 2022年度の統計学I及び統計学IIの講義スライドを編集したうえでUPしています。 目次 資料について 統計学の講義資料 1.資料について 帝京大学経済学部で用いた講義資料です。 2022年度の統計学I及び統計学IIの講義スライドを編集したうえでUPしています。 もとの講義資料とは異なる点もあるのでご注意ください。 万が一何か問題があれば、当ブログにコメントをいただけますと幸いです。 スライドにも記載の通り、以下の利用を想定しています。 想定①:講義の受講者が復習に利用する 想定②:未受講者が統計学入門資料として利用する 基的には想定①ですが、文系の学生をメインターゲットとした統計学の格的入門資料は少ない印象です。 未受講者の方にも役に立つかもしれないと思いWeb上で公開することにしました。 資料は1年間にわたる講義資料となっています。数回

    indenkun
    indenkun 2023/02/20
    “1年間にわたる講義資料”
  • easystatsについて①: パッケージ群の紹介 - ★データ解析備忘録★

    これはR Advent Calendar2019の第1日目の記事です。 はじめに R言語の特徴として 統計解析向けの手法がたくさん実装されている CRANやGitHubに誰でもパッケージを公開できる というものがあるかと思います。他にも tidyverse パッケージ群の登場によってデータハンドリング、可視化周りが強くなったり、shiny パッケージでwebアプリが作れたりと最近は色々できるようになっていますが、上記の特徴は大きな特徴の一つと僕は思います。 さて、いろんな手法を別の人が実装した結果、各パッケージのアウトプットが異なるという問題がおこります。(手法が違えば出力が違うのはしょうがないのですが。)例えば、同じデータでいくつかの手法で試してみてその結果を比較したいとき。 model1 <- lm(Sepal.Length ~ Petal.Length, data=iris) mod

    easystatsについて①: パッケージ群の紹介 - ★データ解析備忘録★
    indenkun
    indenkun 2023/02/18
    “統計モデル系のパッケージの間を埋めてくれるのが easystats パッケージ群”
  • Framework for Easy Statistical Modeling, Visualization, and Reporting

    indenkun
    indenkun 2023/02/17
    “easystats is a collection of R packages, which aims to provide a unifying and consistent framework to tame, discipline, and harness the scary R statistics and their pesky models.”
  • 状態空間モデルを用いた因果効果の推定: CausalImpact - Qiita

    東京大学・株式会社Nospareの菅澤です. 今回は状態空間モデルによる時系列予測手法を用いた因果効果の推定手法であるCausalImpactについて紹介します. CausalImpactとは CausalImpactはGoogleによって開発された因果効果推定の方法です.手法の詳細はBrodersen et al. (2015, AoAS)に記載されており,手法を実装したRパッケージも公開されています. CausalImpactは,ある介入が時間変化するアウトカムにどのような影響を与えるかを推定(推測)するための手法です.時間変化するアウトカム(時系列データ)に対して因果効果を推定する有名な方法としてDifference-in-Difference (DID)がありますが,DIDよりも緩い仮定のもとで時間変化する因果効果を推定できる方法として知られています. CausalImpactのコ

    状態空間モデルを用いた因果効果の推定: CausalImpact - Qiita
    indenkun
    indenkun 2023/02/17
    “CausalImpactのコアのアイデアは 「介入前のデータから反実仮想(介入が行われていない仮想世界)のデータを補完して,実際の観測データと比較する」 です.”
  • 決定係数 R2の違い: Excel, OpenOffice, LibreOffice および統計解析ソフト R を用いて

    この表から,以下のことが容易に分かる。 Excel の決定係数はマイナス ExcelLinest 関数と統計ソフト R では,同じ決定係数 Calc の決定係数は,相関係数の 2 乗 それでは, Excel のグラフと Linest 関数,および統計ソフト R の決定係数は,どのように算出されるのだろうか? それを明らかにするためには,まず回帰分散分析として,y 観測値を,以下のような3種類の変動として捉えてみることが必要になる。 回帰変動(回帰平方和, RSS, Regression Sum of Squares) 残差変動(残差平方和, SSR,Sum of Squared Residuals) 全変動(全平方和, TSS,Total Sum of Squares) 全変動は回帰変動と残差変動の和になる。 TSS = RSS + SSR この中で,特に SSR と TSS に焦点