タグ

統計に関するcloqのブックマーク (12)

  • 統計科学のための電子図書システム

    2019年10⽉1⽇ 統計科学のための電子図書システムは 統計数理研究所の機関リポジトリに移行しました。 移行後のページ

  • 薬害オンブズパースン会議の「個々の症状ごとに比べても意味がない」という批判の解説 - NATROMのブログ

    名古屋市がHPVワクチン(いわゆる子宮頸がんワクチン)の接種者と非接種者を対象に行ったアンケート調査において、「社会的影響が大きく、市だけで結論は出せない」として最終報告書では評価を示さなかったことが報じられた。 ■子宮頸がんワクチン調査で名古屋市が結論撤回:朝日新聞デジタル 調査は、ひどく頭が痛い▽簡単な計算ができなくなった▽手や足に力が入らない、といった接種の副反応にみられる24の症状の有無などを尋ねるもの。その結果、接種者に「多い症状」はなかった。一方、接種者に「少ない症状」は、関節やからだが痛む▽杖や車いすが必要になった、など15症状あった。 これを受け、市は昨年12月、「接種者に有意に多い症状はなかった」との評価を発表したが、薬害監視の民間団体「薬害オンブズパースン会議」が「副反応の症状は複合的で、一人が複数の症状を持っている。個々の症状ごとに接種者と非接種者との有意差を比べても

    薬害オンブズパースン会議の「個々の症状ごとに比べても意味がない」という批判の解説 - NATROMのブログ
    cloq
    cloq 2016/06/28
    接種-非接種の個々の検定ってどうやるんだろう…permutationとかブートストラップかなあ(無知)。2024回の検定は安直に有意水準調整に頼ってしまいそうw
  • p値を計算したくなる検定の数々を試しにStanによるベイジアンモデリングで代替してみた - 渋谷駅前で働くデータサイエンティストのブログ

    この記事は、やたらはてブを稼いでしまった前回の記事の続きです。 ASAのプレスリリース及び声明の中には、確かに「p値に依拠しない新たなアプローチの例」として予測値を重視するアプローチ*5、ベイジアンモデリング、決定理論的アプローチ*6およびfalse discovery rate*7といったものを用いるべき、という趣旨のコメントが入っています。とは言え、重回帰分析とか機械学習のような多変量モデリング(なおかつサンプルサイズも大きい)を伴うテーマならともかく、統計学的仮説検定のようなサンプルサイズも小さい(データも少ない)シチュエーションでどうやるんだよ的な疑問を持つ人も多いのではないかと。 そんなわけで、実際にそれっぽい各種検定の数々をStanによるベイジアンモデリングで代替してみたので、この記事ではその結果をつらつら紹介してみようと思います。テーマは前々回のこちらの記事の1節で取り上げた

    p値を計算したくなる検定の数々を試しにStanによるベイジアンモデリングで代替してみた - 渋谷駅前で働くデータサイエンティストのブログ
  • 「p値や有意性に拘り過ぎるな、p < 0.05かどうかが全てを決める時代はもう終わらせよう」というアメリカ統計学会の声明 - 渋谷駅前で働くデータサイエンティストのブログ

    以前から同様の指摘は様々な分野から様々な人々が様々な形で出してきていましたが、アメリカ統計学会が以下のような明示的な声明をこの3月7日(現地時間)に発表したということで注目を集めているようです。 AMERICAN STATISTICAL ASSOCIATION RELEASES STATEMENT ON STATISTICAL SIGNIFICANCE AND P-VALUES Provides Principles to Improve the Conduct and Interpretation of Quantitative Science https://www.amstat.org/newsroom/pressreleases/P-ValueStatement.pdf The ASA's statement on p-values: context, process, and p

    「p値や有意性に拘り過ぎるな、p < 0.05かどうかが全てを決める時代はもう終わらせよう」というアメリカ統計学会の声明 - 渋谷駅前で働くデータサイエンティストのブログ
    cloq
    cloq 2016/03/08
    “「検定」ではなく「モデリング」へとシフトしていくべきなのかなと思う次第” うーむ…
  • 統計・データ解析

    『Rで楽しむ統計』が出ました。サポートページ 『Rで楽しむベイズ統計入門』が出ました。サポートページ,第7章のRコードをStanで書き直したRで楽しむStan 全国学力・学習状況調査の個票の疑似データがこちらで公開されています。データ分析の練習に使えそうです。SSDSE(教育用標準データセット)も。 R 4.x では stringsAsFactors=FALSE がデフォルトになりましたが,サイトの古い記事ではそうなっていないところがあるかもしれません(read.csv() などで as.is=TRUE は不要になります(あってもかまいませんが))。 R 4.2 ではWindowsでもMac同様UTF-8がデフォルトになりました。もう fileEncoding オプションに "UTF-8","UTF-8-BOM" を指定する必要はなくなりそうです。一方で、SJIS(CP932)データの場

  • マイナーだけど最強の統計的検定 Brunner-Munzel 検定 - ほくそ笑む

    対応のない 2 群間の量的検定手法として、最も有名なのは Student の t 検定でしょうか。 以前、Student の t 検定についての記事を書きました。 小標問題と t検定 - ほくそ笑む しかし、Student の t 検定は、等分散性を仮定しているため、不等分散の状況にも対応できるように、Welch の t 検定を使うのがセオリーとなっています。 ただし、これら 2つの検定は分布の正規性を仮定しているため、正規性が仮定できない状況では、Mann-Whitney の U検定というものが広く使われています。 Mann-Whitney の U検定は、正規性を仮定しないノンパラメトリック検定として有名ですが、不等分散の状況でうまく検定できないという問題があることはあまり知られていません。 今日は、これらの問題をすべて解決した、正規性も等分散性も仮定しない最強の検定、Brunner-

    マイナーだけど最強の統計的検定 Brunner-Munzel 検定 - ほくそ笑む
  • 生態学データ解析 - FAQ 一般化線形モデル

    ここでは R の glm() を使って解析した場合の説明をしてみます 参照: FAQ 系ペイジ一覧, GLM 参照, summary(glm()) の星 この説明もしっかり読みましょう!信頼区間って難しい… [項目] 研究発表で「GLM を使った」と説明するときにはどうしたらよいでしょうか? GLM で得られた結果を発表・説明するときにはどうしたらよいでしょうか? 説明変数,応答変数って何ですか? family で指定する確率分布は「誤差の分布」ですか? family 指定はどうすればよいのでしょうか? 応答変数のばらつきが family 指定ではうまく表現できないときはどうすればいいのでしょうか? (一般化) 線形モデルは必ず交互作用項を含んでいなければならないのですか? glm() とかで Y ~ X1 + X1:X2 というふうに X2 は使わないときに交互作用項 X1:X2 だけを

    cloq
    cloq 2013/11/22
  • Rとカテゴリカルデータのモデリング(1)

    データサイエンスの分野では、観測データからノイズを取り除き、一定の法則を見つけ出して抽象化することをモデリングと呼ぶ。量的データの最も簡単なモデルは回帰分析である。欄の第13回~16回(2004年8月号~11月号)で線形・非線形回帰モデルについて説明した。稿では、カテゴリカルデータのモデリングについて説明する。 モデリングには、応答変数が何らかの確率分布に従うという仮定の下で、モデルに必要となる係数・パラメータを推測する方法が最も多く用いられている。一般の線形回帰分析はデータが正規分布に従うという仮定の下で、モデルの推定を行う。 カテゴリカルデータの場合は、観測データが2項分布、ポアソン分布、多項分布、などの確率分布に従うと見なし、モデルを推測する。 しかし、何らかの仮定の下で構築したモデルが真のモデルであるかどうかは判断できない。同一のデータについて異なる仮定の下で推定した複数のモデ

    cloq
    cloq 2013/11/22
  • 群ごとの平均値・不偏分散を統合する方法

    計算手順: 群の数が $k$ の場合に,群ごとの有効ケース数 $n_i$,平均値 $\bar{X}_i$,不偏分散 $U_{i}\ (i=1,2,\dots ,k)$ が求められているとする。定義式は以下の通り。 \[ \bar{X}_i = \frac{\displaystyle\sum_{j=1}^{n_i} X_{ij}}{n_i} \] \[ U_i = \frac{\displaystyle\sum_{j=1}^{n_i} \left (X_{ij}-\bar{X}_i \right )^2}{n_i-1} \] 全群をこみにした有効ケース数 $n_t$ は,次式で求められる。 \[ n_t = \sum_{i=1}^k n_i \] 例題では,$n_t = 8 + 11 + 22 + 6 = 47$ 全群をこみにした平均値 $\bar{X}_t$ は,次式で求められる。 \[

  • Rプログラム (TAKENAKA's Web Page)

    R でプログラミング:データの一括処理とグラフ描き started on 2005-06-06 updated on 2017-09-16 竹中明夫 この文書は,フリーの統計解析・作図システム R を使って, データの一括処理と図化のプログラムを書けるようになるためのチュートリアルです. R の経験がまったくなくても読めるように書いています. ただし統計解析手法そのものについての解説はほとんどしていません. ひとつ覚えた統計解析用の関数を使って、 数十セットのデータを一度に処理しりたいとか、 ついでに自動的に作図してしまいたいとか、 統計解析の前にデータを一通りグラフにして全体像を見たいとか、 解析・作図の手順をプログラムとして書きとめ、 再利用できるようにしたいといった要望に応えるための文書です。 まずは はじめに:この文書のねらい をごらんください。 終りにでも、この文書の守備範囲に触

  • 二群の等分散性の検定

    二群の等分散性の検定     Last modified: Feb 08, 2007 例題: 「ある地区で行った 40 歳以上 65 歳未満の住民検診に来所した男子 42 名,女子 63 名の血色素量についての検査成績は,男子では平均値 15.2 g/dl,不偏分散 1.1,女子では平均値 12.7 g/dl,不偏分散 3.2 であった。男女の分散に差はあるか,有意水準 5% で両側検定しなさい。」 検定手順 前提 帰無仮説 $H_0$:「2 群の母分散は等しい」。 対立仮説 $H_1$:「2 群の母分散は等しくない」。 有意水準 $\alpha$ で両側検定を行う(片側検定も定義できる)。 注:等分散であるかどうかを確かめてから,普通の $t$ 検定を使うか,Welch の方法による $t$ 検定にするかを決めるというのは,よくない。最初から Welch の方法による $t$ 検定を使え

    cloq
    cloq 2013/06/13
  • 基礎的統計解析の誤用をなくすための30のチェック項目

    稿は,研究論文や学会発表のさいの自己点検項目として,あるいは指導上の指針として活用されることを目的として,心理学研究における基礎的な統計解析の誤用を克服するための30のチェック項目を提起するものである. 統計の誤用は,心理学の論文ではかなりの比率で認められるものである.私自身も過去に多くの誤りをおかしてきた.“赤信号みんなで渡ればこわくない”という言葉がある.もし心理学者たちの多くが,この誤りを繰り返し許容していたとするなら事は重大である.統計の誤用は英語の誤用とは異なる.英語で書かれた論文に文法上の誤りや稚拙な表現があったとしても,内容が誤って伝えられない限りは大目にみてよろしかろう.しかし,統計の誤用は,結論やその後の研究の方向に致命的な影響を及ぼす.心理学の研究を正しく発展させるためには,心理学者自らが日常的に自己点検をしていかなければならない. 1993年度の心理学会では個人の研

  • 1