タグ

statisticsに関するmzkIIIのブックマーク (28)

  • コラム:サンプル数とは何か?/独立行政法人 労働政策研究・研修機構(JILPT)

    JILPT研究員 堀 春彦 「サンプル数」という用語の氾濫 サンプル数とは何だろうか。アカデミックな研究雑誌で計量分析を行っている論文には必ずといってよいほど登場してくるのが、このサンプル数という言葉である。分析の対象となったデータの観察個数を示すものとして使用されている。われわれの周りには、このサンプル数という用語が氾濫している。しかしながら、このサンプル数という言葉を統計学辞典で検索しても、決してお目にかかることはない。あまりにも当たり前の用語なので、統計学辞典には掲載されていないのだろうか。 以前、執筆した論文を恩師に送付したところ、恩師から「あなたは研究者をやっている資格がありませんね。」と記されたメールを受け取ったことがあった。そこには、データの観察個数を示すために使ったサンプル数という用語の間違いが指摘されていた。データの観察個数を示すとすれば、標の大きさ(サンプル・サイズ)

  • DATA GO JP/open data

    データセット データセットとは、ファイルやURLなどの「オープンデータ」が登録された入れ物を指します。 データポータルでは、複数の切り口からデータセットを探すことができます。

  • 農環研ウェブ高座「農業環境のための統計学」 第12回 「パラメトリック統計学の世界を眺める」 (農業と環境 No.160 2013.8)

    農環研ウェブ高座 「農業環境のための統計学」 第12回 「パラメトリック統計学の世界を眺める」 いまからちょうど一年前の昨年8月に始まった連載〈農業環境のための統計学〉は、当初予定していた通り、今回をもって終わりになります。連載記事を毎回読んでいただいたみなさんにまずはお礼を申し上げなければなりません。連載初回 「前口上-統計学の世界を鳥瞰するために」 のなかで、私は読者のみなさんに次のような前口上を申し上げました: ・ データの荒海を泳ぎ切ってもどこにも 「究極の真実」 などありはしないのだ。 ・ 統計学はその時その場かぎりでの 「最良の結論」 を導く便法にすぎないのだ。 連載を終えるにあたり、一年前のこの前口上の意味するところを連載内容を振り返りながら再確認しておきましょう。 まずはじめに、第一のキーワードである 「究極の真実」 から取り上げます。この甘美な言葉は実に危険な誘惑です。

  • R による統計処理

    「Rによる統計解析」 オーム社 刊 サポートページ 目次 第1章 Rを使ってみる 第2章 データの取り扱い方 第3章 一変量統計 第4章 二変量統計 第5章 検定と推定 第6章 多変量解析 第7章 統合化された関数を利用する 第8章 データ分析の例 付録A Rの解説 付録B Rの参考図書など はじめに R とは何か,何ができるかのリンク集(日のもののみ) R を使うためにはどうしたらいいの? データなどの読み書き R の定石(R に限らずプログラミングの定石も) R を使って実際に統計解析をする AtoZ 一連の流れ データファイルの準備をする 分析してみる 分析結果を LaTeX で処理したり,ワープロに貼り込んだりする 道具立て 連続変数データをカテゴリーデータに変換 カテゴリーデータの再カテゴリー化 度数分布表と度数分布図の作成 散布図・箱髭図の描画 クロス集計(独立性の検定,フィ

  • http://r.livedocs.net/

  • About Quick-R

    R is an elegant and comprehensive statistical and graphical programming language. Unfortunately, it can also have a steep learning curve. I created this website for both current R users, and experienced users of other statistical packages (e.g., SAS , SPSS , Stata) who would like to transition to R. My goal is to help you quickly access this language in your work. I assume that you are already fam

  • RStudioからknitrでレポートを自動作成してみた - Take a Risk:林岳彦の研究メモ

    こんにちは。オソブサ*1でおなじみの林です。お盆なのでBON JOVI聞いています*2。論文はまだ書けていませんけど何か。 さて。さいきんTokyo.Rの和田計也さんという方のちょう素晴らしいプレゼンファイルを拝見いたしました。 そろそろRStudioの話でもしてみようと思う そこでRStudioからレポートを自動作成できるknitrというツールが紹介されていたので、自分でも少しいじってみました。今回はその自習のまとめも兼ねてここにも書いてみたいと思います。 そもそも:Rの結果をどうやって保存してます? ええと。まずそもそもの問題意識なのですが、みなさまはRでの計算結果ってどう保存してますか? これって結構メンドクサイ問題で、いままで私は基的に: テキスト系のアウトプットはテキストファイルへ書き出し(またはコンソールからコピペ) 画像系のアウトプットはpng/PDFなどへ書き出し してい

    RStudioからknitrでレポートを自動作成してみた - Take a Risk:林岳彦の研究メモ
  • RPubs の新着記事をつぶやく Twitter Bot 作った - ほくそ笑む

    R ユーザのための Web サービス RPubs は、R で書かれたプログラムを実行結果つきで簡単に記事にしてアップロードできる仕組みを提供するサイトです。 teramonagi さん、wdkz さん、dichika さん、manozo さん、phosphor_m さんといった、R クラスタの有名人たちがこぞって使用を開始しているのを見ると、流行するきざしが感じ取れて期待が持てます。 先日の wdkz さんの発表資料を見て「自分も RPubs やりたい!」と思った人もいるんじゃないでしょうか。 私もその一人で、いきおいで RPubs に登録してみました。 が、しかし、まあ、なんというか・・・しょぼいです。 RPubs のサイトはまだ作り込まれていないらしく、ほとんど機能がありません。 せっかく上記の有名人たちをフォローしておいて、R の良質な情報源として活用できると期待していたのに、フォロ

    RPubs の新着記事をつぶやく Twitter Bot 作った - ほくそ笑む
  • 主成分分析が簡単にできるサイトを作った - ほくそ笑む

    あけましておめでとうございます。 年もよろしくお願いいたします。 主成分分析 さて、昨年の終わりごろから、私は仕事で主成分分析を行っています。 主成分分析というのは、多次元のデータを情報量をなるべく落とさずに低次元に要約する手法のことです。 主成分分析は統計言語 R で簡単にできます。 例として iris データで実行してみましょう。 data(iris) data <- iris[1:4] prcomp.obj <- prcomp(data, scale=TRUE) # 主成分分析 pc1 <- prcomp.obj$x[,1] # 第一主成分得点 pc2 <- prcomp.obj$x[,2] # 第二主成分得点 label <- as.factor(iris[,5]) # 分類ラベル percent <- summary(prcomp.obj)$importance[3,2] *

    主成分分析が簡単にできるサイトを作った - ほくそ笑む
  • はてなブログ | 無料ブログを作成しよう

    ビールとポップコーンと映画 ラストマイルを見た。良い映画だった。 映画館でべそべそ泣いて、鼻を啜りながら車で帰った。感想はこのブログでは書かない。みんな映画館に行って感じてみてほしい。 帰ってからツイッターで感想を漁り、うんうん、わかるわかる、そうだよね、とまた映画を思い出して…

    はてなブログ | 無料ブログを作成しよう
    mzkIII
    mzkIII 2013/01/11
    最も大切なのはThe aim of studyなのです。
  • はてなブログ | 無料ブログを作成しよう

    ビールとポップコーンと映画 ラストマイルを見た。良い映画だった。 映画館でべそべそ泣いて、鼻を啜りながら車で帰った。感想はこのブログでは書かない。みんな映画館に行って感じてみてほしい。 帰ってからツイッターで感想を漁り、うんうん、わかるわかる、そうだよね、とまた映画を思い出して…

    はてなブログ | 無料ブログを作成しよう
    mzkIII
    mzkIII 2013/01/10
    懐かしい匂いがする。
  • サービス終了のお知らせ - NAVER まとめ

    サービス終了のお知らせ NAVERまとめは2020年9月30日をもちましてサービス終了いたしました。 約11年間、NAVERまとめをご利用・ご愛顧いただき誠にありがとうございました。

    サービス終了のお知らせ - NAVER まとめ
  • 研究者の多くはエラーバーの意味をろくに理解していない - 音風景ブログ

    研究者の多くはエラーバーの意味をろくに理解していない 今日、私は認知科学日記の読者がエラーバーをどれだけ理解しているかを問うオンライン投票を開始した――エラーバーとはよくグラフに乗っている、あの小さなI字型の、統計学の賜物である。正しく理解していないだろうということは、大体予想済みである。なぜそんなに自信があるかって? それは2005年、サラ・ベリア(Sarah Belia)らのチームが、最前線の心理学、神経科学、医学ジャーナルに論文を掲載したことがある数百人の研究者を対象に行った研究成果があるからである。彼らのうちエラーバーと有意さの関係について正しい知識を示したのはほんの一握りであった。論文を掲載した研究者たちができないなら、どうしてカジュアルなブログの読者ができることを前提としてよいだろうか? 信頼区間 まずそもそも、問題の解決法を知るため、少々の説明が必要である。信頼区間というコン

    研究者の多くはエラーバーの意味をろくに理解していない - 音風景ブログ
  • Welcome to a Little Book of R for Biomedical Statistics! — Biomedical Statistics 0.2 documentation

    Welcome to a Little Book of R for Biomedical Statistics!¶ By Avril Coghlan, Parasite Genomics Group, Wellcome Trust Sanger Institute, Cambridge, U.K. Email: alc@sanger.ac.uk This is a simple introduction to biomedical statistics using the R statistics software. There is a pdf version of this booklet available at https://media.readthedocs.org/pdf/a-little-book-of-r-for-biomedical-statistics/latest/

  • WEBで読める統計関係の良質な資料 - Interdisciplinary

    私がよく参考にする所を三箇所紹介します。いずれも、説明が極めて明瞭で、論理的な整合性や用語の丁寧な使い方を志向している所に好感が持てるサイトです。 ▼Econom01 Web Site, Sophia University, Tokyo, Japan 上智大学の大西博氏のサイト。私が統計関連で最もよく参照する所です。説明の仕方の明瞭さや、具体例を用いた解説がとても良いと思います。確率統計の一つ一つの概念について、大変丁寧に説明されています。たとえば、「相関(および因果関係)」については、 2つの変数の同時分布と、その条件付き分布は、変数の間の数量的結び付きを示しています。この数量的結び付きは、統計的頻度分布として観察されるものであり、現象の背後にある実態的な「関係」や「構造」から導かれる法則性を必要としません。 例えば、人間の身長と体重とは密接な統計的分布関係を持っていますが、両変数を決定

    WEBで読める統計関係の良質な資料 - Interdisciplinary
  • Rのちょっと速いコードの書き方

    Rはループ速度が段違いに遅いと言われる。確かにループとメソッド呼び出しで構成したマイクロベンチマークを実行すると、Javaが6.32秒、C++で6.33秒で終わる処理が、87時間18分16.0秒(推定値)かかったりする。S-PLUSやMatlabなどの他の同種の言語よりは高速か同等と指摘されているが、汎用言語に比べると断然遅い(Benchmark 2)。 もちろん大半の計算は問題ない。標数1万ぐらいのサンプルでプロビット分析を行っても、1秒もかからず計算が終わる。コマンドを打っている時間の方が圧倒的に長い。しかし人間はどのような環境でも速度に憧れるものだ。そしてRでも短時間に処理を終わらせる為のコツはある。 1. パッケージや内部関数を使う 大抵の著名パッケージはC言語で実装されているので、内部的な処理は高速だ。Rではなるべくコードを書かない方が良い。スクリプト言語やインタープリッタ全般

    Rのちょっと速いコードの書き方
  • 統計を学びたい人へ贈る、統計解析に使えるデータセットまとめ - ほくそ笑む

    はじめに 統計解析の手法を学ぶのに、教科書を読むのは素晴らしい学習方法です。 しかし、教科書で理論的なことを学んだだけでは、統計手法を使いこなせるようにはなりません。 統計解析手法を身につけるには、実際のデータについて手法を適用し、パラメータを変えるなどの試行錯誤を行い、結果を考察するというような経験を積むことが大切です。 それでは実際のデータをどうやって手に入れましょうか? 実験や調査をして実際のデータを得るのは大変でお金もかかります。 幸運なことに、世の中には適度なサイズの自由に使えるデータがたくさん存在します。 例えば、統計言語 R には、100以上ものデータセットがデフォルトで付属しています。 ただし、不幸なことに、それらのほとんどは英語で説明が書かれています。 英語は、いつかは乗り越えなければならない壁ですが、最初のうちはちょっと避けて通りたいところです。 というわけで、今日は、

    統計を学びたい人へ贈る、統計解析に使えるデータセットまとめ - ほくそ笑む
  • はてなブログ | 無料ブログを作成しよう

    プロジェクトマネジメントで娘の夏休みの宿題炎上を防止しました 娘の夏休みの宿題プロジェクト炎上 8歳9歳の娘が朝から泣きわめいていたので、何ごとかと思い話を聞いてみました。泣きじゃくっていたので要領を得なかったのですが、まとめると以下みたいでした。 「宿題やったのに、ママがテレビを見せてくれない。自分は頑張った…

    はてなブログ | 無料ブログを作成しよう
  • はてなブログ | 無料ブログを作成しよう

    盛岡旅行記 なぜ盛岡か。 白龍 店のじゃじゃ麺 岩手銀行赤レンガ館 白沢せんべい店の南部せんべい 盛岡天満宮と盛岡八幡宮 チーズケーキのチロル 大通店のクリームチーズケーキ フェザン/イオンタウン 盛岡駅前 盛楼閣の盛岡冷麺 福田パン 長田町店のパン マルイチ 材木町店 …

    はてなブログ | 無料ブログを作成しよう
  • 科学コミュニケーション――より基本的な知識を普及させる事の大切さ - Interdisciplinary

    何か稀な出来事が起きた場合に、その時に自分が着目しているものと結びつけて考えようとする事、ありますよね。 今だと、「放射能」。何千人に一人しか罹らない疾患の人がいる、という情報があった時に、「放射能(←象徴的にこういう表現がされる)の影響ではないか」と結びつけて考える、というようなもの。 それで、そういう拙速な論に対して、批判が色々加えられる訳ですね。論として明快で、批判として合理的なものがある。 でも、そういう場合に気をつけておかねばならないのは、ちゃんとした説明でも、必ずしも相手やギャラリーに通ずるとは限らない、という所です。 どういう事かと言うと……。 たとえば、○○病という病気に罹った人が出たようだ、といった情報が、twitterなりブログなりでもたらされたとします。そして、その情報を得た人は、これはあの事に関係があるやも知れない、と考えて、今度はtwitterやブログで発信する。

    科学コミュニケーション――より基本的な知識を普及させる事の大切さ - Interdisciplinary