タグ

ブックマーク / okumuralab.org/~okumura (8)

  • 統計・データ解析

    『Rで楽しむ統計』が出ました。サポートページ 『Rで楽しむベイズ統計入門』が出ました。サポートページ,第7章のRコードをStanで書き直したRで楽しむStan 全国学力・学習状況調査の個票の疑似データがこちらで公開されています。データ分析の練習に使えそうです。SSDSE(教育用標準データセット)も。 R 4.x では stringsAsFactors=FALSE がデフォルトになりましたが,サイトの古い記事ではそうなっていないところがあるかもしれません(read.csv() などで as.is=TRUE は不要になります(あってもかまいませんが))。 R 4.2 ではWindowsでもMac同様UTF-8がデフォルトになりました。もう fileEncoding オプションに "UTF-8","UTF-8-BOM" を指定する必要はなくなりそうです。一方で、SJIS(CP932)データの場

  • Rの初歩

    Rのインストール R(アール)は統計・データ解析・統計グラフ作成のためのオープンソースソフトです。CRAN(「シーラン」または「クラン」、Comprehensive R Archive Network)のミラーサイト(日では統数研 https://cran.ism.ac.jp/ など)からダウンロードし、インストールしてください。Windows用、Mac用、Linux用があります。 最近では下図のような RStudio(アール・スタジオ、英語の発音により忠実に書けばアール・ステューディオまたはアール・ストゥーディオ)という統合開発環境(IDE)を介してRを使う人が増えています。Download RStudio Desktop のページからダウンロードしてインストールします。 RStudio。左上ペインがソースエディタ(この図では隠れている)、左下がRコンソール、右上がグローバル環境のオブ

    screwbound
    screwbound 2013/10/23
  • データは自動処理可能な形で提供してほしい | Okumura's Blog

    今回の大震災に伴う原発事故であちこちで放射線の強度が公開されているが,多くはPDF形式で,数値が取り出しにくく,ひどいものは印刷してからスキャンした画像PDFである。いくつか重要なものはExcel/CSV化してとりあえず http://oku.edu.mie-u.ac.jp/~okumura/stat/data/ で公開しているが,もともと機械可読(自動処理可能)な形で提供してほしい。しかも,時間をかけてワープロできれいに罫線を引いて手打ちするのではなく,測定値を実時間で提供する仕組みを作ってほしい。なお,このようなデータ提供のセンスも情報リテラシー教育の一つとして学校で教えてほしい。 一番重要なデータは東京電力が提供する福島第一・第二原子力発電所のモニタリングの結果である。以前はプレスリリースからたどるのがわかりやすかったのでこのページをチェックしていたが,「3月18日福島第二原子力発電

  • またもや相関関係と因果関係が混同されている | Okumura's Blog

    幼稚園出身の子の正答率、高い傾向 全国学力調査(朝日),学力テスト:正答率、保育所より幼稚園? 関係者に戸惑い(毎日),憂楽帳:保育園?幼稚園?(毎日),幼稚園出身が学テ好成績の傾向 データ取り扱いに波紋も(47NEWS),保育所に通った子どもより幼稚園に通った子どものほうが小6,中3ともに正答率が高い。 記事の中では家庭環境や家計などの要因を示唆していても,題名から受ける印象は異なる。特に毎日の憂楽帳は,「今回の結果に戸惑い、納得できないという人は少なくないはずだ。では、どうすればいいのか。早く答えを見つけないと。しわ寄せを受けるのは、子どもたちなのだから」と締めくくっており,誤解を煽っているようにも聞こえる。 元データを探したら,国立教育政策研究所の「平成22年度 全国学力・学習状況調査 結果概要・集計結果」についてというページの最初のPDFのp.18にあった。基線が0でない棒グラフだ

  • URI変えるな,ページ消すな | Okumura's Blog

    探し物をしていて古いリンクをたどったら 総務省|ご案内ページ -掲載期間が終了しています- というページにリダイレクトされてしまった。総務省サイトの掲載期間は原則3年で,パンフレットなどは最新版以外は消しているという。国の貴重な資料は永久保存でいいと思うのだが,なぜ消すのだろう? Webの開祖Tim Berners-Leeは1998年に Cool URIs don't change(神崎さんの訳:クールなURIは変わらない)を書いて,URI(URL)が永続すべきことを説いている。もう10年以上も前のページだが,サイト管理者はぜひ読んでほしい。ここに書いてあるように,何十年も永続させるためにはいろいろな工夫が必要だ。例えば拡張子はその時点での技術を反映する。hoge.html は hoge.cgi や hoge.php や hoge.rb になるかもしれない。そのため,W3Cサイトへの正式な

  • ベクトルグラフィック言語Asymptoteで日本語が通る! | Okumura's Blog

    前にも書いたTufteのデザインを真似た tufte-latex を日語化して使おうと思ってマニュアルを読み始めたら, Asymptote のグラフ出力の例が載っていたので, TUGboat 29:2, 2008 に載っていたAsymptote論文を思い出して,Macにインストールしてみた。 バイナリもあったようだが,面倒なのでソースからコンパイルし,TeX Wikiに Asymptote の項目をとりあえず作った。どんどん書き足してください。 ベクトルグラフィック言語にはもちろんPostScriptがあるが,手書きは面倒である。そこでKnuth先生の弟子がMETAFONTの文法でPostScriptを出力できるMetaPostという言語を作った。Knuth先生はこれを気に入って,ご自分のの図はこれで書くようになった。しかし,今となっては,MetaPostは古くさくて使いにくく,機能も

  • Excel使うな | Okumura's Blog

    Computational Statistics and Data Analysis Volume 52, Issue 10 (2008) に Excel 2007 特集がある。 まず最初の論文 (B.D. McCullough and David A. Heiser, On the accuracy of statistical procedures in Microsoft Excel 2007, pp.4570-4578) のアブストラクト: Excel 2007, like its predecessors, fails a standard set of intermediate-level accuracy tests in three areas: statistical distributions, random number generation, and estimat

  • 3D円グラフを使うのはやめよう | Okumura's Blog

    落伍弟子さんの目の錯覚を誘うグラフの受け売りで申し訳ないが,都立高校教科書採択結果のPDFの図がすべて3D円グラフになっており,目の錯覚で誤解が生じやすい。例えば右図で日文は啓林の2倍あるのに中心角は啓林のほうが大きく,面積比でもほぼ互角に見える。情報リテラシーではっきり「3D円グラフは使うな」と教えてほしい。 Rのヘルプの「pie」の項目にも次のようにあるように,そもそも円グラフが良くない。 Pie charts are a very bad way of displaying information. The eye is good at judging linear measures and bad at judging relative areas. A bar chart or dot chart is a preferable way of displaying this ty

  • 1