ブックマーク / id.fnshr.info (33)

  • Rによるデータクリーニング実践――政府統計からのグラフ作成を例として|Colorless Green Ideas

    データクリーニングが繁雑な作業であることを示すために、政府の統計データから日の男のみの高校と女のみの高校の数の推移をグラフ化する事例を紹介する。クリーニングの作業にはR言語を用い、複数のファイルを統合し、整然データに変え、グラフを作成する。 はじめに データクリーニングは、データ分析の際に非常に重要なプロセスの1つであるが、データ分析の教科書では必ずしも十分に扱われていない。そこで、現実のデータクリーニングがどのように行われるかについて、一事例を紹介したいと思う。具体的には、統計処理に適したプログラミング言語のRを用いて、粗悪なデータから簡単な折れ線グラフが作成できる程度のきれいなデータにするまでのデータクリーニングを実施していく。 記事の対象読者 記事は、既存のデータに対して自らの手でデータ分析を実施している人、または実施しようと考えている人を主な対象にしている。データ分析の際にど

    Rによるデータクリーニング実践――政府統計からのグラフ作成を例として|Colorless Green Ideas
  • 「この春から統計を学びはじめたい!」という人のための書籍7冊(2017年4月版)|Colorless Green Ideas

    統計をあまりよく知らない人が、統計の勉強をはじめるときに役立つ書籍について。おすすめの書籍を7冊紹介。 はじめに この記事では、統計についてあまりよく知らない人が、統計を学びはじめるときに役に立つ書籍を紹介したいと思う。まず、前半では、統計のまったくの初心者が勉強するときに役立つ書籍を3冊紹介する。後半では、前半に挙げた書籍の内容を大体理解した人が、その理解を定着させるために役立つ書籍を4冊紹介する。 まったくの初心者のために まったくの初心者が、統計を勉強したいというときに一番おすすめなのが、『マンガでわかる統計学』だ。 高橋信. (2004). 『マンガでわかる統計学』 東京:オーム社. マンガだからと言って、あなどってはならない。このはかなりしっかりと組み立てられていて、統計の基礎の基礎がしっかり押さえられるようになっている。このについてのさらに詳しい紹介が「統計学の初心者が入門

    「この春から統計を学びはじめたい!」という人のための書籍7冊(2017年4月版)|Colorless Green Ideas
  • 筑波大学よ、その「漢詩」は恥ずかしい|Colorless Green Ideas

    筑波大学モニュメントに含まれる銘鈑に記された「漢詩」は、とうてい漢詩と呼ぶことができないしろものである。 筑波大学モニュメントとは 筑波大学筑波キャンパス [1] 茨城県にある国立大学の筑波大学には、筑波大学モニュメントというものがある。筑波大学側としては、「学のアカデミックシンボルの一つとして、見る者全てに、学問に宿る崇高なる精神性と高揚感を与えるものになると期待」されるモニュメントなのだそうだ [2] 。 これは、2014年に幡谷祐一茨城県信用組合会長から寄贈されたもので、幡谷会長の作った「漢詩」が記された銘板が含まれている [3] 。これから詳しく説明することになるが、この「漢詩」は、とうてい漢詩と呼ぶことができないしろものである。一応は日文学や中国文学の教授陣もいる大学 [4] で、このような漢詩と呼ぶことができないしろものを「漢詩」と称した上で、「アカデミックシンボルの一つ」

    筑波大学よ、その「漢詩」は恥ずかしい|Colorless Green Ideas
  • ダメな統計学を防ぐための書籍11冊|Colorless Green Ideas

    科学における統計の誤用を扱った『ダメな統計学――悲惨なほど完全なる手引書』を読んだ後に、実際に統計の誤用を防ぐために読むと良いについて紹介する。 はじめに この記事では、科学研究における統計の誤用を扱った『ダメな統計学――悲惨なほど完全なる手引書』を読んだ後に、実際に統計の誤用を防ぐ方法を学ぶために役立つと思われる書籍を紹介する。主に、統計的仮説検定で間違いを犯さないようにする場合に役立つ書籍を紹介するが、それ以外の分野の書籍についても紹介する。 なお、『ダメな統計学――悲惨なほど完全なる手引書』は、科学の世界での統計の誤用について説明したで、私が日語訳に当たった。2017年1月27日から販売された。このの詳しい紹介は、「『ダメな統計学――悲惨なほど完全なる手引書』の翻訳出版」という記事に書いたので、そちらもご参照願いたい。 アレックス・ラインハート〔著〕・西原史暁〔訳〕.(201

    ダメな統計学を防ぐための書籍11冊|Colorless Green Ideas
  • 整然データとは何か|Colorless Green Ideas

    整然データとは、1) 個々の変数が1つの列をなす、2) 個々の観測が1つの行をなす、3) 個々の観測の構成単位の類型が1つの表をなす、4) 個々の値が1つのセルをなす、という4つの条件を満たした表型のデータのことであり、構造と意味が合致するという特徴を持つ。R言語などを用いたデータ分析の際には非常に有用な概念である。 はじめに データ分析の際には、データが扱いやすい形式になっている必要がある。データの中身がぐちゃぐちゃになっていたり、データの形式が統一されていなかったりすれば、分析は骨の折れる作業となる。 それでは、どのようなものがデータ分析において扱いやすい形式のデータになるのだろうか。この問題に対する唯一の正しい解答というものは存在しない。しかし、表の形式で表すことができるデータを考える場合、ハドリー・ウィッカム (Hadley Wickham) 氏が提唱した整然データ (tidy d

    整然データとは何か|Colorless Green Ideas
  • 『ダメな統計学――悲惨なほど完全なる手引書』の翻訳出版|Colorless Green Ideas

    科学における統計の誤用について説明した『ダメな統計学――悲惨なほど完全なる手引書』というの日語版が翻訳され、出版されることになった。この翻訳書について、どういった内容であるか、どういった人におすすめであるかを紹介する。 はじめに このたび、私の翻訳した『ダメな統計学――悲惨なほど完全なる手引書』というが勁草書房から出版されることになった。2017年1月27日ごろから書店などで手に入るようになる予定である。 アレックス・ラインハート〔著〕・西原史暁〔訳〕.(2017).『ダメな統計学――悲惨なほど完全なる手引書』東京:勁草書房. 訳書版元サイトでの紹介:ダメな統計学――悲惨なほど完全なる手引書|勁草書房 訳書版元サイトでの紹介その2(けいそうビブリオフィル):訳書の「はじめに」を閲覧可能 [1] 原書:Reinhart, A. (2015). Statistics Done Wrong

    『ダメな統計学――悲惨なほど完全なる手引書』の翻訳出版|Colorless Green Ideas
  • 数学好きから統計好きに――『数学ガールの秘密ノート/やさしい統計』|Colorless Green Ideas

    数学ガールの秘密ノート/やさしい統計』というの紹介。このは中・高レベルの簡単な統計を中心に扱ったもので、数学好きの人に向いている。 はじめに 結城浩氏から『数学ガールの秘密ノート/やさしい統計』という御著書を御恵贈いただいたので、このがどういうなのか紹介したいと思う。 結城浩.(2016). 『数学ガールの秘密ノート/やさしい統計』東京:SBクリエイティブ. このは、数学に関して読み物の形で語る『数学ガールの秘密ノート』というシリーズの1冊だ。今回紹介する『数学ガールの秘密ノート/やさしい統計』は、数学の中でも、中学や高校の数学の授業で習うような簡単な統計について扱っている。 どんな人に向いているか このは、数学が好きで、統計についてあまり知らないような人に向いていると思う。このでは、統計のことを説明しつつ、数式と数式の間の面白い関係を示すなど、数学が好きな人にとって相性の

    数学好きから統計好きに――『数学ガールの秘密ノート/やさしい統計』|Colorless Green Ideas
  • オンラインで無料で読める統計書プラス32冊|Colorless Green Ideas

    はじめに 数年前に「オンラインで無料で読める統計書22冊」という記事を書いた。タイトルにあるように、オンラインで無料で読める統計書として、入門者向けから高度なものまで合わせて22冊紹介した。 その後、オンラインで無料で読める統計書をさらに発掘したので、ここに紹介しておきたい。今回新しく紹介するのは、32冊である。「オンラインで無料で読める統計書22冊」と合わせてご覧いただきたい。 統計学の入門 まずは、統計学を始めて学ぶ人に向けて書かれた書籍を紹介しよう。 村上正康・安田正實.(1989). 『統計学演習』東京:培風館. 統計学を始めて学ぶ人のための入門書。 記述統計、確率分布、推定・検定の基礎、簡単な線形回帰といった内容を扱っている。入門書としてはオーソドックスなところを扱っていると言えよう。 中澤港.(2003).『Rによる統計解析の基礎』東京:ピアソン・エデュケーション. 統計学を始

    オンラインで無料で読める統計書プラス32冊|Colorless Green Ideas
  • 統計検定準1級を取るための勉強法|Colorless Green Ideas

    はじめに この記事では、統計質保証推進協会が主催している統計検定の準1級を取るための勉強法について、私自身の経験も交えながら紹介していきたいと思う。なお、私は2016年6月に統計検定の準1級を受け、7月に無事合格通知を受け取った。 統計検定とは 統計検定とは、2011年から始まった「統計に関する知識や活用力を評価する全国統一試験」 [1] である。この試験は級別に分かれており、高校程度の統計を問う3級や、大学の基礎科目としての統計学を問う2級などが設定されている。 準1級の特徴 準1級の出題範囲は広いので効率的に勉強しよう [2] 2015年からは、2級よりやや発展的な内容を問う統計検定準1級の試験が年に1回実施されるようになった。この級の出題範囲は、1つ下の2級の出題範囲に比べてかなり広い。このため、合格に向けての勉強に当たっては、広い範囲の内容をうまく処理していくことが重要であろう。

    統計検定準1級を取るための勉強法|Colorless Green Ideas
  • これから数学を学ぼうと思った人のための読書リスト(2016年4月版)|Colorless Green Ideas

    はじめに 新年度になって、何か新しいことを学ぼうという気になったという人は少なくないだろう。そうした人の中には、これから数学を学ぼうと思った人もいるかもしれない。それだけでなく、高校や大学に進学したことで、今までとは違った感じの数学を学ぶ必要が出てくる人もいるだろう。 この記事では、そういった人のために、数学の学び方や考え方に触れられる文献を紹介していきたいと思う。 大学での数学の勉強 大学での数学の勉強は、高校までの数学の勉強とは違うところがある。このため、高校の時のやり方でうまくいくとは限らない。このため、大学での数学の勉強にあった学び方を身につける必要があるだろう。 日評論社が出している『数学セミナー』の増刊号に『数学ガイダンス2016』というものがある。このは、大学の新入生に向けて書かれた、大学での数学の学び方について記したムックである。大学の数学の世界がどんなものであるかがう

    これから数学を学ぼうと思った人のための読書リスト(2016年4月版)|Colorless Green Ideas
  • Excelのダメなグラフでウソをつく法|Colorless Green Ideas

    Excel のグラフで事実を誇張したい場合、3Dグラフを使うと便利だ。というわけで、普通の棒グラフでなく、3D棒グラフを作る。 合格者数の推移を3D棒グラフにしたもの [1] グラフを描く視点を変える この段階だと、まだ「圧倒的な」感じはしない。だが、グラフを描く視点を変えれば、「圧倒的な合格力」を見せつけることができる。グラフを描く視点を変えるには、グラフ上で右クリックをしてメニューを出し、「3-D 回転…」を選ぶ。 「3-D回転…」というメニューからグラフを描く視点を変えることができる。 そうすると、次のような画面が出てくる。この画面の数値をいじることで、グラフの描かれ方が変わる。 数値を変えることで、グラフを描く視点を変え、別の印象を与えることができる。 まずは、「軸の直交」というチェックを外す。そうすると、次のような形のグラフになる。 「軸の直交」というチェックを外したあとの3D棒

    Excelのダメなグラフでウソをつく法|Colorless Green Ideas
  • 統計を勉強するときに数学に悩まされる人のための一冊|Colorless Green Ideas

    統計の勉強を始めるときに数学でつまづくことがある。そういったときに『統計学のための数学教室』というが役に立つ。 統計を勉強しはじめたものの、統計が結局よく理解できなかったという人は少なくない。統計の勉強がうまくいかない理由にはさまざまなものがあるが、1つの大きな理由として、統計の教科書に載っている数式が分からないというものがある。数学についてよく知らないと、統計の教科書の数式に悩まされ、統計をしっかり理解できない。統計の考え方の多くの部分は、数学の言葉で書かれているので、数学が分からなければ、統計を理解することができないのだ。 私が前に統計を教えたときは、まず数学をしっかり勉強してもらうところから始めた。統計の入門書に書いてある数式を読むのに必要な数学の知識を身につけてもらったのである。実際そうすることで、統計についてしっかり理解してもらうことができたと思う。そのときは自作の小冊子をつか

  • 最短の学術論文|Colorless Green Ideas

    はじめに 学術論文の価値はその長さで決まるわけではない。短い論文であっても価値があるものは少なくない。例えば、DNAが二重螺旋構造をしているというワトソンとクリックの1953年の論文 [1] は、たったの2ページしかない。この20世紀で最も重要な科学的発見を示した英語で書かれた論文の語数は、1000語に満たないのだ。これだけの短い論文であるが、この発見によってワトソンとクリックはノーベル医学・生理学賞を受賞することになった。 それでは、短い学術論文はどこまで短いのだろうか。 要約文が短い論文 学術論文には、普通、数十語から数百語の要約文(アブストラクト)を付す。だが、この要約文が非常に短い論文が存在する。 ベリーらによる2011年の量子論に関する論文 [2] の要約文は“Probably not”(たぶん、そうではない)という2単語しかない。 ベリーらによる論文の要約文はたったの2語しかな

    最短の学術論文|Colorless Green Ideas
  • 科学における「ダメな統計学」を説明した本|Colorless Green Ideas

    科学において統計がいかに正しく使われていないかを説明した Statistics Done Wrong: The Woefully Complete Guide について紹介する。 科学の世界の「ダメな統計学」 現代の科学は、統計と切っても切り離せない関係にある。多くの場合、科学者は、仮説を立てた上で、実験や調査でデータを集め、そのデータに対して統計処理を行うことで、自分の仮説が妥当かどうかを判断していく。統計がなくては自分の仮説が妥当かどうかを判断できない。判断できなければ、科学者は自分の主張を一切述べられなくなってしまう。つまり、統計を使わなければ、科学者は仕事にならないのである。統計は科学者にとって重要なのだ。 統計が重要なのだから、科学者は統計についてしっかりとした知識を持っていると思う人も少なくないだろう。また、ほとんどの科学者が正確に統計処理を行っていると思う人も少なくないだろ

    科学における「ダメな統計学」を説明した本|Colorless Green Ideas
  • 分かりやすい文章を書くためのたったひとつのさえたやりかた:『数学文章作法』のレビュー|Colorless Green Ideas

    さて、『数学文章作法』で説明されているのは、「正確で読みやすい文章を書く心がけ」 [3] である。それでは、どうすれば正確で読みやすい文章を書くことができるのだろうか。 著者の掲げる原則は非常に簡単なものである。それは、以下に記すたったひとつのさえたやりかただ。 読者のことを考える――この単純明快な原則に従って文章を書くことが、分かりやすい文章を書くことにつながるのだ。『数学文章作法』では、この原則を主題として、様々な変奏曲が示されている。読者のことを考えることを具体的に文章にどのように反映していけば良いかについて、この2冊は様々な角度から示している。例えば、『基礎編』で挙げられている具体的な心がけとして、以下のようなものがある。 読者のことを考えて、読者の期待通りの場所に期待通りのことが来るように読みやすい階層構造を作る(3.3節) 読者のことを考えて、読者が意味をよく理解できるように、

    分かりやすい文章を書くためのたったひとつのさえたやりかた:『数学文章作法』のレビュー|Colorless Green Ideas
  • 平成27年度センター試験の倫理で問題のある棒グラフが出題|Colorless Green Ideas

    平成27年度のセンター試験の倫理で出題された棒グラフは、棒がゼロから始まっていない。これは棒グラフとして適切でないものである。 はじめに 2015年1月17日(土)に、平成27年度の大学入試センター試験の1日目が行われた。この日に出題された「倫理」の第1問の問4 [1] において、棒グラフが2つ示されている。この棒グラフは、棒がゼロから始まっておらず、40%から始まっている。これでは棒グラフとして不適切である。 問題があるグラフは2つあるのだが、そのうち1つを先に挙げておこう。 平成27年度センター試験の倫理の第1問問4図1の棒グラフ。棒が40から始まっており、棒グラフとして適切でない。 [2] 後に説明するように、棒グラフは棒をゼロから始めないと、分量を適切に表すことができない。よって、上に引用したグラフは、不適切なのである。 棒グラフはゼロから始める 棒グラフは、長さをもって量を示すグ

    平成27年度センター試験の倫理で問題のある棒グラフが出題|Colorless Green Ideas
  • 学術論文を書くときは Microsoft Word と LaTeX のどちらが効率的か?|Colorless Green Ideas

    実験内容 この研究で行われた実験では、学術論文の文書になっているものを被験者に提示し、それを Microsoft Word か LaTeX で再現するように求めている。 被験者は以下の4つのグループに分かれている。なお、初心者は使用経験が500時間以下の人を指し、熟練者は使用経験が1,000時間以上の人を指す。 Word の初心者 Word の熟練者 LaTeX の初心者 LaTeX の熟練者 各々の被験者には3種類の文書が与えられ、それぞれを30分で再現することが求められた。 単純な連続したテキスト 表を含むテキスト 数式を含むテキスト そして、被験者による再現は以下の3つの点で評価される。 正書法・文法上の誤りの数 フォーマット上の誤りの数 30分で入力した文章の量 結果 全般的に言えば、Word を使用した人の方が、LaTeX を使用した人に比べて誤りが少なく、入力した文章の量も多か

    学術論文を書くときは Microsoft Word と LaTeX のどちらが効率的か?|Colorless Green Ideas
  • 東京大学出版会『統計学入門』は入門を一通り終えた人におすすめ|Colorless Green Ideas

    東京大学出版会から出ている『基礎統計学I 統計学入門』というがある。 東京大学教養学部統計学教室〔編〕 (1991). 『基礎統計学I 統計学入門』 東京:東京大学出版会. このは、統計を学ぶ際によくすすめられる一冊である。例えば、ウェブ上にある記事で、『統計学入門』を挙げているものに以下のようなものがある。 2014年春版:ビジネスにおけるデータ分析のプロを目指すなら揃えておくべき12冊(銀座で働くData Scientistのブログ) 一年で身に付ける!Rと統計学・機械学習の4ステップ(iAnalysis ~おとうさんの解析日記~) 統計分析を学ぶための書籍20選(XICA-Labs データ・統計分析研究所) それでは、なぜこのはすすめられるのだろうか? そして、どういう人がこのを読むべきなのだろうか? タイトルに『統計学入門』とあるように、統計の初心者にとって良いなのだろう

    東京大学出版会『統計学入門』は入門を一通り終えた人におすすめ|Colorless Green Ideas
  • 統計学の初心者が入門として最初に読むべき一冊|Colorless Green Ideas

    統計についてほとんど何も知らない人が読むべきとしては『マンガでわかる統計学』が一番のおすすめである。 『マンガでわかる統計学』 「統計って、今まで全然勉強したことはないけれども、将来必要になるかもしれないから、勉強してみようかな」とか、「統計を勉強してみたいとは思ってるんだけど、何から始めれば良いか見当がつかないんだよね」と思っている人は少なくないと思う。こうした人、すなわち統計学についてほとんど何も知らない人は何を使って勉強し始めれば良いのだろうか。 こうした初心者は、まず入門として『マンガでわかる統計学』というを読むのが良いと私は考えている。このは、統計に関する知識がほとんどない人にとって、わかりやすく、そして取り組みやすいだ。 高橋信. (2004). 『マンガでわかる統計学』 東京:オーム社. この『マンガでわかる統計学』というは、統計について特に何も知らない女子高生のル

    統計学の初心者が入門として最初に読むべき一冊|Colorless Green Ideas
  • 『ダメな統計学』冊子PDFの公開|Colorless Green Ideas

    『ダメな統計学』表紙 現在の科学研究において統計が誤用されていることが非常に多く、そのために科学研究の信頼性が揺らいでいることを記した『ダメな統計学』の冊子PDFを公開する。これは、アレックス・ラインハート氏が書いたStatistics Done Wrongの全訳である。理解を深めるために、訳注を比較的豊富に加えた。 2017年1月20日追記:『ダメな統計学――悲惨なほど完全なる手引書』というが出版されることになった。このは、ここに掲載されているウェブ版の『ダメな統計学』の冊子PDFに比べると、大幅に加筆されている。ページ数で言うと2倍以上になっている。ウェブ版の『ダメな統計学』を読んで興味を持った方は、書籍となった『ダメな統計学』をぜひ読んでいただければと思う。書籍版の詳細については「『ダメな統計学――悲惨なほど完全なる手引書』の翻訳出版」という記事をご参照願いたい。 『ダメな統計学

    『ダメな統計学』冊子PDFの公開|Colorless Green Ideas