タグ

ブックマーク / id.fnshr.info (18)

  • Rによるデータクリーニング実践――政府統計からのグラフ作成を例として|Colorless Green Ideas

    データクリーニングが繁雑な作業であることを示すために、政府の統計データから日の男のみの高校と女のみの高校の数の推移をグラフ化する事例を紹介する。クリーニングの作業にはR言語を用い、複数のファイルを統合し、整然データに変え、グラフを作成する。 はじめに データクリーニングは、データ分析の際に非常に重要なプロセスの1つであるが、データ分析の教科書では必ずしも十分に扱われていない。そこで、現実のデータクリーニングがどのように行われるかについて、一事例を紹介したいと思う。具体的には、統計処理に適したプログラミング言語のRを用いて、粗悪なデータから簡単な折れ線グラフが作成できる程度のきれいなデータにするまでのデータクリーニングを実施していく。 記事の対象読者 記事は、既存のデータに対して自らの手でデータ分析を実施している人、または実施しようと考えている人を主な対象にしている。データ分析の際にど

    Rによるデータクリーニング実践――政府統計からのグラフ作成を例として|Colorless Green Ideas
    advblog
    advblog 2018/04/24
  • 中国外交部の報道官の「お返ししなければ失礼」発言の出典は『礼記』|Colorless Green Ideas

    中国外交部の報道官が米国の貿易制裁措置に関して「お返ししなければ失礼」といった件の中国語の原文は、“来而不往非礼也”であり、これは儒教の経典の1つ『礼記』に由来する。 “来而不往非礼也” 米国が中国への貿易制裁措置をとったことに対し、中国外交部の華春瑩報道官が2018年3月23日の記者会見で述べた言葉として、NHKが「お返しをしなければ失礼にあたる」というものを報じている [1] 。 この「お返しをしなければ失礼にあたる」の中国語の原文を見てみると、“来而不往非礼也”(来タリテ往(ゆ)カザレバ礼ニアラザルナリ)となっている。これは儒教の経典の1つである『礼記』を出典とする言葉だ。 『礼記』の曲礼篇には、以下のような文章が載っている。 礼尚往来。往而不来非礼也。来而不往亦非礼也。 (書き下し文:礼ハ往来ヲ尚(たつと)ブ。往(ゆ)キテ来タラザレバ礼ニアラザルナリ。来タリテ往(ゆ)カザレバ亦(ま

    中国外交部の報道官の「お返ししなければ失礼」発言の出典は『礼記』|Colorless Green Ideas
    advblog
    advblog 2018/03/25
  • 研究社『新和英大辞典』は財務省に厳しい|Colorless Green Ideas

    はじめに 研究社が出している和英辞典で『新和英大辞典』というものがある。このは、見出し語や例文がかなり多く、すこぶる便利 である。 さて、東北大の中村美千彦 (@Nakamura_Mitch) 教授が2017年5月8日にしたツイートで知ったのだが、研究社『新和英大辞典』の「無理難題」の項には「文部科学省がまた無理難題を言ってきた」という例文がある。単に無理難題を言ってきたのではなく、わざわざ「また」と述べているのが面白い。編者は文科省にから無理難題を繰り返し言われた経験があったのだろうかと心配になる [1] 。 そこで、『新和英大辞典』の中央省庁に対する態度が気になり、色々調べてみたところ、どうやらこの和英辞典は財務省に対して厳しいようだということが分かった。 日の財務省庁舎 [2] 財務省に厳しい『新和英大辞典』 『新和英大辞典』で「財務大臣」という項目を引くと、以下の例文が出てくる

    研究社『新和英大辞典』は財務省に厳しい|Colorless Green Ideas
    advblog
    advblog 2017/07/01
  • 筑波大学よ、その「漢詩」は恥ずかしい|Colorless Green Ideas

    筑波大学モニュメントに含まれる銘鈑に記された「漢詩」は、とうてい漢詩と呼ぶことができないしろものである。 筑波大学モニュメントとは 筑波大学筑波キャンパス [1] 茨城県にある国立大学の筑波大学には、筑波大学モニュメントというものがある。筑波大学側としては、「学のアカデミックシンボルの一つとして、見る者全てに、学問に宿る崇高なる精神性と高揚感を与えるものになると期待」されるモニュメントなのだそうだ [2] 。 これは、2014年に幡谷祐一茨城県信用組合会長から寄贈されたもので、幡谷会長の作った「漢詩」が記された銘板が含まれている [3] 。これから詳しく説明することになるが、この「漢詩」は、とうてい漢詩と呼ぶことができないしろものである。一応は日文学や中国文学の教授陣もいる大学 [4] で、このような漢詩と呼ぶことができないしろものを「漢詩」と称した上で、「アカデミックシンボルの一つ」

    筑波大学よ、その「漢詩」は恥ずかしい|Colorless Green Ideas
    advblog
    advblog 2017/02/05
  • ダメな統計学を防ぐための書籍11冊|Colorless Green Ideas

    科学における統計の誤用を扱った『ダメな統計学――悲惨なほど完全なる手引書』を読んだ後に、実際に統計の誤用を防ぐために読むと良いについて紹介する。 はじめに この記事では、科学研究における統計の誤用を扱った『ダメな統計学――悲惨なほど完全なる手引書』を読んだ後に、実際に統計の誤用を防ぐ方法を学ぶために役立つと思われる書籍を紹介する。主に、統計的仮説検定で間違いを犯さないようにする場合に役立つ書籍を紹介するが、それ以外の分野の書籍についても紹介する。 なお、『ダメな統計学――悲惨なほど完全なる手引書』は、科学の世界での統計の誤用について説明したで、私が日語訳に当たった。2017年1月27日から販売された。このの詳しい紹介は、「『ダメな統計学――悲惨なほど完全なる手引書』の翻訳出版」という記事に書いたので、そちらもご参照願いたい。 アレックス・ラインハート〔著〕・西原史暁〔訳〕.(201

    ダメな統計学を防ぐための書籍11冊|Colorless Green Ideas
    advblog
    advblog 2017/01/28
  • 『ダメな統計学――悲惨なほど完全なる手引書』の翻訳出版|Colorless Green Ideas

    科学における統計の誤用について説明した『ダメな統計学――悲惨なほど完全なる手引書』というの日語版が翻訳され、出版されることになった。この翻訳書について、どういった内容であるか、どういった人におすすめであるかを紹介する。 はじめに このたび、私の翻訳した『ダメな統計学――悲惨なほど完全なる手引書』というが勁草書房から出版されることになった。2017年1月27日ごろから書店などで手に入るようになる予定である。 アレックス・ラインハート〔著〕・西原史暁〔訳〕.(2017).『ダメな統計学――悲惨なほど完全なる手引書』東京:勁草書房. 訳書版元サイトでの紹介:ダメな統計学――悲惨なほど完全なる手引書|勁草書房 訳書版元サイトでの紹介その2(けいそうビブリオフィル):訳書の「はじめに」を閲覧可能 [1] 原書:Reinhart, A. (2015). Statistics Done Wrong

    『ダメな統計学――悲惨なほど完全なる手引書』の翻訳出版|Colorless Green Ideas
    advblog
    advblog 2017/01/21
  • 整然データとは何か|Colorless Green Ideas

    整然データとは、1) 個々の変数が1つの列をなす、2) 個々の観測が1つの行をなす、3) 個々の観測の構成単位の類型が1つの表をなす、4) 個々の値が1つのセルをなす、という4つの条件を満たした表型のデータのことであり、構造と意味が合致するという特徴を持つ。R言語などを用いたデータ分析の際には非常に有用な概念である。 はじめに データ分析の際には、データが扱いやすい形式になっている必要がある。データの中身がぐちゃぐちゃになっていたり、データの形式が統一されていなかったりすれば、分析は骨の折れる作業となる。 それでは、どのようなものがデータ分析において扱いやすい形式のデータになるのだろうか。この問題に対する唯一の正しい解答というものは存在しない。しかし、表の形式で表すことができるデータを考える場合、ハドリー・ウィッカム (Hadley Wickham) 氏が提唱した整然データ (tidy d

    整然データとは何か|Colorless Green Ideas
    advblog
    advblog 2017/01/09
  • 米国国務省の外国語学習教材が手に入るウェブサイト|Colorless Green Ideas

    国務省の語学研修機関が作った外国語学習教材 米国の外交をつかさどる国務省には、Foreign Service Institute (FSI) という語学研修機関がある。これは、米国の外交を担う人員に外国語を身につけさせるための機関だ。 FSIは、さまざまな言語の学習教材を作っている。フランス語やアラビア語といったメジャーな言語から、ブルガリア語やトウィ語といった比較的マイナーな言語まで、さまざまな言語の学習教材がある。なお、米国人向けに作られているので、どの言語の学習教材にせよ、説明に使われているのは英語である。 FSIが作成した外国語学習教材は、著作権フリーになっており [1] 、オンライン上で簡単に手に入れることができる。FSIの教材を配布しているウェブサイトとしては、以下のものがある。 FSI Language Courses FSI Languages Courses The Li

    米国国務省の外国語学習教材が手に入るウェブサイト|Colorless Green Ideas
    advblog
    advblog 2016/08/20
  • オンラインで無料で読める統計書プラス32冊|Colorless Green Ideas

    はじめに 数年前に「オンラインで無料で読める統計書22冊」という記事を書いた。タイトルにあるように、オンラインで無料で読める統計書として、入門者向けから高度なものまで合わせて22冊紹介した。 その後、オンラインで無料で読める統計書をさらに発掘したので、ここに紹介しておきたい。今回新しく紹介するのは、32冊である。「オンラインで無料で読める統計書22冊」と合わせてご覧いただきたい。 統計学の入門 まずは、統計学を始めて学ぶ人に向けて書かれた書籍を紹介しよう。 村上正康・安田正實.(1989). 『統計学演習』東京:培風館. 統計学を始めて学ぶ人のための入門書。 記述統計、確率分布、推定・検定の基礎、簡単な線形回帰といった内容を扱っている。入門書としてはオーソドックスなところを扱っていると言えよう。 中澤港.(2003).『Rによる統計解析の基礎』東京:ピアソン・エデュケーション. 統計学を始

    オンラインで無料で読める統計書プラス32冊|Colorless Green Ideas
    advblog
    advblog 2016/08/16
  • 東京大学出版会『統計学入門』は入門を一通り終えた人におすすめ|Colorless Green Ideas

    東京大学出版会から出ている『基礎統計学I 統計学入門』というがある。 東京大学教養学部統計学教室〔編〕 (1991). 『基礎統計学I 統計学入門』 東京:東京大学出版会. このは、統計を学ぶ際によくすすめられる一冊である。例えば、ウェブ上にある記事で、『統計学入門』を挙げているものに以下のようなものがある。 2014年春版:ビジネスにおけるデータ分析のプロを目指すなら揃えておくべき12冊(銀座で働くData Scientistのブログ) 一年で身に付ける!Rと統計学・機械学習の4ステップ(iAnalysis ~おとうさんの解析日記~) 統計分析を学ぶための書籍20選(XICA-Labs データ・統計分析研究所) それでは、なぜこのはすすめられるのだろうか? そして、どういう人がこのを読むべきなのだろうか? タイトルに『統計学入門』とあるように、統計の初心者にとって良いなのだろう

    東京大学出版会『統計学入門』は入門を一通り終えた人におすすめ|Colorless Green Ideas
    advblog
    advblog 2014/12/31
  • 『ダメな統計学』冊子PDFの公開|Colorless Green Ideas

    『ダメな統計学』表紙 現在の科学研究において統計が誤用されていることが非常に多く、そのために科学研究の信頼性が揺らいでいることを記した『ダメな統計学』の冊子PDFを公開する。これは、アレックス・ラインハート氏が書いたStatistics Done Wrongの全訳である。理解を深めるために、訳注を比較的豊富に加えた。 2017年1月20日追記:『ダメな統計学――悲惨なほど完全なる手引書』というが出版されることになった。このは、ここに掲載されているウェブ版の『ダメな統計学』の冊子PDFに比べると、大幅に加筆されている。ページ数で言うと2倍以上になっている。ウェブ版の『ダメな統計学』を読んで興味を持った方は、書籍となった『ダメな統計学』をぜひ読んでいただければと思う。書籍版の詳細については「『ダメな統計学――悲惨なほど完全なる手引書』の翻訳出版」という記事をご参照願いたい。 『ダメな統計学

    『ダメな統計学』冊子PDFの公開|Colorless Green Ideas
    advblog
    advblog 2014/12/28
  • 学術論文を書くときは Microsoft Word と LaTeX のどちらが効率的か?|Colorless Green Ideas

    実験内容 この研究で行われた実験では、学術論文の文書になっているものを被験者に提示し、それを Microsoft Word か LaTeX で再現するように求めている。 被験者は以下の4つのグループに分かれている。なお、初心者は使用経験が500時間以下の人を指し、熟練者は使用経験が1,000時間以上の人を指す。 Word の初心者 Word の熟練者 LaTeX の初心者 LaTeX の熟練者 各々の被験者には3種類の文書が与えられ、それぞれを30分で再現することが求められた。 単純な連続したテキスト 表を含むテキスト 数式を含むテキスト そして、被験者による再現は以下の3つの点で評価される。 正書法・文法上の誤りの数 フォーマット上の誤りの数 30分で入力した文章の量 結果 全般的に言えば、Word を使用した人の方が、LaTeX を使用した人に比べて誤りが少なく、入力した文章の量も多か

    学術論文を書くときは Microsoft Word と LaTeX のどちらが効率的か?|Colorless Green Ideas
    advblog
    advblog 2014/12/22
  • ダメな統計学:目次|Colorless Green Ideas

    2017年1月20日追記:『ダメな統計学――悲惨なほど完全なる手引書』というが出版されることになった。このは、ここに掲載されているウェブ版の『ダメな統計学』に大幅に加筆したものだ。ウェブ版の『ダメな統計学』を読んで興味を持った方は、書籍となった『ダメな統計学』をぜひ読んでいただければと思う。書籍版の詳細については「『ダメな統計学――悲惨なほど完全なる手引書』の翻訳出版」という記事をご参照願いたい。 ここに公開する『ダメな統計学』は、アレックス・ラインハート (Alex Reinhart) 氏が書いたStatistics Done Wrongの全訳である。この文章は全部で13章から構成されている。詳しくは以下の目次を参照されたい。 はじめに データ分析入門 検定力と検定力の足りない統計 擬似反復:データを賢く選べ p値と基準率の誤り 有意であるかないかの違いが有意差でない場合 停止規則と

    ダメな統計学:目次|Colorless Green Ideas
    advblog
    advblog 2014/12/19
  • ドラえもんの特殊顔文字はどういうしくみでできているか|Colorless Green Ideas

    はじめに 日2013年12月1日は、マンガ『ドラえもん』の原作者である藤子・F・不二雄の80歳の誕生日に当たるそうだ [1] 。 これを記念してというわけではないと思うのだが、11月26日に『2ちゃんねる』に「ドラえもんの特殊顔文字できたwwwwwwwwwww」というスレッド [2] が立った。そのスレッドには、文字だけを使って『ドラえもん』の主要キャラクターの顔が表現されていた。以下に、同スレッドで紹介されていた顔文字を再現したものを掲げる。 ドラえもんの特殊顔文字 こうした顔文字は、アクセント符号などのダイアクリティカルマークをつけることで作られている。どのようなしくみになっているのか以下で詳しく見ていこう。 特殊顔文字のしくみ 従来の顔文字は(-_-)や(^^)のように単純な記号で、単純な図像を表現するのみであった。しかし、近年様々な文字を組み合わせて、より表情豊かな顔文字が作られ

    ドラえもんの特殊顔文字はどういうしくみでできているか|Colorless Green Ideas
    advblog
    advblog 2013/12/02
  • オンラインで無料で読める統計書22冊|Colorless Green Ideas

    はじめに 今回は、ウェブを通じて無料で読むことができる統計に関する書籍を紹介したい。英語で書かれたが多いが、日語で書かれたも若干ある。 入門書 まず、統計の初学者のために書かれた入門書を紹介したいと思う。 福井正康 (2002). 『基礎からの統計学』基礎から扱っている統計の入門書である。統計を扱う際に必要となる場合の数、確率などについて詳しく説明している。理解を助けるための演習問題とその解答がついている。統計処理用のソフトとしてはExcelを使っている。同じサイトに社会科学系の学生向けの数学の教科書もある。 小波秀雄 (2013). 『統計学入門』基礎から扱っている統計の入門書。内容としては、記述統計、確率、確率分布、簡単な推定・検定、相関と線形回帰などがある。確率や確率分布などの理論的な話が占める分量が多いので、分量のわりには、具体的な統計手法はあんまり載っていない。もちろん理論

    オンラインで無料で読める統計書22冊|Colorless Green Ideas
    advblog
    advblog 2013/08/12
  • 参考文献表にそのままコピペ可能な文献情報を出力するウェブサービス|Colorless Green Ideas

    書籍を引用する場合は、OttoBibを使うことをおすすめする。書籍でなく、雑誌論文などの文献情報を整形して出力したければ、BibMeかCitefastを使うことをおすすめする。BibMeとCitefastは機能的にはほぼ同等である。インターフェースが好きな方を選べばよい [3] と思う。 OttoBib OttoBibは、文献情報を出力するウェブサービスの中で最もシンプルなものである。対応しているのは書籍のみである。雑誌に載った論文などには対応していない。 使い方は非常に簡単で、書籍のISBNを入力欄に入れるだけである。それだけで、MLA形式、APA形式、Chicago形式で、参考文献表にそのままコピペできる形にしてくれる。 BibMe BibMeでは、MLA形式、APA形式、Chicago形式、Turabian形式で文献情報を出力することができる。OttoBibに比べると、複雑な設定を行

    advblog
    advblog 2013/02/17
  • Facebook→ʞoodɘɔɒᖷのように英数字を鏡文字にして表示する方法|Colorless Green Ideas

    Facebook→ʞoodɘɔɒᖷのように英数字を反転して鏡文字のようにする際に役立つ情報を掲載。この他、TeXCSSで文字を反転して鏡うつしにする方法についても。 どうやって鏡文字にするか “Facebook”を“ʞoodɘɔɒᖷ”にするように、英数字を鏡文字のように、すなわち左右対称の形にして面白おかしく見せることができる。これは、英数字を鏡うつしにした形とよく似た文字を使っている。例えば、“b”を実際に鏡うつしにするかわりに、これを鏡うつしにした形によく似ている“d”を用いるのである。 鏡文字にした形を自分で見つけるのは大変だろうが、一応簡単に鏡文字にできるウェブサービスがあり、これを使えばすぐに鏡文字にしてみせることができる。また、この記事に、英数字を鏡文字にした形とよく似た文字の一覧を付けたので参考にしていただければ幸いである。ちなみに、セリフ体のフォントよりも、サンセリフのフ

    Facebook→ʞoodɘɔɒᖷのように英数字を鏡文字にして表示する方法|Colorless Green Ideas
    advblog
    advblog 2013/02/03
  • twitter→ɹəʇʇɪʍʇのように英数字を180度回転して表示する方法|Colorless Green Ideas

    twitter→ɹəʇʇɪʍʇのように英数字を180度回転する際に役立つ情報を掲載。この他、TeXで文字を回転して表示する方法についても。 どうやって180度回転するか “twitter”を“ɹəʇʇɪʍʇ”に、“7-11”を“⇂⇂-L”にするように、英数字を180度回転させて面白おかしく見せるという遊びがある。これは、英数字をひっくり返した形とよく似た文字を使っている。例えば、“M”を実際にひっくり返すかわりに、これをひっくり返した形によく似ている“W”を用いるのである。 自分でひっくり返した形を見つけるのは面倒だろう。だが、簡単に180度回転ができるウェブサービスが提供されており、これを使えばすぐにひっくり返してみせることができる。また、この記事に、英数字をひっくり返した形とよく似た文字の一覧を付けたので参考にしていただければ幸いである。 なお、ひっくり返した形とよく似た文字を使うのは

    twitter→ɹəʇʇɪʍʇのように英数字を180度回転して表示する方法|Colorless Green Ideas
    advblog
    advblog 2013/01/26
  • 1