タグ

統計とグラフに関するmkawanoのブックマーク (3)

  • Rによるデータクリーニング実践――政府統計からのグラフ作成を例として|Colorless Green Ideas

    データクリーニングが繁雑な作業であることを示すために、政府の統計データから日の男のみの高校と女のみの高校の数の推移をグラフ化する事例を紹介する。クリーニングの作業にはR言語を用い、複数のファイルを統合し、整然データに変え、グラフを作成する。 はじめに データクリーニングは、データ分析の際に非常に重要なプロセスの1つであるが、データ分析の教科書では必ずしも十分に扱われていない。そこで、現実のデータクリーニングがどのように行われるかについて、一事例を紹介したいと思う。具体的には、統計処理に適したプログラミング言語のRを用いて、粗悪なデータから簡単な折れ線グラフが作成できる程度のきれいなデータにするまでのデータクリーニングを実施していく。 記事の対象読者 記事は、既存のデータに対して自らの手でデータ分析を実施している人、または実施しようと考えている人を主な対象にしている。データ分析の際にど

    Rによるデータクリーニング実践――政府統計からのグラフ作成を例として|Colorless Green Ideas
  • いろいろな確率分布のパラメータをいじくるアプリ @ksmzn #Shiny

    いろいろな確率分布のカタチを見ることができるWebアプリです。 パラメータをいじくって、確率分布のカタチがどのように変わるのか観察しましょう。 上部メニュー からお好きな確率分布を選んでください。 このアプリはR言語のWebアプリフレームワークであるShiny で、@ksmznが作りました。 ご指摘や、追加すべき確率分布などがありましたらTwitterで教えてくださると助かります。 また、全てのコードはGitHubにもおいてありますので、拙いコードでよろしければ参考にしてください。 時間があれば、グラフをggplot2ではなく、D3.jsなどを使ったインタラクティブなものにしたいですね。 参考文献 このアプリを使う際に参考にしたページは以下です。 特に、まだまだShinyの日語情報が少ないなか、 @hoxo_mさんの記事やコードはとても参考になりました。 @hoxo_mさん、ありがとうご

  • エンジニアのためのデータ可視化実践入門という本を書いた - あんちべ!

    2014/10/14 追記 書87ページに「母数」という単語が複数回出てきますが、 これは全て「分母」とすべきでした。*1 通常、統計学の文脈では、母数は各確率分布を特徴付ける変数を指す単語であり、 例えば正規分布は平均と分散という二つの母数によって形状が決定されます。 決して母数と分母(あるいは全数)と誤解してはなりません。 しかし母数と分母を混同することは当によくあることで、 書はこのような頻出する誤解を訂正し、 皆様が統計を用いる際の失敗を一つでも減らす という目的で執筆に至ったにも拘らず、 まさか書でこのような重大な失敗をしてしまったことに対し 心からお詫び申し上げ訂正させて頂きます。 なお、問題個所の記述は共著者の森藤氏ではなく 私が記述したものであり、全責任は私にあります。 を書くに当たり、誤字脱字や言い回しの不備は出来る限り無くすべきですが、 人間であるためミスをす

    エンジニアのためのデータ可視化実践入門という本を書いた - あんちべ!
  • 1