Np-Urのデータ分析教室 オーブンソースデータなどWeb上から入手できるデータを用いて、RとPython両方使って分析した結果を書いていきます
本記事は、Shiny Advent Calendar 2017の1日目の記事です。 これまでShiny100本ノック、ということでShinyの実装例を紹介してきました。 が、いきなり応用編に突入してしまいましたので今回は原点回帰!「Shinyって何なの?」について紹介していきたいと思います。 第一弾目でやれよ!という声が聞こえてきそうですが…まあ許してください。 ShinyとはShinyはR言語でwebアプリケーションを簡単に作るためのライブラリです。 Rを使って普段分析しているけど、 簡単なWebアプリケーションを作るために他の言語を勉強するのは面倒くさい Rで分析した結果を他の人にも共有したい 分析BIツールとして他の人に使ってほしい などなど、上記のような課題意識を持っている方に朗報となるのがShinyライブラリとなります。 Shinyのいいところを挙げると、 R言語のみで書ける(デ
前回は、タイタニックの生存者データを使って、Pythonで決定木とランダムフォレストの実践をしてみました。 www.randpy.tokyo 今回はRの実践編です! 以前にTwitter APIを使ってWord Cloudとかしてみたので、その流れでツイートデータを使ってみたいと思います。 www.randpy.tokyo 対象にするのは、大好きなスピードワゴンのお二人のツイートデータです。 お二人のツイートを決定木を使って分析し、井戸田さんのツイートと小沢さんのツイートを分類してみます。 その後、ランダムフォレストを使って同じデータを分析し、分類の精度がどれほど変化するのか検証します。 決定木やランダムフォレストの理論編は、以下を参考にしてください。 かなり分かりやすく書けていると思います。 www.randpy.tokyo www.randpy.tokyo 流れとしては、 井戸田さんと
本記事は下の記事の続きとなります。まだご覧になっていない方は、是非お読みください! www.randpy.tokyo 前編では、現実世界のデータから施策の評価をしたいときに、よく起こる問題点について述べました。 そしてその問題点を解決する手法の一つが傾向スコアです。 傾向スコアの理論的に詳しいところは、こちらの論文を読んでもらうのが良いかと思います。 https://www.niph.go.jp/journal/data/55-3/200655030007.pdf かなり詳しく書いてありますので、ちゃんと知りたい方はこちらの論文と論文内で紹介されている各論文を読んでもらうのがベストです。 ただやっぱり読むのに時間はかかりますし、ちょい難しいところも含んでいるので前提知識が足りないと厳しい箇所も含んでいます。 そこで本記事では、なるべーーく直観的に理解ができるように説明していきたいと思います
突然ですが、施策の効果をきちんと測定することは、実はとても難しいのです。 ここでいう施策の効果とは、例えばあるクラスの生徒への特別な教育の効果であったり、ある病気にかかった人々への薬の処方の効果であったり、プロ野球のある場面で犠牲バントを行う効果だったり...のことを指しています。 どうして難しいのか?そしてその困難をどのようにして回避するのか? 次の章から説明していきます。 RCTと傾向スコアどうしてこれらの効果を測定することが難しいのか、犠牲バントの例をもう少し掘り下げてながら考えてみましょう。 プロ野球の試合のデータから、得られるものは 犠牲バントが発生した時のデータ(その後実際に得点が入ったかなど) 犠牲バントが発生していない時のデータ(その後実際に得点が入ったかなど) しかありません。 この2つのデータを比較して、「犠牲バントをしたときの方が得点が入ることが分かった!」→ 「じゃ
前回、前編・後編と2回に傾向スコアの考え方について学びました。 www.randpy.tokyo www.randpy.tokyo 今回は傾向スコアを使って実際に分析をしていきます。 これまでの実践編記事では、主にスクレイピングを使ってデータを集めていました。 今回は趣向を変えて、公開されているオープンソースデータを使って傾向スコアの実践をしていきます。 なお、こちらの記事のPython編も公開しました。 Pythonの方が興味あるぜ!って方はこちらご覧ください。 www.randpy.tokyo 扱うデータの説明 Rにはもともと傾向スコアを計算する用のlalondeというデータセットがあるのですが、それを使った記事が多く見られたので別のデータを使ってみることにしました。 http://biostat.mc.vanderbilt.edu/wiki/Main/DataSets こちらのサイト
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く