タグ

ブックマーク / smrmkt.hatenablog.jp (4)

  • 調査観察データにおける因果推論(4) - Rで傾向スコアを出す際の共変量選択基準 - About connecting the dots.

    目次 調査観察データにおける因果推論(1) - 無作為割り当てされていないことの問題 - About connecting the dots. 調査観察データにおける因果推論(2) - 傾向スコアとIPW推定量,二重にロバストな推定量 - About connecting the dots. 調査観察データにおける因果推論(3) - Rによる傾向スコア,IPW推定量,二重にロバストな推定量の算出 - About connecting the dots. 査観察データにおける因果推論(4) - Rで傾向スコアを出す際の共変量選択基準 - About connecting the dots. はじめに 前回は細かい理屈をすっ飛ばして,全変数を共変量として突っ込んだロジスティック回帰を実行しましたが,当然そんなやり方はほめられたものではないわけです.今回は,この傾向スコア算出に使う共変量をどのよ

    調査観察データにおける因果推論(4) - Rで傾向スコアを出す際の共変量選択基準 - About connecting the dots.
    rishida
    rishida 2013/10/06
    via はてなブックマーク - rishida のブックマーク - お気に入り http://b.hatena.ne.jp/rishida/favorite
  • 言語処理のための機械学習入門 - About connecting the dots.

    言語処理のための機械学習入門 (自然言語処理シリーズ) 作者: 高村大也,奥村学出版社/メーカー: コロナ社発売日: 2010/07メディア: 単行購入: 13人 クリック: 235回この商品を含むブログ (33件) を見る 自然言語処理と書いてありますが,普通に機械学習の教科書として読めます.そしてPRMLには手がまだでない人が読むのに最適なように思えます*1.すごい良書です. ターゲットは割と明確で,理工系の学部数学は理解しているけれども,機械学習の高度な手法について理論的な把握ができているわけではなく,まずは概要をつかみたい人向けです.専門的な手法に進む前段階の,機械学習の定番手法の概説書,というなかなかよいポジションに位置するだと思います.その一方で数式バリバリなので,文系卒でSPSS使ってマーケティング分析しているようなタイプの方向きではないです. そもそも動機としては,もと

    言語処理のための機械学習入門 - About connecting the dots.
  • Rのggplot2のスニペット(主に自分用) - About connecting the dots.

    主に自分用のメモです.ggplot2って,コマンドがややこしいので,いったん覚えてもすぐ忘れちゃうんですよね.なのでスニペットでもつくって楽したいですね,というのが今回の趣旨です. 基的な使い方 まずggplot()の中で,使用するデータフレームや変数名を指定します.そして描画するグラフをgeom_XXX()で指定した上で,ggplot()の後に+でつないであげればOKです.具体的には,以下のような形です. ggplot(data=mtcars, aes(x=wt, y=mpg))+geom_point() あとは,ひたすら具体例をさらしていきます.今日の内容はそんだけ. 前準備 まずは,ggplot2パッケージをインストールしておきましょう.それに付随して,関連するパッケージもまとめて入れておくことにします.それが終わったらデータセットの用意ですが,今回はデフォルトで入ってるmtcar

    Rのggplot2のスニペット(主に自分用) - About connecting the dots.
    rishida
    rishida 2013/09/28
    via はてなブックマーク - rishida のブックマーク - お気に入り http://b.hatena.ne.jp/rishida/favorite
  • Rで高速に大量データを読み込んでデータフレームに格納する方法 (2) - About connecting the dots.

    前回,read.table()とscan()を比較したんですが,もう少しきちんと調べてみると,実はread.tableパッケージというものがあるということを知りました.さらにstackoverflowにドンピシャのスレッドを見つけたので,これを実際に確かめてみました. freadの検証 data.tableパッケージが高速なテーブルデータの読み込みをおこなうためのパッケージで,中でもfreadが最もパフォーマンスが高いようです. ## user system elapsed Method ## 24.71 0.15 25.42 read.csv (first time) ## 17.85 0.07 17.98 read.csv (second time) ## 10.20 0.03 10.32 Optimized read.table ## 3.12 0.01 3.22 fread ##

    Rで高速に大量データを読み込んでデータフレームに格納する方法 (2) - About connecting the dots.
    rishida
    rishida 2013/07/13
    via はてなブックマーク - rishida のブックマーク - お気に入り http://b.hatena.ne.jp/rishida/favorite
  • 1