タグ

DATAとplyrに関するchess-newsのブックマーク (2)

  • dplyrを使いこなす!基礎編 - Qiita

    はじめに 4月ということで、新卒が入ってきたりRを使ったことないメンバーがJOINしたりしたので、 超便利なdplyrの使い方を何回かに分けてまとめて行きます。 Rは知らないけど、SQLとか他のプログラミング言語はある程度やったことあるみたいな人向けです。 dplyrを使いこなす!シリーズ 基礎編以外も書きましたので、↓からどうぞ。 * dplyrを使いこなす!Window関数編 * dplyrを使いこなす!JOIN編 dplyrとは データフレームの操作に特化したパッケージです。 Rは基的に処理速度はあまり早くないですが、dplyrはC++で書かれているのでかなり高速に動作します。 ソースの可読性もよくなるので、宗教上の理由で禁止されている人以外は使うメリットは大きいです。 処理可能なデータサイズの目安 あくまでも個人の環境に強く依存した感覚値ですが、1000万行、100MBぐらいのデ

    dplyrを使いこなす!基礎編 - Qiita
  • R dplyr, tidyr でのグルーピング/集約/変換処理まとめ - StatsFragments

    これの続き。よく使う集約/変換処理もまとめておく。 準備 library(dplyr) library(tidyr) (df <- dplyr::tbl_df(iris)) # Source: local data frame [150 x 5] # # Sepal.Length Sepal.Width Petal.Length Petal.Width Species # 1 5.1 3.5 1.4 0.2 setosa # 2 4.9 3.0 1.4 0.2 setosa # 3 4.7 3.2 1.3 0.2 setosa # .. ... ... ... ... ... グルーピング/集約 ある列の値ごとに集計 Species 列ごとに Sepal.Length 列の合計を算出する場合、 df %>% dplyr::group_by(Species) %>% dplyr::summa

    R dplyr, tidyr でのグルーピング/集約/変換処理まとめ - StatsFragments
    chess-news
    chess-news 2015/09/08
     Rにおけるデータ前処理について
  • 1