タグ

Rとdplyrに関するhorihorioのブックマーク (3)

  • 10分単位でgroup_byして集計したい - 盆栽日記

    分を抽出して10分単位でfloorして、1時間単位でfloorしたデータと足し合わせる。 たまにしかやらないので忘れてしまう。 というか以下の記事でも言及しているようにxtsパッケージとか使えばもっとスマートに書けるんじゃないのか。 http://notchained.hatenablog.com/entry/2015/09/22/072820 library("dplyr") library("lubridate") res <- df %>% group_by(m=floor_date(time, unit = "hour") + minutes(floor(minute(time) / 10) * 10)) %>% summarise(count=sum(hoge)) あと、ミリ秒が入っていたときの書式もよく忘れる。 %Sの代わりに%OSを使えばよい。 as.POSIXctを使えばこ

    10分単位でgroup_byして集計したい - 盆栽日記
  • R dplyr, tidyr でのグルーピング/集約/変換処理まとめ - StatsFragments

    これの続き。よく使う集約/変換処理もまとめておく。 準備 library(dplyr) library(tidyr) (df <- dplyr::tbl_df(iris)) # Source: local data frame [150 x 5] # # Sepal.Length Sepal.Width Petal.Length Petal.Width Species # 1 5.1 3.5 1.4 0.2 setosa # 2 4.9 3.0 1.4 0.2 setosa # 3 4.7 3.2 1.3 0.2 setosa # .. ... ... ... ... ... グルーピング/集約 ある列の値ごとに集計 Species 列ごとに Sepal.Length 列の合計を算出する場合、 df %>% dplyr::group_by(Species) %>% dplyr::summa

    R dplyr, tidyr でのグルーピング/集約/変換処理まとめ - StatsFragments
  • dplyrのなんたら_eachを効率的に使う - 盆栽日記

    正直誰でも知ってる関数だし他にも解説している記事はあるので今さらだが、dplyrパッケージのなんたら_each関数の使い方をまとめる。 なんたら_eachを知ることでコピペを連発していたうちの同僚は感動のあまり涙の海に沈んだ。 たとえば以下のように一つの列に対して複数の操作を加えたいことがある。 iris %>% group_by(Species) %>% summarise(MIN=min(Sepal.Length), MEAN=mean(Sepal.Length), MEDIAN=median(Sepal.Length), MAX=max(Sepal.Length) ) 1つの列ならまだいいが、これが複数の列になると心が闇に染まる。 iris %>% group_by(Species) %>% summarise(MIN_SL=min(Sepal.Length), MEAN_SL=me

    dplyrのなんたら_eachを効率的に使う - 盆栽日記
  • 1