タグ

dplyrに関するxiangzeのブックマーク (10)

  • Rでデータセットの抽出(行の抽出、並べ替え、サンプリング、分割) – marketechlabo

    前のページではデータフレーム、data.tableの列(変数)の処理について解説したが、今度は行の抽出、並べ替え、サンプリング、分割といった行の処理についてまとめる。 行の削除(抽出) データフレーム adlog <- adlog[adlog$imp>1000 & adlog$click<10, , drop=F] adlog <- with(adlog, adlog[imp>1000 & click<10, , drop=F]) 上下は同じ。with()関数はバッチの中でも使えるので便利。 データフレームの抽出・絞り込みでは第3添字にdrop=FALSEを付けること! 行列の添え字にdrop=FALSEを付けないと1行(列)のみマッチの場合にベクトルとして返す。そうなるとデータフレームを想定してその後の処理にrbind()をしていたのができなくなるなど、行列処理に思わぬ不具合をきたすこと

  • データ系列が多すぎるとき、いい感じに一部をハイライトするためのパッケージgghighlightをつくりました - Technically, technophobic.

    ggplot2で可視化しようとして、データ系列が多すぎてこんなもじゃもじゃになってしまう、みたいなことないでしょうか。 これを、一部だけを色付けしてこんな感じのプロットにしてくれるパッケージをつくりました。 インストール GitHub上からインストールできます。 devtools::install_github("yutannihilation/gghighlight") gghiglightがやっていること gghiglightの説明をする前に、まずは上のグラフが何をしているのか、まずはふつうのtidyverseでやってみます。 データはこんな感じのやつです。 library(dplyr, warn.conflicts = FALSE) set.seed(1) d <- tibble( idx = 1:10000, value = runif(idx, -1, 1), type = sa

    データ系列が多すぎるとき、いい感じに一部をハイライトするためのパッケージgghighlightをつくりました - Technically, technophobic.
  • MCMCサンプルを{dplyr}で操る - StatModeling Memorandum

    RからStanやJAGSを実行して得られるMCMCサンプルは、一般的に iterationの数×chainの数×パラメータの次元 のようなオブジェクトとなっており、凝った操作をしようとするとかなりややこしいです。 『StanとRでベイズ統計モデリング (Wonderful R)』のなかでは、複雑なデータ加工部分は場合によりけりなので深入りしないで、GitHub上でソースコードを提供しています。そこでは、ユーザが新しく覚えることをなるべく少なくするため、Rの標準的な関数であるapply関数群を使っていろいろ算出しています。しかし、apply関数群は慣れていない人には習得しづらい欠点があります。 一方で、Rのデータ加工パッケージとして、%>%によるパイプ処理・{dplyr}パッケージ・{tidyr}パッケージがここ最近よく使われており、僕も重い腰を上げてやっと使い始めたのですが、これが凄く使い

    MCMCサンプルを{dplyr}で操る - StatModeling Memorandum
  • dplyr::selectの活用例メモ

    タイトルのとおりです。気分転換を兼ねてメモ。 library(dplyr) #> #> 次のパッケージを付け加えます: 'dplyr' #> 以下のオブジェクトは 'package:stats' からマスクされています: #> #> filter, lag #> 以下のオブジェクトは 'package:base' からマスクされています: #> #> intersect, setdiff, setequal, union 列位置を示す数値ベクトルを与えると,それ引っ張ってくる: select(iris, c(1, 4)) %>% head(3) #> Sepal.Length Petal.Width #> 1 5.1 0.2 #> 2 4.9 0.2 #> 3 4.7 0.2 starts_with()などのselect_helpers関数群は,要するに列位置を表す数値ベクトルを返してくる

    dplyr::selectの活用例メモ
  • dplyrのmutate_if()とかについて - Technically, technophobic.

    1か月前にキターとつぶやいたものがついにCRANにきたのでそれについて書きます。 Colwise update https://t.co/AotXyUjYmv キター!— Hiroaki Yutani (@yutannihilation) 2016年5月31日 これは何なのか 複数のカラムに対して同じ処理をするとき、これまではmutate_each()、summarise_each()という関数がありました。 たとえば、Sepalから始まるカラムすべてにmin()とmax()を適用したいときはこんな感じです。 library(dplyr) iris %>% group_by(Species) %>% summarise_each(funs(min, max), starts_with("Sepal")) #> Source: local data frame [3 x 5] #> #> S

    dplyrのmutate_if()とかについて - Technically, technophobic.
  • GitHub - dodger487/dplython: dplyr for python

    import pandas from dplython import (DplyFrame, X, diamonds, select, sift, sample_n, sample_frac, head, arrange, mutate, group_by, summarize, DelayFunction) # The example `diamonds` DataFrame is included in this package, but you can # cast a DataFrame to a DplyFrame in this simple way: # diamonds = DplyFrame(pandas.read_csv('./diamonds.csv')) # Select specific columns of the DataFrame using select,

    GitHub - dodger487/dplython: dplyr for python
  • Rの data.table と data.frame を dplyr で区別なく扱う - StatsFragments

    R を使っていると、組み込み型の data.frame と大規模データ用パッケージである data.table の差異で思わずはまることがあるので使い方をまとめる。どちらか一方しか使わないようにすれば 差異を気にする必要はないのかも知れないが、、。 基的には データ操作用パッケージ dplyr が data.frame と data.table 両方に対して同じように使えるので、できるだけ dplyr を使って操作するのがよい。 ある程度 複雑な操作であれば最初から dplyr を使うと思うが、列選択, 行選択, 代入など 比較的シンプルな操作はつい 通常の書式で書いてしまう (そしてはまる、、)。また、列名を文字列に入れて処理するなど、dplyr 0.2以前では(シンプルには)書けない処理もあった。 dplyr 0.3でこのあたりの処理が素直に書けるようになっているので、その方法と 通

    Rの data.table と data.frame を dplyr で区別なく扱う - StatsFragments
  • dplyrを使いこなす!基礎編 - Qiita

    はじめに 4月ということで、新卒が入ってきたりRを使ったことないメンバーがJOINしたりしたので、 超便利なdplyrの使い方を何回かに分けてまとめて行きます。 Rは知らないけど、SQLとか他のプログラミング言語はある程度やったことあるみたいな人向けです。 dplyrを使いこなす!シリーズ 基礎編以外も書きましたので、↓からどうぞ。 * dplyrを使いこなす!Window関数編 * dplyrを使いこなす!JOIN編 dplyrとは データフレームの操作に特化したパッケージです。 Rは基的に処理速度はあまり早くないですが、dplyrはC++で書かれているのでかなり高速に動作します。 ソースの可読性もよくなるので、宗教上の理由で禁止されている人以外は使うメリットは大きいです。 処理可能なデータサイズの目安 あくまでも個人の環境に強く依存した感覚値ですが、1000万行、100MBぐらいのデ

    dplyrを使いこなす!基礎編 - Qiita
  • R dplyr, tidyr でのグルーピング/集約/変換処理まとめ - StatsFragments

    これの続き。よく使う集約/変換処理もまとめておく。 準備 library(dplyr) library(tidyr) (df <- dplyr::tbl_df(iris)) # Source: local data frame [150 x 5] # # Sepal.Length Sepal.Width Petal.Length Petal.Width Species # 1 5.1 3.5 1.4 0.2 setosa # 2 4.9 3.0 1.4 0.2 setosa # 3 4.7 3.2 1.3 0.2 setosa # .. ... ... ... ... ... グルーピング/集約 ある列の値ごとに集計 Species 列ごとに Sepal.Length 列の合計を算出する場合、 df %>% dplyr::group_by(Species) %>% dplyr::summa

    R dplyr, tidyr でのグルーピング/集約/変換処理まとめ - StatsFragments
  • 野球のスコアで一番多いのは何対何だと思う? - 300億円欲しい

    野球のスコア こんなツイートを見つけました. 日は神宮で東都大学野球を観戦後、Hさん、Gさんと外苑前の居酒屋で一杯。Gさんから「野球のスコアで一番多いのは何対何だと思う?」とお題。Gさんによれば、過去のMLBの試合を全て調べた人がいて、そのスコアは「3ー1」だったそうだ。続く— ふくださん (@fukudasun) 2014, 4月 22 知りませんでした. 手元にMLBのデータがあるので, 調べてみました. データの取得 http://retrosheet.orgからデータをダウンロードします. メジャーリーグの試合の, 全てのイベントに関するデータが取得できます. 下記参照. Rで野球データを取得したい - 300億円欲しい とりあえず, 1921年から2013年までのデータを取得しました. 全部で2GBくらいです. 準備は整いました. 早速調査しましょう. 2013年のスコア別試合

    野球のスコアで一番多いのは何対何だと思う? - 300億円欲しい
    xiangze
    xiangze 2014/04/26
    dplyrとpipe演算子
  • 1