[B! dplyr] xiangzeのブックマーク

Rでデータセットの抽出（行の抽出、並べ替え、サンプリング、分割） – marketechlabo

前のページではデータフレーム、data.tableの列（変数）の処理について解説したが、今度は行の抽出、並べ替え、サンプリング、分割といった行の処理についてまとめる。行の削除（抽出）データフレーム adlog <- adlog[adlog$imp>1000 & adlog$click<10, , drop=F] adlog <- with(adlog, adlog[imp>1000 & click<10, , drop=F]) 上下は同じ。with()関数はバッチの中でも使えるので便利。データフレームの抽出・絞り込みでは第3添字にdrop=FALSEを付けること！行列の添え字にdrop=FALSEを付けないと1行（列）のみマッチの場合にベクトルとして返す。そうなるとデータフレームを想定してその後の処理にrbind()をしていたのができなくなるなど、行列処理に思わぬ不具合をきたすこと

xiangze 2022/12/10

R
dplyr

リンク

データ系列が多すぎるとき、いい感じに一部をハイライトするためのパッケージgghighlightをつくりました - Technically, technophobic.

ggplot2で可視化しようとして、データ系列が多すぎてこんなもじゃもじゃになってしまう、みたいなことないでしょうか。これを、一部だけを色付けしてこんな感じのプロットにしてくれるパッケージをつくりました。インストール GitHub上からインストールできます。 devtools::install_github("yutannihilation/gghighlight") gghiglightがやっていること gghiglightの説明をする前に、まずは上のグラフが何をしているのか、まずはふつうのtidyverseでやってみます。データはこんな感じのやつです。 library(dplyr, warn.conflicts = FALSE) set.seed(1) d <- tibble( idx = 1:10000, value = runif(idx, -1, 1), type = sa

xiangze 2017/10/01

リンク

MCMCサンプルを{dplyr}で操る - StatModeling Memorandum

RからStanやJAGSを実行して得られるMCMCサンプルは、一般的に　iterationの数×chainの数×パラメータの次元　のようなオブジェクトとなっており、凝った操作をしようとするとかなりややこしいです。『StanとRでベイズ統計モデリング (Wonderful R)』のなかでは、複雑なデータ加工部分は場合によりけりなので深入りしないで、GitHub上でソースコードを提供しています。そこでは、ユーザが新しく覚えることをなるべく少なくするため、Rの標準的な関数であるapply関数群を使っていろいろ算出しています。しかし、apply関数群は慣れていない人には習得しづらい欠点があります。一方で、Rのデータ加工パッケージとして、%>%によるパイプ処理・{dplyr}パッケージ・{tidyr}パッケージがここ最近よく使われており、僕も重い腰を上げてやっと使い始めたのですが、これが凄く使い

xiangze 2017/07/05

リンク

dplyr::selectの活用例メモ

タイトルのとおりです。気分転換を兼ねてメモ。 library(dplyr) #> #> 次のパッケージを付け加えます: 'dplyr' #> 以下のオブジェクトは 'package:stats' からマスクされています: #> #> filter, lag #> 以下のオブジェクトは 'package:base' からマスクされています: #> #> intersect, setdiff, setequal, union 列位置を示す数値ベクトルを与えると，それ引っ張ってくる: select(iris, c(1, 4)) %>% head(3) #> Sepal.Length Petal.Width #> 1 5.1 0.2 #> 2 4.9 0.2 #> 3 4.7 0.2 starts_with()などのselect_helpers関数群は，要するに列位置を表す数値ベクトルを返してくる

xiangze 2017/04/15

r
dplyr

リンク

dplyrのmutate_if()とかについて - Technically, technophobic.

1か月前にｷﾀｰとつぶやいたものがついにCRANにきたのでそれについて書きます。 Colwise update https://t.co/AotXyUjYmv ｷﾀｰ！— Hiroaki Yutani (@yutannihilation) 2016年5月31日これは何なのか複数のカラムに対して同じ処理をするとき、これまではmutate_each()、summarise_each()という関数がありました。たとえば、Sepalから始まるカラムすべてにmin()とmax()を適用したいときはこんな感じです。 library(dplyr) iris %>% group_by(Species) %>% summarise_each(funs(min, max), starts_with("Sepal")) #> Source: local data frame [3 x 5] #> #> S

xiangze 2016/07/03

R
dplyr

リンク

GitHub - dodger487/dplython: dplyr for python

import pandas from dplython import (DplyFrame, X, diamonds, select, sift, sample_n, sample_frac, head, arrange, mutate, group_by, summarize, DelayFunction) # The example `diamonds` DataFrame is included in this package, but you can # cast a DataFrame to a DplyFrame in this simple way: # diamonds = DplyFrame(pandas.read_csv('./diamonds.csv')) # Select specific columns of the DataFrame using select,

xiangze 2016/03/25

python
dplyr

リンク

Rの data.table と data.frame を dplyr で区別なく扱う - StatsFragments

R を使っていると、組み込み型の data.frame と大規模データ用パッケージである data.table の差異で思わずはまることがあるので使い方をまとめる。どちらか一方しか使わないようにすれば差異を気にする必要はないのかも知れないが、、。基本的にはデータ操作用パッケージ dplyr が data.frame と data.table 両方に対して同じように使えるので、できるだけ dplyr を使って操作するのがよい。ある程度複雑な操作であれば最初から dplyr を使うと思うが、列選択, 行選択, 代入など比較的シンプルな操作はつい通常の書式で書いてしまう (そしてはまる、、)。また、列名を文字列に入れて処理するなど、dplyr 0.2以前では(シンプルには)書けない処理もあった。 dplyr 0.3でこのあたりの処理が素直に書けるようになっているので、その方法と通

xiangze 2015/12/21

R
dplyr

リンク

dplyrを使いこなす！基礎編 - Qiita

はじめに 4月ということで、新卒が入ってきたりRを使ったことないメンバーがJOINしたりしたので、超便利なdplyrの使い方を何回かに分けてまとめて行きます。 Rは知らないけど、SQLとか他のプログラミング言語はある程度やったことあるみたいな人向けです。 dplyrを使いこなす！シリーズ基礎編以外も書きましたので、↓からどうぞ。 * dplyrを使いこなす！Window関数編 * dplyrを使いこなす！JOIN編 dplyrとはデータフレームの操作に特化したパッケージです。 Rは基本的に処理速度はあまり早くないですが、dplyrはC++で書かれているのでかなり高速に動作します。ソースの可読性もよくなるので、宗教上の理由で禁止されている人以外は使うメリットは大きいです。処理可能なデータサイズの目安あくまでも個人の環境に強く依存した感覚値ですが、1000万行、100MBぐらいのデ

xiangze 2015/11/02

dplyr
R

リンク

R dplyr, tidyr でのグルーピング/集約/変換処理まとめ - StatsFragments

これの続き。よく使う集約/変換処理もまとめておく。準備 library(dplyr) library(tidyr) (df <- dplyr::tbl_df(iris)) # Source: local data frame [150 x 5] # # Sepal.Length Sepal.Width Petal.Length Petal.Width Species # 1 5.1 3.5 1.4 0.2 setosa # 2 4.9 3.0 1.4 0.2 setosa # 3 4.7 3.2 1.3 0.2 setosa # .. ... ... ... ... ... グルーピング/集約ある列の値ごとに集計 Species 列ごとに Sepal.Length 列の合計を算出する場合、 df %>% dplyr::group_by(Species) %>% dplyr::summa

xiangze 2014/12/05

r
dplyr

リンク

野球のスコアで一番多いのは何対何だと思う？ - 300億円欲しい

野球のスコアこんなツイートを見つけました. 本日は神宮で東都大学野球を観戦後、Ｈさん、Ｇさんと外苑前の居酒屋で一杯。Ｇさんから「野球のスコアで一番多いのは何対何だと思う？」とお題。Ｇさんによれば、過去のＭＬＢの試合を全て調べた人がいて、そのスコアは「３ー１」だったそうだ。続く— ふくださん (@fukudasun) 2014, 4月 22 知りませんでした. 手元にMLBのデータがあるので, 調べてみました. データの取得 http://retrosheet.orgからデータをダウンロードします. メジャーリーグの試合の, 全てのイベントに関するデータが取得できます. 下記参照. Rで野球データを取得したい - 300億円欲しいとりあえず, 1921年から2013年までのデータを取得しました. 全部で2GBくらいです. 準備は整いました. 早速調査しましょう. 2013年のスコア別試合

xiangze 2014/04/26

dplyrとpipe演算子

R
dplyr

リンク

はてなブックマーク

タグ

関連タグで絞り込む (5)

dplyrに関するxiangzeのブックマーク (10)

お知らせ

今週のはてなブックマーク数ランキング（2024年7月第3週）

今週のはてなブックマーク数ランキング（2024年7月第2週）

はてなブックマーク透明性レポート（2024年 2月-2024年4月）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス