タグ

dplyrとRに関するchess-newsのブックマーク (6)

  • 【R】絶対に身につけて欲しいR術 - 歩いたら休め

    友人が、後輩にこちらの記事を紹介していました。 www.shiningmaru.com Excelの基的な機能や、分析の心構えが過不足なく紹介されている素晴らしい記事だと思います!しかし、私は統計用環境のR言語が大好きで、分析のほとんどの場面で、RはExcelより簡単に記述できると思っています。 というわけで、「もしRで同じ内容の記事を書くとどうなるのか」というパロディーを書いてみることにしました。 クライアントとかと接しながらいつも思うのですが、Rすら出来ない人多すぎ。あなたたちが作った適当なフォーマットと手打ちのExcelで苦労するの誰だと思ってるの。そこで今回は私の「社会人であればこんくらいは最低限出来てよ」というフラストレーションをぶつけた「これだけ最低限知ってろ、R編」です。 これくらい出来ないと人間ではない。獣(ケダモノ)である。 Rで出来ること あるべきフォーマット/作って

    【R】絶対に身につけて欲しいR術 - 歩いたら休め
  • ⭐️Rを使ったモデル構築の最善策を求めて: {dplyr} + {tidyr} + {broom} + {purrr}を使ったアプローチ - cucumber flesh

    RStudioのチーフサイエンティスト、Hadley Wickham(ハドリー)が2月に行った講演のビデオがYouTubeに上がっていたので観た。 "Making Data Analysis Easier"というタイトルでの発表(スライドでは"Managing many models"になっているけど)で、ハドリー自身が考えている、データサイエンスに必要な可視化やモデリングを効率的に行うための手法について、彼の開発してきたパッケージを中心に説明している。 www.youtube.com 分かりやすく、具体例を交えた内容なので、是非YouTubeの動画を観てもらうのが良いと思うが、自分の頭を整理するためにもここでまとめておく。なお、発表スライドはクリエイティブ・コモンズライセンス3.0のもと、表示・非営利のラインセンスで再利用可能となっている。 Hadley Wickham (Chief S

    ⭐️Rを使ったモデル構築の最善策を求めて: {dplyr} + {tidyr} + {broom} + {purrr}を使ったアプローチ - cucumber flesh
  • dplyrパッケージ便利いいいいいいいいいいいいいい - 盆栽日記

    こんな資料があります。 「plyrパッケージで君も前処理スタ☆」改め「plyrパッケージ徹底入門」 http://www.slideshare.net/teramonagi/tokyo-r30-20130420 plyrパッケージは非常に便利なのですが、とても大きなデータに対しては遅い。 ddplyしたけど遅いッ遅すぎるッ!!!!!俺はPython-pandasで集計するぜえええええええええって人、いると思います。 まあdata.tableパッケージを使ったりすることである程度高速化できるんだけれども、plyrやggplot2などHadley Ecosystemにどっぷり浸かっている身としては、慣れ親しんだ文法のまま集計が高速化されてほしいッ! ということで教祖がやってくれました。 dplyrパッケージです。 Rbloggersで速度検証記事も上がっております。 http://www.r-

    dplyrパッケージ便利いいいいいいいいいいいいいい - 盆栽日記
  • dplyrを使いこなす!基礎編 - Qiita

    はじめに 4月ということで、新卒が入ってきたりRを使ったことないメンバーがJOINしたりしたので、 超便利なdplyrの使い方を何回かに分けてまとめて行きます。 Rは知らないけど、SQLとか他のプログラミング言語はある程度やったことあるみたいな人向けです。 dplyrを使いこなす!シリーズ 基礎編以外も書きましたので、↓からどうぞ。 * dplyrを使いこなす!Window関数編 * dplyrを使いこなす!JOIN編 dplyrとは データフレームの操作に特化したパッケージです。 Rは基的に処理速度はあまり早くないですが、dplyrはC++で書かれているのでかなり高速に動作します。 ソースの可読性もよくなるので、宗教上の理由で禁止されている人以外は使うメリットは大きいです。 処理可能なデータサイズの目安 あくまでも個人の環境に強く依存した感覚値ですが、1000万行、100MBぐらいのデ

    dplyrを使いこなす!基礎編 - Qiita
  • Data Wrangling日本語訳.pptx

    dplyr tidyr dplyr::tbl_df(iris) dplyr::glimpse(iris) utils::View(iris) V Source: local data frame [150 x 5] Sepal.Length Sepal.Width Petal.Length 1 5.1 3.5 1.4 2 4.9 3.0 1.4 3 4.7 3.2 1.3 4 4.6 3.1 1.5 5 5.0 3.6 1.4 .. ... ... ... Variables not shown: Petal.Width (dbl), Species (fctr) dplyr::%>% . %>% : x %>% f(y) f(x, y) y %>% f(x, ., z) f(x, y, z ) - tidy : Tidy Data - R Tidy data R R ( ) ( ) ti

  • R dplyr, tidyr でのグルーピング/集約/変換処理まとめ - StatsFragments

    これの続き。よく使う集約/変換処理もまとめておく。 準備 library(dplyr) library(tidyr) (df <- dplyr::tbl_df(iris)) # Source: local data frame [150 x 5] # # Sepal.Length Sepal.Width Petal.Length Petal.Width Species # 1 5.1 3.5 1.4 0.2 setosa # 2 4.9 3.0 1.4 0.2 setosa # 3 4.7 3.2 1.3 0.2 setosa # .. ... ... ... ... ... グルーピング/集約 ある列の値ごとに集計 Species 列ごとに Sepal.Length 列の合計を算出する場合、 df %>% dplyr::group_by(Species) %>% dplyr::summa

    R dplyr, tidyr でのグルーピング/集約/変換処理まとめ - StatsFragments
    chess-news
    chess-news 2015/09/08
     Rにおけるデータ前処理について
  • 1