タグ

Rとpandasに関するishideoのブックマーク (9)

  • R ユーザーのための Pandas 実践ガイド II: siuba と datar - ill-identified diary

    概要 以前にも書いたように Python の pandas は参照透過性に欠けるため, 何度も書き換えて使用するような使い方に向いていない. これは pandas の用途と合わない. pandas をもっと快適にデータハンドリングする方法がないか探したところ, siuba, datar というパッケージを見つけたので紹介する. これらのパッケージの特徴を挙げ, 実験によるパフォーマンス比較してみた. 個人的には siuba のほうが信頼できると思うが, 現時点ではどちらも発展途上のパッケージである. 以前の続きということでタイトルを踏襲したが, 実は私がこれらのパッケージを知ったのは昨日なので「実践」的かどうかは少し疑わしい タイトルの通り R を知っている pandas ユーザーを想定読者としているが, R ユーザでなくても再利用のしやすい書き方は知っていて損はないと思う. その場合は実

    R ユーザーのための Pandas 実践ガイド II: siuba と datar - ill-identified diary
  • R と Python よく出るテーブル処理対応表 - 俺のOneNote

    RとPythonのよくやるテーブル処理の操作覚書。 #python import pandas as pd pd.__version__ # '1.0.3' #R library("tidyverse") packageVersion("tidyverse") # ‘1.3.0’ 厳密にはアウトプットの内容が完全に一致するものを並べているわけではありません。 単純な関数・メソッドで、似たような目的の処理ができるものの対比です。 同じ目的で並べてる関数・メソッドで、返り値や型が一致しないものもあります。 R, Pythonともに不自由なので、他にもっとよい関数等が存在すると思います。ご容赦ください。 自分自身の覚書なので随時更新するかもです。 テーブルデータ(csv)の読み込み 内容 R Python csv読み込み(ヘッダー付き) read.csv("hoge.csv") pd.read_

    R と Python よく出るテーブル処理対応表 - 俺のOneNote
  • dplyr使いのためのpandas dfplyでもJOIN編 - Qiita

    はじめに pandasデータフレームをRのdplyr同様に操作可能にするdfplyライブラリについてまとめるシリーズです。今回は100%中の100%大事なjoin関数です。複数のデータフレームを結合する関数ですね。 関連記事はこちら dplyr使いのためのpandas dfplyすごい編 dplyrのjoin関数についてはmatsuou1氏が解説している記事が分かりやすいです。 dplyrを使いこなす!JOIN編 事前準備、例データ import pandas as pd import numpy as np from dfply import * #dfply読み込み #例データ a = pd.DataFrame({ 'x1': ['A', 'B', 'C'], 'x2': [1, 2, 3] }) b = pd.DataFrame({ 'x1': ['A', 'B', 'D'], 'x

    dplyr使いのためのpandas dfplyでもJOIN編 - Qiita
  • dplyr使いのためのpandas dfply window関数編 - Qiita

    はじめに pandasデータフレームをRのdplyr同様に操作可能にするdfplyライブラリについてまとめるシリーズです。 dfplyについてはこちらをご参照ください。 dplyr使いのためのpandas dfplyすごい編 Window関数? SQLではおなじみですが、主に集計や分析に使われる関数ですね。 実行結果がgroup_byしたときのように集約されるわけではなく、入力データに対しての実行結果が戻されます。そのためmutateと一緒に使うことが多いと思います。 dplyrでのwindow関数は、matsuou1氏がまとめているこちらも参考にして頂けるとわかりやすいです。 事前準備、例データ 今回も、みんな大好きtitanicを使用します。 import pandas as pd import numpy as np from dfply import * #dfply読み込み im

    dplyr使いのためのpandas dfply window関数編 - Qiita
  • R ユーザーへの pandas 実践ガイド - Qiita

    概要 R で tidyverse (dplyr+tidyr) に使い慣れているが, Python に乗り換えると pandas がどうも使いにくい, と感じている人の視点で, Rの dplyr などとの比較を通して, pandas の効率的な使い方について書いています. そのため, 「R ユーザーへの」と書きましたが, R経験のない pandas ユーザーであってもなんらかの役に立つと思います. また, 自社インターン学生に対する教材も兼ねています. どちらかというと, 初歩を覚えたての初心者向けの記事となっています. データ分析は一発で終わることはまずなく, 集計・前処理を探索的に行う必要があります. よって, プログラムを頻繁に書き直す必要があり, 普段以上に保守性のある書き方, 例えば参照透過性を考慮した書き方をしたほうが便利です. R の tidyverse の強みとして, 再帰代

    R ユーザーへの pandas 実践ガイド - Qiita
  • dplyr使いのためのpandas dfplyすごい編 - Qiita

    以前からR, とりわけdplyrユーザーのpandas操作のために記事をまとめてきましたが、dplyr同様の操作は実現できていませんでした。が、ついにdfplyという素晴らしいライブラリを見つけましたので記事にまとめます。 関連シリーズ dplyr使いのためのpandas dfply データ加工編(tidyr) dplyr使いのためのpandas dfplyでもJOIN編 dplyr使いのためのpandas dfply window関数編 以前の記事はコチラ dplyr使いのためのpandas 基礎編 dplyr使いのためのpandas スライスsliceとインデックスindex編 dplyr使いのためのpandas マルチカラム操作編 dplyr? ってかたはコチラ(敬愛するmatsuou1氏の記事) dplyrを使いこなす!基礎編 dfplyのなにがすごい? dplyrの機能がほぼその

    dplyr使いのためのpandas dfplyすごい編 - Qiita
  • データ分析ライブラリPandasの使い方 - Librabuch

    エントリは、次のAdvent Calendarのために書かれたものです。 Python Advent Calendar 2013 (12月24日) 取り扱う内容 Pythonデータ分析用ライブラリであるPandasの紹介と簡単なサンプルコードを取り扱います。 Pandasとは 一時期盛り上がったけどあんまりPandasの情報出てこないからよーしエントリ書いちゃうぞー、と息巻いていたらこのようなフルスタックな書籍が出版されるようです。 [amazonjs asin="4873116554" locale="JP" title="Pythonによるデータ分析入門 ―NumPy、pandasを使ったデータ処理"] どう見てもこの書籍のほうが有益です。当にありがとうございました。 ...まぁ、発売日より2日早いのでセーフ(なにが?)として、めげずに続けます。 Pandas pandas is

    データ分析ライブラリPandasの使い方 - Librabuch
  • RをPandasに置き換える(ヒストグラム) - Y

  • Pythonや機械学習、そして言語の競争について – 極めて主観的な見地から | POSTD

    (訳注:2016/1/5、いただいた翻訳フィードバックを元に記事を修正いたしました。) よくある主観的で痛烈な意見を題名に付けたクリックベイト(クリック誘導)記事だろうと思われた方、そのとおりです。以前指導してくれた教授から教わったある洞察/処世術は、些細でありながら私の人生を変えるマントラとなったのですが、私がこの記事を書いたのはそれによるものです。「同じタスクを3回以上繰り返す必要があるなら、スクリプトを書いて自動化せよ」 そろそろ、このブログはなんだろうと思い始めているのではないでしょうか。半年振りに記事を書いたのですから。ツイッターで書いた Musings on social network platforms(ソーシャル・ネットワークプラットフォームについてじっくり考える) はさておき、この半年の間書き物をしていないというのはうそです。正確には、400ページの を書きました。

    Pythonや機械学習、そして言語の競争について – 極めて主観的な見地から | POSTD
  • 1