[B! pandas][Python][dplyr] Aobeiのブックマーク

Aobei id:Aobei

pandasとPythonとdplyrに関するAobeiのブックマーク (3)

超高速…だけじゃない！Pandasに代えてPolarsを使いたい理由 - Qiita
PolarsというPandasを100倍くらい高性能にしたライブラリがとても良いので布教します1。PolarsはRustベースのDataFrameライブラリですが、本記事ではPythonでのそれについて語ります。ちなみにpolarsは白熊の意です。そりゃあまあ、白熊と大熊猫比べたら白熊のほうが速いし強いよねってことです2。何がいいの？推しポイントは３つあります高速！お手軽！書きやすい！ 1. 高速画像はTPCHのBenchmark（紫がPolars）3。日本語でも色々記事があるので割愛しますが、RustやApach Arrowなどにお世話になっており、非常に速いです。MemoryErrorに悩まされる問題も解決されます。開発者のRitchieがしゃれおつなツイートをしてるので、そちらも参考にどうぞ ↓ 4。抄訳：（ひとつ目）Pandasは黄色くした部分でDataFram
Aobei 2023/01/19
pandas

Python

dplyr
リンク
時系列データを前処理する際のPython逆引きメモ - EurekaMoments
機械学習のための「前処理」入門作者:足立悠リックテレコムAmazon 目的データ分析の仕事をする中で最も扱う機会が多いのが時系列データだと思います。その中で欠損値を扱ったり、統計を取ったり、特徴量を作り出したりするのですが、毎回やり方を忘れてググっているので、上記の書籍を読んでこういった前処理の方法をいつでも確認できるようにメモしておこうと思います。目次目的目次日時のデータをdatetime型に変換する最初の日時からの経過時間を計算する各データの統計量を計算する欠損値の確認と補完経過時間の単位を変換するデータフレーム結合する基準日時からの経過時間を計算する重複した行を削除する特定のデータ列をインデックスにする部分的時系列を抽出して統計量を計算するデータフレームの各列をリストにして結合する不均衡データから教師データを作成するデータの読み込みと可視
Aobei 2022/09/21
Python

データ操作

dplyr

pandas
リンク
dplyr-style Data Manipulation with Pipes in Python
Piping Let’s say you want to perform n discrete transf ormation operations on your dataset before outputting the final result. The most common way is to perform the operations step by step and store the result of each step in a variable. The variable holding the intermediate result is then used in the next step of the transf ormation pipeline. Let’s take a look at an abstract example. # 'original_da
Aobei 2021/04/24
dplyr風にハンドリングする。filterでなくmask

Python

dplyr

pandas
リンク
1