[B! Python][dplyr] Aobeiのブックマーク

超高速…だけじゃない！Pandasに代えてPolarsを使いたい理由 - Qiita

PolarsというPandasを100倍くらい高性能にしたライブラリがとても良いので布教します1。PolarsはRustベースのDataFrameライブラリですが、本記事ではPythonでのそれについて語ります。ちなみにpolarsは白熊の意です。そりゃあまあ、白熊と大熊猫比べたら白熊のほうが速いし強いよねってことです2。何がいいの？推しポイントは３つあります高速！お手軽！書きやすい！ 1. 高速画像はTPCHのBenchmark（紫がPolars）3。日本語でも色々記事があるので割愛しますが、RustやApach Arrowなどにお世話になっており、非常に速いです。MemoryErrorに悩まされる問題も解決されます。開発者のRitchieがしゃれおつなツイートをしてるので、そちらも参考にどうぞ ↓ 4。抄訳：（ひとつ目）Pandasは黄色くした部分でDataFram

Aobei 2023/01/19

リンク

時系列データを前処理する際のPython逆引きメモ - EurekaMoments

機械学習のための「前処理」入門作者:足立悠リックテレコムAmazon 目的データ分析の仕事をする中で最も扱う機会が多いのが時系列データだと思います。その中で欠損値を扱ったり、統計を取ったり、特徴量を作り出したりするのですが、毎回やり方を忘れてググっているので、上記の書籍を読んでこういった前処理の方法をいつでも確認できるようにメモしておこうと思います。目次目的目次日時のデータをdatetime型に変換する最初の日時からの経過時間を計算する各データの統計量を計算する欠損値の確認と補完経過時間の単位を変換するデータフレーム結合する基準日時からの経過時間を計算する重複した行を削除する特定のデータ列をインデックスにする部分的時系列を抽出して統計量を計算するデータフレームの各列をリストにして結合する不均衡データから教師データを作成するデータの読み込みと可視

Aobei 2022/09/21

リンク

dplyr-style Data Manipulation with Pipes in Python

Piping Let’s say you want to perform n discrete transf ormation operations on your dataset before outputting the final result. The most common way is to perform the operations step by step and store the result of each step in a variable. The variable holding the intermediate result is then used in the next step of the transf ormation pipeline. Let’s take a look at an abstract example. # 'original_da

Aobei 2021/04/24

dplyr風にハンドリングする。filterでなくmask

リンク

R ユーザーへの pandas 実践ガイド - Qiita

概要 R で tidyverse (dplyr+tidyr) に使い慣れているが, Python に乗り換えると pandas がどうも使いにくい, と感じている人の視点で, Rの dplyr などとの比較を通して, pandas の効率的な使い方について書いています. そのため, 「R ユーザーへの」と書きましたが, R経験のない pandas ユーザーであってもなんらかの役に立つと思います. また, 自社インターン学生に対する教材も兼ねています. どちらかというと, 初歩を覚えたての初心者向けの記事となっています. データ分析は一発で終わることはまずなく, 集計・前処理を探索的に行う必要があります. よって, プログラムを頻繁に書き直す必要があり, 普段以上に保守性のある書き方, 例えば参照透過性を考慮した書き方をしたほうが便利です. R の tidyverse の強みとして, 再帰代

Aobei 2020/07/02

リンク

python pandas と R tidyverseの比較 - Qiita

Rのtidyverseパッケージ群は、データの操作や可視化を簡潔で一貫した記述で行うことができる非常に優れたツールで、私も愛してやみません。しかし、最近はシステムにモデルを組み込んだり、ディープラーニングライブラリを試したりするために、Pythonそしてpandasパッケージを使用することが増えています。ただ、pandasは、pandasの関数、DataFrameオブジェクトのメソッド、インデクサーなどを駆使してデータの操作を行うため、（個人的には）一貫性に乏しく操作が覚えにくいと感じます。 "前処理大全"など良書もありますが、tidyverseとpandasの純粋な比較はWeb・書籍でも目にしなかったので、この記事では備忘録的に作成したtidyverse-pandasの比較について共有します。まだ足りない点があるので順次更新を行っていく予定です。（2019/3/31　追記をしまし

Aobei 2020/05/15

Python
dplyr

リンク

GitHub - kieferk/dfply: dplyr-style piping operations for pandas dataframes

Note: Version 0.3.0 is the first big update in awhile, and changes a lot of the "base" code. The pandas-ply package is no longer being imported. I have coded my own version of the "symbolic" objects that I was borrowing from pandas-ply. Also, I am no longer supporting Python 2, sorry! In v0.3 groupby has been renamed to group_by to mirror the dplyr function. If this breaks your legacy code, one po

Aobei 2020/05/10

Python
dplyr

リンク

はてなブックマーク

タグ

関連タグで絞り込む (5)

Pythonとdplyrに関するAobeiのブックマーク (6)

お知らせ

はてなブックマーク透明性レポート（2024年11月～2025年2月）

今週のはてなブックマーク数ランキング（2025年6月第3週）

今週のはてなブックマーク数ランキング（2025年6月第2週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス