[B! pandas][Python] Aobeiのブックマーク

超高速…だけじゃない！Pandasに代えてPolarsを使いたい理由 - Qiita

PolarsというPandasを100倍くらい高性能にしたライブラリがとても良いので布教します1。PolarsはRustベースのDataFrameライブラリですが、本記事ではPythonでのそれについて語ります。ちなみにpolarsは白熊の意です。そりゃあまあ、白熊と大熊猫比べたら白熊のほうが速いし強いよねってことです2。何がいいの？推しポイントは３つあります高速！お手軽！書きやすい！ 1. 高速画像はTPCHのBenchmark（紫がPolars）3。日本語でも色々記事があるので割愛しますが、RustやApach Arrowなどにお世話になっており、非常に速いです。MemoryErrorに悩まされる問題も解決されます。開発者のRitchieがしゃれおつなツイートをしてるので、そちらも参考にどうぞ ↓ 4。抄訳：（ひとつ目）Pandasは黄色くした部分でDataFram

Aobei 2023/01/19

リンク

時系列データを前処理する際のPython逆引きメモ - EurekaMoments

機械学習のための「前処理」入門作者:足立悠リックテレコムAmazon 目的データ分析の仕事をする中で最も扱う機会が多いのが時系列データだと思います。その中で欠損値を扱ったり、統計を取ったり、特徴量を作り出したりするのですが、毎回やり方を忘れてググっているので、上記の書籍を読んでこういった前処理の方法をいつでも確認できるようにメモしておこうと思います。目次目的目次日時のデータをdatetime型に変換する最初の日時からの経過時間を計算する各データの統計量を計算する欠損値の確認と補完経過時間の単位を変換するデータフレーム結合する基準日時からの経過時間を計算する重複した行を削除する特定のデータ列をインデックスにする部分的時系列を抽出して統計量を計算するデータフレームの各列をリストにして結合する不均衡データから教師データを作成するデータの読み込みと可視

Aobei 2022/09/21

リンク

pandas でメモリに乗らない大容量ファイルを上手に扱う - StatsFragments

概要分析のためにデータ集めしていると、たまにマジか！? と思うサイズの CSV に出くわすことがある。なぜこんなに育つまで放っておいたのか、、、？このエントリでは普通には開けないサイズの CSV を pandas を使ってうまいこと処理する方法をまとめたい。サンプルデータたまには実データ使おう、ということで WorldBankから GDPデータを落とす。以下のページ右上の "DOWNLOAD DATA" ボタンで CSV を選択し、ローカルに zip を保存する。解凍した "ny.gdp.mktp.cd_Indicator_en_csv_v2.csv" ファイルをサンプルとして使う。 http://data.worldbank.org/indicator/NY.GDP.MKTP.CD?page=1 補足 pandas の Remote Data Access で WorldBan

Aobei 2021/07/01

リンク

dplyr-style Data Manipulation with Pipes in Python

Piping Let’s say you want to perform n discrete transf ormation operations on your dataset before outputting the final result. The most common way is to perform the operations step by step and store the result of each step in a variable. The variable holding the intermediate result is then used in the next step of the transf ormation pipeline. Let’s take a look at an abstract example. # 'original_da

Aobei 2021/04/24

dplyr風にハンドリングする。filterでなくmask

リンク

Python初学者のためのPandas100本ノック - Qiita

Information 2024/1/8： pandas , Polars など18を超えるライブラリを統一記法で扱える統合データ処理ライブラリ Ibis の100 本ノックを作成しました。長期目線でとてもメリットのあるライブラリです。こちらも興味があればご覧下さい。 Ibis 100 本ノック https://qiita.com/kunishou/it ems/e0244aa2194af8a1fee9 2023/2/12：大規模データを高速に処理可能なデータ処理ライブラリ Polars の 100 本ノックを作成しました。こちらも興味があればご覧下さい。 Polars 100 本ノック https://qiita.com/kunishou/it ems/1386d14a136f585e504e はじめにこの度、PythonライブラリであるPandasを効率的に学ぶためのコンテンツとして

Aobei 2020/09/26

問題内容がリストになっていて便利。

リンク

データ分析の前処理を行えるPythonライブラリ「pandas」、最も基本的なデータ構造「シリーズ」を解説

機械学習やデータ分析には、収集したデータを使いやすい形に整える前処理が不可欠です。その際によく利用されるのがPythonのライブラリ「pandas」。今回は『現場で使える！pandasデータ前処理入門』（翔泳社）より、pandasの最も基本的なデータ構造であるシリーズの概要と操作方法について抜粋して紹介します。本記事は『現場で使える！pandasデータ前処理入門機械学習・データサイエンスで役立つ前処理手法』の「CHAPTER 2 pandasのデータ構造」より「2.1 シリーズ」を抜粋したものです。掲載にあたり一部を編集しています。 2.1.1　シリーズの概要シリーズはインデックス付けされた複数のデータ型（int、str、float等）を持つことが可能な1次元配列のオブジェクトです。インデックスとはデータに対して付与されるラベルです。データの参照や様々な処理で使われます。インデック

Aobei 2020/04/27

リンク

Kaggleで戦いたい人のためのpandas実戦入門 - ML_BearのKaggleな日常

はじめに自分は元々pandasが苦手でKaggleコンペ参加時は基本的にBigQuery上のSQLで特徴量を作り、最低限のpandas操作でデータ処理をしていました。しかし、あるコードコンペティションに参加することになり、pythonで軽快にデータ処理をこなす必要が出てきたので勉強しました。そこで、当時の勉強メモをもとに「これだけ知っていればKaggleでそこそこ戦えるかな」と思っているpandasの主要機能をまとめました。注記実戦入門のつもりがほぼ辞書になってしまいました orz pandasとはなんぞや的な内容は書いていません (import pandasやDataFrameとは何かなど) pandas1.0系でも動くように書いたつもりですが間違ってたらすみません目次はじめに注記目次 Options DaraFrame 読み書き CSVファイル読み込み書き出

Aobei 2020/04/01

リンク

はてなブックマーク

タグ

関連タグで絞り込む (4)

pandasとPythonに関するAobeiのブックマーク (7)

お知らせ

今週のはてなブックマーク数ランキング（2025年11月第5週）

今週のはてなブックマーク数ランキング（2025年11月第4週）

はてなブックマーク一部機能のメンテナンスに関するお知らせ

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス