タグ

pandasとPythonに関するAobeiのブックマーク (7)

  • 超高速…だけじゃない!Pandasに代えてPolarsを使いたい理由 - Qiita

    PolarsというPandasを100倍くらい高性能にしたライブラリがとても良いので布教します1。PolarsRustベースのDataFrameライブラリですが、記事ではPythonでのそれについて語ります。 ちなみにpolarsは白熊の意です。そりゃあまあ、白熊と大熊比べたら白熊のほうが速いし強いよねってことです2。 何がいいの? 推しポイントは3つあります 高速! お手軽! 書きやすい! 1. 高速 画像はTPCHのBenchmark(紫がPolars)3。 日語でも色々記事があるので割愛しますが、RustやApach Arrowなどにお世話になっており、非常に速いです。MemoryErrorに悩まされる問題も解決されます。開発者のRitchieがしゃれおつなツイートをしてるので、そちらも参考にどうぞ ↓ 4。 抄訳: (ひとつ目)Pandasは黄色くした部分でDataFram

    超高速…だけじゃない!Pandasに代えてPolarsを使いたい理由 - Qiita
  • 時系列データを前処理する際のPython逆引きメモ - EurekaMoments

    機械学習のための「前処理」入門 作者:足立悠リックテレコムAmazon 目的 データ分析仕事をする中で最も扱う機会が多いのが 時系列データだと思います。その中で欠損値を扱ったり、 統計を取ったり、特徴量を作り出したりするのですが、 毎回やり方を忘れてググっているので、上記の書籍を読んで こういった前処理の方法をいつでも確認できるように メモしておこうと思います。 目次 目的 目次 日時のデータをdatetime型に変換する 最初の日時からの経過時間を計算する 各データの統計量を計算する 欠損値の確認と補完 経過時間の単位を変換する データフレーム結合する 基準日時からの経過時間を計算する 重複した行を削除する 特定のデータ列をインデックスにする 部分的時系列を抽出して統計量を計算する データフレームの各列をリストにして結合する 不均衡データから教師データを作成する データの読み込みと可視

    時系列データを前処理する際のPython逆引きメモ - EurekaMoments
  • pandas でメモリに乗らない 大容量ファイルを上手に扱う - StatsFragments

    概要 分析のためにデータ集めしていると、たまに マジか!? と思うサイズの CSV に出くわすことがある。なぜこんなに育つまで放っておいたのか、、、? このエントリでは普通には開けないサイズの CSV を pandas を使ってうまいこと処理する方法をまとめたい。 サンプルデータ たまには実データ使おう、ということで WorldBankから GDPデータを落とす。以下のページ右上の "DOWNLOAD DATA" ボタンで CSV を選択し、ローカルに zip を保存する。解凍した "ny.gdp.mktp.cd_Indicator_en_csv_v2.csv" ファイルをサンプルとして使う。 http://data.worldbank.org/indicator/NY.GDP.MKTP.CD?page=1 補足 pandas の Remote Data Access で WorldBan

    pandas でメモリに乗らない 大容量ファイルを上手に扱う - StatsFragments
  • dplyr-style Data Manipulation with Pipes in Python

    Piping Let’s say you want to perform n discrete transformation operations on your dataset before outputting the final result. The most common way is to perform the operations step by step and store the result of each step in a variable. The variable holding the intermediate result is then used in the next step of the transformation pipeline. Let’s take a look at an abstract example. # 'original_da

    dplyr-style Data Manipulation with Pipes in Python
    Aobei
    Aobei 2021/04/24
    dplyr風にハンドリングする。filterでなくmask
  • Python初学者のためのPandas100本ノック - Qiita

    Information 2024/1/8: pandas , Polars など18を超えるライブラリを統一記法で扱える統合データ処理ライブラリ Ibis の100 ノックを作成しました。長期目線でとてもメリットのあるライブラリです。こちらも興味があればご覧下さい。 Ibis 100 ノック https://qiita.com/kunishou/items/e0244aa2194af8a1fee9 2023/2/12: 大規模データを高速に処理可能なデータ処理ライブラリ Polars の 100 ノックを作成しました。こちらも興味があればご覧下さい。 Polars 100 ノック https://qiita.com/kunishou/items/1386d14a136f585e504e はじめに この度、PythonライブラリであるPandasを効率的に学ぶためのコンテンツとして

    Python初学者のためのPandas100本ノック - Qiita
    Aobei
    Aobei 2020/09/26
    問題内容がリストになっていて便利。
  • データ分析の前処理を行えるPythonライブラリ「pandas」、最も基本的なデータ構造「シリーズ」を解説

    機械学習データ分析には、収集したデータを使いやすい形に整える前処理が不可欠です。その際によく利用されるのがPythonのライブラリ「pandas」。今回は『現場で使える!pandasデータ前処理入門』(翔泳社)より、pandasの最も基的なデータ構造であるシリーズの概要と操作方法について抜粋して紹介します。 記事は『現場で使える!pandasデータ前処理入門 機械学習・データサイエンスで役立つ前処理手法』の「CHAPTER 2 pandasのデータ構造」より「2.1 シリーズ」を抜粋したものです。掲載にあたり一部を編集しています。 2.1.1 シリーズの概要 シリーズはインデックス付けされた複数のデータ型(int、str、float等)を持つことが可能な1次元配列のオブジェクトです。 インデックスとはデータに対して付与されるラベルです。データの参照や様々な処理で使われます。インデック

    データ分析の前処理を行えるPythonライブラリ「pandas」、最も基本的なデータ構造「シリーズ」を解説
  • Kaggleで戦いたい人のためのpandas実戦入門 - ML_BearのKaggleな日常

    はじめに 自分は元々pandasが苦手でKaggleコンペ参加時は基的にBigQuery上のSQLで特徴量を作り、最低限のpandas操作でデータ処理をしていました。 しかし、あるコードコンペティションに参加することになり、pythonで軽快にデータ処理をこなす必要が出てきたので勉強しました。 そこで、当時の勉強メモをもとに「これだけ知っていればKaggleでそこそこ戦えるかな」と思っているpandasの主要機能をまとめました。 注記 実戦入門 のつもりが ほぼ辞書 になってしまいました orz pandasとはなんぞや的な内容は書いていません (import pandasやDataFrameとは何かなど) pandas1.0系でも動くように書いたつもりですが間違ってたらすみません 目次 はじめに 注記 目次 Options DaraFrame 読み書き CSVファイル 読み込み 書き出

    Kaggleで戦いたい人のためのpandas実戦入門 - ML_BearのKaggleな日常
  • 1