タグ

関連タグで絞り込む (0)

  • 関連タグはありません

タグの絞り込みを解除

pandasとPythonとdplyrに関するAobeiのブックマーク (3)

  • 超高速…だけじゃない!Pandasに代えてPolarsを使いたい理由 - Qiita

    PolarsというPandasを100倍くらい高性能にしたライブラリがとても良いので布教します1。PolarsRustベースのDataFrameライブラリですが、記事ではPythonでのそれについて語ります。 ちなみにpolarsは白熊の意です。そりゃあまあ、白熊と大熊比べたら白熊のほうが速いし強いよねってことです2。 何がいいの? 推しポイントは3つあります 高速! お手軽! 書きやすい! 1. 高速 画像はTPCHのBenchmark(紫がPolars)3。 日語でも色々記事があるので割愛しますが、RustやApach Arrowなどにお世話になっており、非常に速いです。MemoryErrorに悩まされる問題も解決されます。開発者のRitchieがしゃれおつなツイートをしてるので、そちらも参考にどうぞ ↓ 4。 抄訳: (ひとつ目)Pandasは黄色くした部分でDataFram

    超高速…だけじゃない!Pandasに代えてPolarsを使いたい理由 - Qiita
  • 時系列データを前処理する際のPython逆引きメモ - EurekaMoments

    機械学習のための「前処理」入門 作者:足立悠リックテレコムAmazon 目的 データ分析仕事をする中で最も扱う機会が多いのが 時系列データだと思います。その中で欠損値を扱ったり、 統計を取ったり、特徴量を作り出したりするのですが、 毎回やり方を忘れてググっているので、上記の書籍を読んで こういった前処理の方法をいつでも確認できるように メモしておこうと思います。 目次 目的 目次 日時のデータをdatetime型に変換する 最初の日時からの経過時間を計算する 各データの統計量を計算する 欠損値の確認と補完 経過時間の単位を変換する データフレーム結合する 基準日時からの経過時間を計算する 重複した行を削除する 特定のデータ列をインデックスにする 部分的時系列を抽出して統計量を計算する データフレームの各列をリストにして結合する 不均衡データから教師データを作成する データの読み込みと可視

    時系列データを前処理する際のPython逆引きメモ - EurekaMoments
  • dplyr-style Data Manipulation with Pipes in Python

    Piping Let’s say you want to perform n discrete transformation operations on your dataset before outputting the final result. The most common way is to perform the operations step by step and store the result of each step in a variable. The variable holding the intermediate result is then used in the next step of the transformation pipeline. Let’s take a look at an abstract example. # 'original_da

    dplyr-style Data Manipulation with Pipes in Python
    Aobei
    Aobei 2021/04/24
    dplyr風にハンドリングする。filterでなくmask
  • 1