タグ

2024年6月10日のブックマーク (2件)

  • pandasの高速化はiterrows解消が9割

    はじめに こんにちは、株式会社オークンでデータサイエンティストをやっています、nobuです。 pandas、とにかく遅いですよね。 pandasの高速化については、いくつかのアプローチがあります 並行処理、並列処理を使う 他ライブラリを使う polars cudf しかしそれらに手を出す前に、iterrows(ループ処理)を使っていたりしませんか? 知っている方には今更な話ですが、iterrowsは絶対に使ってはいけません! iterrowsを解消し一括処理するだけで、かなりの速度改善ができます。 また、iterrowsを使ったままだと、上に挙げた他のアプローチをとってもあまり効果を得られなかったりします。 iterrowsは、ほとんどのケースについて、pandasのメソッドを駆使することで一括処理への変換が可能です。 今回は、iterrowsを使う代表的なケースについて、一括処理への変換

    pandasの高速化はiterrows解消が9割
  • API reference — pandas 2.2.2 documentation

    API reference# This page gives an overview of all public pandas objects, functions and methods. All classes and functions exposed in pandas.* namespace are public. The following subpackages are public. pandas.errors: Custom exception and warnings classes that are raised by pandas. pandas.plotting: Plotting public API. pandas.testing: Functions that are useful for writing tests involving pandas obj