はじめに こんにちは、株式会社オークンでデータサイエンティストをやっています、nobuです。 pandas、とにかく遅いですよね。 pandasの高速化については、いくつかのアプローチがあります 並行処理、並列処理を使う 他ライブラリを使う polars cudf しかしそれらに手を出す前に、iterrows(ループ処理)を使っていたりしませんか? 知っている方には今更な話ですが、iterrowsは絶対に使ってはいけません! iterrowsを解消し一括処理するだけで、かなりの速度改善ができます。 また、iterrowsを使ったままだと、上に挙げた他のアプローチをとってもあまり効果を得られなかったりします。 iterrowsは、ほとんどのケースについて、pandasのメソッドを駆使することで一括処理への変換が可能です。 今回は、iterrowsを使う代表的なケースについて、一括処理への変換
![pandasの高速化はiterrows解消が9割](https://cdn-ak-scissors.b.st-hatena.com/image/square/c20e9b2fe54d453d5e37d50bbf546c3be05e35c5/height=288;version=1;width=512/https%3A%2F%2Fres.cloudinary.com%2Fzenn%2Fimage%2Fupload%2Fs--Lxhh5P5L--%2Fc_fit%252Cg_north_west%252Cl_text%3Anotosansjp-medium.otf_55%3Apandas%2525E3%252581%2525AE%2525E9%2525AB%252598%2525E9%252580%25259F%2525E5%25258C%252596%2525E3%252581%2525AFiterrows%2525E8%2525A7%2525A3%2525E6%2525B6%252588%2525E3%252581%25258C9%2525E5%252589%2525B2%252Cw_1010%252Cx_90%252Cy_100%2Fg_south_west%252Cl_text%3Anotosansjp-medium.otf_34%3ANobu%252Cx_220%252Cy_108%2Fbo_3px_solid_rgb%3Ad6e3ed%252Cg_south_west%252Ch_90%252Cl_fetch%3AaHR0cHM6Ly9zdG9yYWdlLmdvb2dsZWFwaXMuY29tL3plbm4tdXNlci11cGxvYWQvYXZhdGFyL2FiMWVmODg2OWIuanBlZw%3D%3D%252Cr_20%252Cw_90%252Cx_92%252Cy_102%2Fco_rgb%3A6e7b85%252Cg_south_west%252Cl_text%3Anotosansjp-medium.otf_30%3AO-KUN%252520Tech%252520Blog%252Cx_220%252Cy_160%2Fbo_4px_solid_white%252Cg_south_west%252Ch_50%252Cl_fetch%3AaHR0cHM6Ly9zdG9yYWdlLmdvb2dsZWFwaXMuY29tL3plbm4tdXNlci11cGxvYWQvYXZhdGFyLzM3MWUwNGEyYjAuanBlZw%3D%3D%252Cr_max%252Cw_50%252Cx_139%252Cy_84%2Fv1627283836%2Fdefault%2Fog-base-w1200-v2.png)