タグ

2019年5月10日のブックマーク (1件)

  • pandasデータフレームのforループ処理高速化ーPythonのmultiprocessingによる並列処理 - こここブログ

    2019-05-10-公開, 2019-09-26-公開 前提 <2019-09-26追記> forループはできるだけ避けること。groupbyを使って同様の実装を行うだけで想像以上に高速になる。 pandasのgroupbyを使えば、2つ以上のDataFrameを結合した後の行数のカウントや集計も可能 処理速度は圧倒的に速く、並列化も不要になる forを使わない方法を頭と時間をかけて考えてもお釣りがくる どうしても思いつかない場合の救済手段として、以下の内容を参考にforループでの実装と高速化を行う やりたいこと forループで書いている処理を高速化したい Pythonのpandasデータフレームの各行について、他のデータフレームを集約しつつ値を変更する処理 こんなの ↓ を高速化したい for i in range(df_user.shape[0]): # df_userの対象行のus

    pandasデータフレームのforループ処理高速化ーPythonのmultiprocessingによる並列処理 - こここブログ
    shinyorke
    shinyorke 2019/05/10
    事前に必要な項目をくっつけたSeriesを1個作っちゃえばmapでも行けそうな気がする そして引用ありがとうございました!