やったこと pythonで2次元配列データを一時保存するときによく使う pickle.dump joblib.dump pyarrowに変換してparquet保存 pd.write_csv のそれぞれについて読み書き速度と保存容量を比較しました。 結論 圧縮率と速度ならpickle protocol=4 一部だけ読んだり書いたりを繰り返すような場合はpyarrowでparquet保存 が良さそう 試行環境 CPU: Xeon E5-2630 x 2 chip VRAM: 128GB Windows8 64bit python 3.6 比較に使ったデータ 機械学習用の特徴量データで試行しました ・pandas.DataFrameの 536行178886列 0.77GB ・pandas.DataFrameの4803行178886列 6.87GB 比較結果 0.77GBのDataFrame 6.

