ABEJAでデータエンジニアをしています、千葉です。 少し前に、pandasのDataFrameをファイルに読み書きする際にメモリを消費しすぎる問題を発見したので、解決策を含めて紹介します。 通常手法の紹介 通常、DataFrameをファイルに保存する際には、pandasの提供するIOモジュールを使用します。 今回は、細かい変換規則を書く必要のないPython Pickleをベースとしたto_pickle機能について取り上げます。 # Dumping pandas.DataFrame import pandas df = pandas.DataFrame(..., columns=...) df.to_pickle(output_file_path) # Restoring pandas.DataFrame import pickle with open(input_file_path,
