ブックマーク / qiita.com/mjm2kt (1)

  • データ分析の時に覚えておきたいファイルフォーマットの話 - Qiita

    上司「え?このテーブル、Pickleで保存してるの?」 PythonのpandasやDask、VAEXなどでデータ分析をしていると 保存するデータが大きくなってしまいディスク容量がひっ迫したり 読み込み、書き込みに時間がかかって作業が進まなくなってしまうことがあります。 そういう時には保存するファイルフォーマットを変えてみるといいかもしれません。 Pickleの話 Pickleを分析対象のデータのメインの保存形式にすることはおすすめしません。 なぜなら、Pickleは長期保存に適さないからです。 PickleはPythonに標準装備されているバイナリフォーマットの保存方法です。 あらゆるPythonモジュールをそのままバイナリ化して保存することができるので非常に扱いやすく、 バイナリフォーマットなのでIOもCSVよりも圧倒的に早くなります。 Pickleを使う際のデメリットは以下の2つです

    データ分析の時に覚えておきたいファイルフォーマットの話 - Qiita
  • 1