タグ

関連タグで絞り込む (2)

タグの絞り込みを解除

CSVに関するohnabeのブックマーク (2)

  • PythonでCSVを高速&省メモリに読みたい - tkm2261's blog

    今日はPython (Pandas)で高速にCSVを読むことに挑戦したいと思います。 Kaggleに参加するたびに、イライラしていたので各実装の白黒はっきりさせようと思います。 R使いが羨ましいなぁと思う第一位がCSV読込が簡単に並列出来て速いことなので、 なんとかGILのあるPythonでも高速に読み込みたいと思います。 ただ、この検証ではコーディング量が多いものは検証しません。 CSV読込は頻出するので、フットワークの軽さが重要です。(オレオレライブラリ嫌い) Pickleは早いけど。。。 結論はDask使おう! 検証環境 データ 速度検証 pandas.read_csv() pandas.read_csv() (dtype指定) pandas.read_csv() (gzip圧縮) numpy.genfromtxt() pandas.read_csv() (chunksize指定 +

    PythonでCSVを高速&省メモリに読みたい - tkm2261's blog
  • csv読み込み備忘録 – Momentum

    概要 ・Numpy, Pandasを使ってcsvを読み込むときの俺様備忘録 ロード対象csvフォーマット 下記pythonコードにも書いてありますが、手元にあったFXデータを使用。 フォーマットは hogehoge, YYYYMMDD, HH:MM:SS, bid price, ask price という形。 hogehogeには”USDJPY”といった為替レートの通貨名文字列が格納されてます。 stringとfloatが混在していて少し扱いが面倒。 コード いつもググってる気がするのでまとめておく 最終的に、リストのリスト形式にしたいと考えているので、各々のロード関数を使った後に変換しています。 pandasで読み込んだ後に、ndarrayに変換するのが最速という結果。 どうやらcsvを読む処理がボトルネックになっているようで、ndarrayへの変換はそこまで時間がかからない様子。 pa

  • 1