タグ

daskとcsvに関するmanboubirdのブックマーク (2)

  • 遅いpandasのread_csvを高速化する方法(dask) - Qiita

    目的 pythonで重いcsvファイルを読み込む時に、pandasだと時間がかかる。 そこで早いと噂のdaskを試してみる。 ここでは、daskの中身には詳しく触れず、使い方を説明する。 ちなみに、私が5GBのcsvファイルをdaskで読み込んだ時は、pandasを使用した時よりも10倍くらい早く読み込めた。 daskってなに? daskとはpandasのようなライブラリの一つ。 daskは、pandasのDataFrameの処理を応用しているから、基的にpandasと同じ動作をする。 早くなる理由は、並列分散を使用しているから。 詳しくはこちらの方の記事をご覧ください(めちゃわかりやすい) 使い方 anacondaをダウンロードした人なら基的に何もせずに使える。 pandasならば、

    遅いpandasのread_csvを高速化する方法(dask) - Qiita
  • PythonでCSVを高速&省メモリに読みたい - tkm2261's blog

    今日はPython (Pandas)で高速にCSVを読むことに挑戦したいと思います。 Kaggleに参加するたびに、イライラしていたので各実装の白黒はっきりさせようと思います。 R使いが羨ましいなぁと思う第一位がCSV読込が簡単に並列出来て速いことなので、 なんとかGILのあるPythonでも高速に読み込みたいと思います。 ただ、この検証ではコーディング量が多いものは検証しません。 CSV読込は頻出するので、フットワークの軽さが重要です。(オレオレライブラリ嫌い) Pickleは早いけど。。。 結論はDask使おう! 検証環境 データ 速度検証 pandas.read_csv() pandas.read_csv() (dtype指定) pandas.read_csv() (gzip圧縮) numpy.genfromtxt() pandas.read_csv() (chunksize指定 +

    PythonでCSVを高速&省メモリに読みたい - tkm2261's blog
  • 1