タグ

ブックマーク / qiita.com/hoto17296 (1)

  • Python で大量のファイルを並列で速く読み込む - Qiita

    from glob import glob files = glob('data/*.csv') len(files) # 10000 この 1万件の CSV ファイルを Pandas DataFrame として読み込みたい。 ちなみに検証用のデータは以下のようにして生成した。 (3列 x 10,000行 の CSV ファイル 10,000 個) import numpy as np import pandas as pd row_n = 10000 col_n = 3 columns = [f'col{i}' for i in range(col_n)] for i in range(10000): df = pd.DataFrame(np.random.randn(row_n, col_n), columns=columns) df.to_csv(f'data/{i:04}.csv',

    Python で大量のファイルを並列で速く読み込む - Qiita
    agricola
    agricola 2019/06/02
    あんまりワークユニットのサイズを小さくすると、かえって遅くなるから注意しましょう。
  • 1