タグ

関連タグで絞り込む (1)

タグの絞り込みを解除

pythonに関するmziのブックマーク (1)

  • Python で大量のファイルを並列で速く読み込む - Qiita

    from glob import glob files = glob('data/*.csv') len(files) # 10000 この 1万件の CSV ファイルを Pandas DataFrame として読み込みたい。 ちなみに検証用のデータは以下のようにして生成した。 (3列 x 10,000行 の CSV ファイル 10,000 個) import numpy as np import pandas as pd row_n = 10000 col_n = 3 columns = [f'col{i}' for i in range(col_n)] for i in range(10000): df = pd.DataFrame(np.random.randn(row_n, col_n), columns=columns) df.to_csv(f'data/{i:04}.csv',

    Python で大量のファイルを並列で速く読み込む - Qiita
    mzi
    mzi 2019/06/04
    なるほど。ということはマルチプロセスにすべきなんだね。『Python (CPython) のマルチスレッドは GIL (Global Interpreter Lock) の制約があり、複数のスレッドが同時に Python バイトコードを実行することができない。』
  • 1