この記事は Python Advent Calendar 2015 13 日目の記事です。 Python で手軽に並列 / Out-Of-Core 処理を行うためのパッケージである Dask について書きたい。Dask を使うと以下のようなメリットが得られる。 環境構築 / インストールが pip で簡単にできる 手軽に並列処理ができる Out-Of-Core (メモリに乗らないデータ) 処理ができる 補足 Dask は手持ちの PC の シングルコア / 物理メモリでは処理が少しきついかな、といった場合に利用するパッケージのため、より大規模 / 高速 / 安定した処理を行いたい場合には Hadoop や Spark を使ったほうがよい。 Dask は以下 3 つのサブパッケージを持つ。 サブモジュール ベースパッケージ dask.array NumPy dask.bag PyToolz
![Python Dask.Array で 並列 / Out-Of-Core 処理 - StatsFragments](https://cdn-ak-scissors.b.st-hatena.com/image/square/c362ae8f8611d5e837701def1294c9f6cfc7e077/height=288;version=1;width=512/http%3A%2F%2Fcdn-ak.f.st-hatena.com%2Fimages%2Ffotolife%2Fs%2Fsinhrks%2F20151213%2F20151213113555.png)