タグ

PythonとDaskに関するclavierのブックマーク (3)

  • 遅いpandasのread_csvを高速化する方法(dask) - Qiita

    Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article?

    遅いpandasのread_csvを高速化する方法(dask) - Qiita
  • Daskで使用メモリ容量に制限をかける - Qiita

    pandasで処理しきれないデータを扱う際には、pandasライクにout-of-core処理がかけるDaskがよく利用されます。今回の記事はそんなDaskをサーバ1台の環境やローカルのマシンで動かす際にメモリ使用制限をかけたい、という方向けのお話です。 めちゃくちゃニッチな話かもしれませんね。。。需要ないかも。 (少し拡張すれば分散環境にも適用できるので、そちらに興味のある方にも響くことを期待してます。) ##概要 メモリに使用制限をかけるにはDaskの分散処理モード?(distributed)のLocalClusterを利用します。LocalClusterはローカルのマシンに擬似的な分散処理環境を作ります。擬似的な分散処理環境のため、schedulerとworkerが必要になります。この時、実際に処理をさばくworkerのメモリ使用量に上限を設定することで、目的のメモリ使用量に制限をか

    Daskで使用メモリ容量に制限をかける - Qiita
  • データ分析のための並列処理ライブラリDask - Qiita

    この記事は、Brainpad Advent Calender 15日目の記事です。 記事では、メモリに乗らないようなデータもPandasやNumPyライクに操作を行い、スケールアップ・スケールアウトにも対応できるライブラリ、Daskについて、簡単に紹介をします。 はじめに Pythonデータ分析機械学習をする際、PandasやNumPyを用いる場面が非常に多くなってきました。 しかし、PandasやNumPyではメモリに乗らないデータの扱いが難しかったり、基的にシングルコアでの処理を行うため、速度が遅い、といった問題があります。例えば、サーバー上で実行する際、CPUの論理コアが32個あっても、1個のCPUしか使用していない、といった感じです。 近年、データ分析関連のライブラリは非常に多様化しており、派閥(?)が沢山あるようです。 個人的には、Pandas作者であるWes McKin

    データ分析のための並列処理ライブラリDask - Qiita
  • 1