タグ

Daskに関するclavierのブックマーク (5)

  • 遅いpandasのread_csvを高速化する方法(dask) - Qiita

    目的 pythonで重いcsvファイルを読み込む時に、pandasだと時間がかかる。 そこで早いと噂のdaskを試してみる。 ここでは、daskの中身には詳しく触れず、使い方を説明する。 ちなみに、私が5GBのcsvファイルをdaskで読み込んだ時は、pandasを使用した時よりも10倍くらい早く読み込めた。 daskってなに? daskとはpandasのようなライブラリの一つ。 daskは、pandasのDataFrameの処理を応用しているから、基的にpandasと同じ動作をする。 早くなる理由は、並列分散を使用しているから。 詳しくはこちらの方の記事をご覧ください(めちゃわかりやすい) 使い方 anacondaをダウンロードした人なら基的に何もせずに使える。 pandasならば、

    遅いpandasのread_csvを高速化する方法(dask) - Qiita
  • Daskで使用メモリ容量に制限をかける - Qiita

    pandasで処理しきれないデータを扱う際には、pandasライクにout-of-core処理がかけるDaskがよく利用されます。今回の記事はそんなDaskをサーバ1台の環境やローカルのマシンで動かす際にメモリ使用制限をかけたい、という方向けのお話です。 めちゃくちゃニッチな話かもしれませんね。。。需要ないかも。 (少し拡張すれば分散環境にも適用できるので、そちらに興味のある方にも響くことを期待してます。) 概要 メモリに使用制限をかけるにはDaskの分散処理モード?(distributed)のLocalClusterを利用します。LocalClusterはローカルのマシンに擬似的な分散処理環境を作ります。擬似的な分散処理環境のため、schedulerとworkerが必要になります。この時、実際に処理をさばくworkerのメモリ使用量に上限を設定することで、目的のメモリ使用量に制限をかける

    Daskで使用メモリ容量に制限をかける - Qiita
  • PandasをDaskで簡単に並列処理して高速化しよう | CCT-recruit

    こんにちは、エンジニアのtetsuです。 Pandasでデータを処理しているときに、ここを並列計算させたら早くなりそうなんだけどなぁ、と思うことはありませんか?もしかしたら、Daskを使うことで望みの並列計算がおこなえるかもしれません。今回はDaskでのPandasのapplyの並列化の例を示していきます。 Daskとは? Daskとは並列計算やOut-Of-Coreの処理が簡単にできるpythonのライブラリです。NumPyやPandasのデータを扱うことができますが、Dask内ではこれらのデータを分割して処理をおこなうことで、並列化を実現しています。 インストールは簡単で、pipで次のようにおこなえます。Anacondaにはデフォルトで入っているので、Anacondaを利用している場合にはインストールは不要です。

  • データ分析のための並列処理ライブラリDask - Qiita

    この記事は、Brainpad Advent Calender 15日目の記事です。 記事では、メモリに乗らないようなデータもPandasやNumPyライクに操作を行い、スケールアップ・スケールアウトにも対応できるライブラリ、Daskについて、簡単に紹介をします。 はじめに Pythonデータ分析機械学習をする際、PandasやNumPyを用いる場面が非常に多くなってきました。 しかし、PandasやNumPyではメモリに乗らないデータの扱いが難しかったり、基的にシングルコアでの処理を行うため、速度が遅い、といった問題があります。例えば、サーバー上で実行する際、CPUの論理コアが32個あっても、1個のCPUしか使用していない、といった感じです。 近年、データ分析関連のライブラリは非常に多様化しており、派閥(?)が沢山あるようです。 個人的には、Pandas作者であるWes McKin

    データ分析のための並列処理ライブラリDask - Qiita
  • Chainer + Dask で 並列 Deep Learning したい <1> - StatsFragments

    この記事は Chainer Advent Calendar 2015 17 日目の記事です。 はじめに サイズが大きいデータを Deep Learning すると学習に時間がかかってつらい。時間がかかってつらいので並列処理して高速化したい。 並列化するのに良さそうなパッケージないかな? と探してみると、Dask という並列 / Out-Of-Core 計算パッケージを見つけた。これと Chainer を組み合わせると並列処理が簡単に書けそうな気がする。 最初は MNIST を並列化してみたが、データが小さすぎるせいか むしろ遅くなってしまった。もう少し大きいデータである CIFAR-10 を使い、より深いネットワーク構造でその効果を確かめたい。 最終的には以下二つの処理を並列化することを目指す。 Data Augmentation DNN の学習 1. Data Augmentation

    Chainer + Dask で 並列 Deep Learning したい <1> - StatsFragments
  • 1