[B! Dask] clavierのブックマーク

遅いpandasのread_csvを高速化する方法(dask) - Qiita

目的 pythonで重いcsvファイルを読み込む時に、pandasだと時間がかかる。そこで早いと噂のdaskを試してみる。ここでは、daskの中身には詳しく触れず、使い方を説明する。ちなみに、私が5GBのcsvファイルをdaskで読み込んだ時は、pandasを使用した時よりも10倍くらい早く読み込めた。 daskってなに？ daskとはpandasのようなライブラリの一つ。 daskは、pandasのDataFrameの処理を応用しているから、基本的にpandasと同じ動作をする。早くなる理由は、並列分散を使用しているから。詳しくはこちらの方の記事をご覧ください（めちゃわかりやすい）使い方 anacondaをダウンロードした人なら基本的に何もせずに使える。 pandasならば、

clavier 2020/03/31

リンク

Daskで使用メモリ容量に制限をかける - Qiita

pandasで処理しきれないデータを扱う際には、pandasライクにout-of-core処理がかけるDaskがよく利用されます。今回の記事はそんなDaskをサーバ１台の環境やローカルのマシンで動かす際にメモリ使用制限をかけたい、という方向けのお話です。めちゃくちゃニッチな話かもしれませんね。。。需要ないかも。（少し拡張すれば分散環境にも適用できるので、そちらに興味のある方にも響くことを期待してます。）概要メモリに使用制限をかけるにはDaskの分散処理モード？(distributed)のLocalClusterを利用します。LocalClusterはローカルのマシンに擬似的な分散処理環境を作ります。擬似的な分散処理環境のため、schedulerとworkerが必要になります。この時、実際に処理をさばくworkerのメモリ使用量に上限を設定することで、目的のメモリ使用量に制限をかける

clavier 2019/12/22

リンク

PandasをDaskで簡単に並列処理して高速化しよう | CCT-recruit

こんにちは、エンジニアのtetsuです。 Pandasでデータを処理しているときに、ここを並列計算させたら早くなりそうなんだけどなぁ、と思うことはありませんか？もしかしたら、Daskを使うことで望みの並列計算がおこなえるかもしれません。今回はDaskでのPandasのapplyの並列化の例を示していきます。 Daskとは？ Daskとは並列計算やOut-Of-Coreの処理が簡単にできるpythonのライブラリです。NumPyやPandasのデータを扱うことができますが、Dask内ではこれらのデータを分割して処理をおこなうことで、並列化を実現しています。インストールは簡単で、pipで次のようにおこなえます。Anacondaにはデフォルトで入っているので、Anacondaを利用している場合にはインストールは不要です。

clavier 2018/11/16

pandas
dask

リンク

データ分析のための並列処理ライブラリDask - Qiita

この記事は、Brainpad Advent Calender 15日目の記事です。本記事では、メモリに乗らないようなデータもPandasやNumPyライクに操作を行い、スケールアップ・スケールアウトにも対応できるライブラリ、Daskについて、簡単に紹介をします。はじめに Pythonでデータ分析や機械学習をする際、PandasやNumPyを用いる場面が非常に多くなってきました。しかし、PandasやNumPyではメモリに乗らないデータの扱いが難しかったり、基本的にシングルコアでの処理を行うため、速度が遅い、といった問題があります。例えば、サーバー上で実行する際、CPUの論理コアが32個あっても、1個のCPUしか使用していない、といった感じです。近年、データ分析関連のライブラリは非常に多様化しており、派閥（?）が沢山あるようです。個人的には、Pandas作者であるWes McKin

clavier 2018/09/27

Dask
python

リンク

Chainer + Dask で並列 Deep Learning したい <1> - StatsFragments

この記事は Chainer Advent Calendar 2015 17 日目の記事です。はじめにサイズが大きいデータを Deep Learning すると学習に時間がかかってつらい。時間がかかってつらいので並列処理して高速化したい。並列化するのに良さそうなパッケージないかな? と探してみると、Dask という並列 / Out-Of-Core 計算パッケージを見つけた。これと Chainer を組み合わせると並列処理が簡単に書けそうな気がする。最初は MNIST を並列化してみたが、データが小さすぎるせいかむしろ遅くなってしまった。もう少し大きいデータである CIFAR-10 を使い、より深いネットワーク構造でその効果を確かめたい。最終的には以下二つの処理を並列化することを目指す。 Data Augmentation DNN の学習 1. Data Augmentation

clavier 2015/12/18

リンク

はてなブックマーク

タグ

関連タグで絞り込む (8)

Daskに関するclavierのブックマーク (5)

お知らせ

今週のはてなブックマーク数ランキング（2024年8月第2週）

今週のはてなブックマーク数ランキング（2024年8月第1週）

月間はてなブックマーク数ランキング（2024年7月）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス

タグ

関連タグで絞り込む (8)

Daskに関するclavierのブックマーク (5)

遅いpandasのread_csvを高速化する方法(dask) - Qiita

Daskで使用メモリ容量に制限をかける - Qiita

PandasをDaskで簡単に並列処理して高速化しよう | CCT-recruit

データ分析のための並列処理ライブラリDask - Qiita

Chainer + Dask で 並列 Deep Learning したい <1> - StatsFragments

お知らせ

今週のはてなブックマーク数ランキング（2024年8月第2週）

今週のはてなブックマーク数ランキング（2024年8月第1週）

月間はてなブックマーク数ランキング（2024年7月）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス

Chainer + Dask で並列 Deep Learning したい <1> - StatsFragments