[B! python][dask] ishideoのブックマーク

ishideo id:ishideo

pythonとdaskに関するishideoのブックマーク (8)

遅いpandasのread_csvを高速化する方法(dask) - Qiita
Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article?
ishideo 2020/03/04
dask

read_csv

pandas

python

compute

qiita

dataframe
リンク
pandas 1.0とdaskのちょっと細かい調査 - Qiita
背景 2020/01/29にpandas 1.0.0がリリースされました！パチパチ 2020/02/14現在は、1.0.1です。個人的には、下記の変更点が重要ポイントかなと思ってます。 pandas独自のNA String型の対応強化(Experimental) んで。僕は分析時には、下記のライブラリとpandasを一緒に使うことが多いです。 dask intake 特にdaskのpandas1.0対応状況や、その他の細かな振る舞いについて整理しようかなと思っています。 daskのバージョンは2020/02/14現在2.10.1です。 intakeに関しては、daskが対応してくれれば問題ないっしょ、って思っています。（daskの処理待ち時間が暇というのもある。）気になっていること daskはpandas.NAをちゃんと使えんの？(ver 1.0関連) daskはdtype: st
ishideo 2020/02/21
python

pandas

dask

qiita
リンク
データ分析のための並列処理ライブラリDask - Qiita
この記事は、Brainpad Advent Calender 15日目の記事です。本記事では、メモリに乗らないようなデータもPandasやNumPyライクに操作を行い、スケールアップ・スケールアウトにも対応できるライブラリ、Daskについて、簡単に紹介をします。はじめに Pythonでデータ分析や機械学習をする際、PandasやNumPyを用いる場面が非常に多くなってきました。しかし、PandasやNumPyではメモリに乗らないデータの扱いが難しかったり、基本的にシングルコアでの処理を行うため、速度が遅い、といった問題があります。例えば、サーバー上で実行する際、CPUの論理コアが32個あっても、1個のCPUしか使用していない、といった感じです。近年、データ分析関連のライブラリは非常に多様化しており、派閥（?）が沢山あるようです。個人的には、Pandas作者であるWes McKin
ishideo 2020/01/27
python

numpy

spark

pandas

dask

qiita

parallel
リンク
Data Pre-Processing in Python: How I learned to love parallelized applies with Dask and Numba | by Ernest Kim | Towards Data Science
Data Pre-Processing in Python: How I learned to love parallelized applies with Dask and Numba If you’re comforta ble with using Pandas to transf orm data, create features, and perform cleaning, you can easily parallelize your workflow with Dask and Numba.In pure speed: Dask beats Python, Numba beats Dask, Numba+Dask beats ’em allInstead of using a Pandas apply, separate out numerical calculations in
ishideo 2019/07/03
python

dask

numba

numpy

parallel

multiprocessing
リンク
Pandasで行うデータ処理を100倍高速にするOut-of-CoreフレームワークVaex - フリーランチ食べたい
TL;DR アウトオブコア、かつマルチコアでデータ処理を行えるVaexの紹介です。 string関係のメソッドで平均して100倍以上の高速化が確認できました。(作者のベンチマークだと最大1000倍) 文字列処理以外でも数倍~数十倍の高速化が行えそうです。この記事では性能の比較のみ行い、解説記事は別で書こうと思います。 pandasより1000倍早いフレームワーク？今週、興味深い記事を読みました。重要な部分だけ抜き出すと次のような内容です。 Vaexの最近のアップデートでの文字列処理が超早くなった 32コアだとpandasと比べて1000倍早い towardsdatascience.com 1000倍って本当なの？って感じですよね。そもそも自分はVaex自体を知らなかったので調べてみました。ちなみに調べていて気づいたのですが、この記事の著者はVaexの作者なんですよね。疑っているわけ
ishideo 2019/04/14
pandas

python

vaex

dask
リンク
Python Dask で並列 DataFrame 処理 - StatsFragments
はじめに先日のエントリで少し記載した Dask について、その使い方を書く。Dask を使うと、NumPy や pandas の API を利用して並列計算/分散処理を行うことができる。また、Dask は Out-Of-Core (データ量が多くメモリに乗らない場合) の処理も考慮した実装になっている。 sinhrks.hatena blog.com 上にも書いたが、Daskは NumPy や pandas を置き換えるものではない。数値計算のためのバックエンドとして NumPy や pandas を利用するため、むしろこれらのパッケージが必須である。 Dask は NumPy や pandas の API を完全にはサポートしていないため、並列 / Out-Of-Core 処理が必要な場面では Dask を、他では NumPy / pandas を使うのがよいと思う。pandasとDas
ishideo 2018/12/19
python

dask

dataframe

pandas

numpy
リンク
時間のかかる前処理をDaskで高速化 - ぴよぴよ.py
最近仕事で自然言語処理を使ったモデルを作成していたんですが、前処理やモデルを作る際に数分〜数十分単位の処理待ちの空き時間が頻繁に発生してしまい、その度集中力が切れる問題に悩まされていました。モデルの学習に時間がかかってしまうのはまた別の解決策を考えるとして、今回は時間のかかる前処理をDaskをつかって高速化した方法をお話ししようと思います。この記事は PyLadies Advent Calendar 2018 - Adventar の18日目の記事になります。 Daskとは？ Daskとは、numpyやpandasなどのデータを簡単に並列計算するライブラリ。あまり公式のチュートリアルがわかりやすくない(気がする)ので、基本的な使い方は Python Dask で並列 DataFrame 処理 - StatsFragments を見てみると良い。サンプルデータ今回はKagg
ishideo 2018/12/19
python

dask

pandas

nltk

kaggle

numpy

multiprocessing

parallel
リンク
PythonでCSVを高速＆省メモリに読みたい - tkm2261's blog
今日はPython (Pandas)で高速にCSVを読むことに挑戦したいと思います。 Kaggleに参加するたびに、イライラしていたので各実装の白黒はっきりさせようと思います。 R使いが羨ましいなぁと思う第一位がCSV読込が簡単に並列出来て速いことなので、なんとかGILのあるPythonでも高速に読み込みたいと思います。ただ、この検証ではコーディング量が多いものは検証しません。 CSV読込は頻出するので、フットワークの軽さが重要です。（オレオレライブラリ嫌い） Pickleは早いけど。。。結論はDask使おう！検証環境データ速度検証 pandas.read_csv() pandas.read_csv() (dtype指定) pandas.read_csv() (gzip圧縮) numpy.genfromtxt() pandas.read_csv() (chunksize指定 +
ishideo 2017/08/06
python

csv

dask

pandas
リンク
1

お知らせ

もっと読む

公式Twitter

@HatenaBookmark
リリース、障害情報などのサービスのお知らせ
@hatebu
最新の人気エントリーの配信

キーボードショートカット一覧

j次のブックマーク

k前のブックマーク

lあとで読む

eコメント一覧を開く

oページを開く

設定を変更しましたx