[B! dask][pandas] ishideoのブックマーク

遅いpandasのread_csvを高速化する方法(dask) - Qiita

目的 pythonで重いcsvファイルを読み込む時に、pandasだと時間がかかる。そこで早いと噂のdaskを試してみる。ここでは、daskの中身には詳しく触れず、使い方を説明する。ちなみに、私が5GBのcsvファイルをdaskで読み込んだ時は、pandasを使用した時よりも10倍くらい早く読み込めた。 daskってなに？ daskとはpandasのようなライブラリの一つ。 daskは、pandasのDataFrameの処理を応用しているから、基本的にpandasと同じ動作をする。早くなる理由は、並列分散を使用しているから。詳しくはこちらの方の記事をご覧ください（めちゃわかりやすい）使い方 anacondaをダウンロードした人なら基本的に何もせずに使える。 pandasならば、

ishideo 2020/03/04

リンク

pandas 1.0とdaskのちょっと細かい調査 - Qiita

背景 2020/01/29にpandas 1.0.0がリリースされました！パチパチ 2020/02/14現在は、1.0.1です。個人的には、下記の変更点が重要ポイントかなと思ってます。 - pandas独自のNA - String型の対応強化(Experimental) んで。僕は分析時には、下記のライブラリとpandasを一緒に使うことが多いです。 dask intake 特にdaskのpandas1.0対応状況や、その他の細かな振る舞いについて整理しようかなと思っています。 daskのバージョンは2020/02/14現在2.10.1です。 intakeに関しては、daskが対応してくれれば問題ないっしょ、って思っています。（daskの処理待ち時間が暇というのもある。）気になっていること daskはpandas.NAをちゃんと使えんの？(ver 1.0関連) daskはdtype

ishideo 2020/02/21

リンク

データ分析のための並列処理ライブラリDask - Qiita

この記事は、Brainpad Advent Calender 15日目の記事です。本記事では、メモリに乗らないようなデータもPandasやNumPyライクに操作を行い、スケールアップ・スケールアウトにも対応できるライブラリ、Daskについて、簡単に紹介をします。はじめに Pythonでデータ分析や機械学習をする際、PandasやNumPyを用いる場面が非常に多くなってきました。しかし、PandasやNumPyではメモリに乗らないデータの扱いが難しかったり、基本的にシングルコアでの処理を行うため、速度が遅い、といった問題があります。例えば、サーバー上で実行する際、CPUの論理コアが32個あっても、1個のCPUしか使用していない、といった感じです。近年、データ分析関連のライブラリは非常に多様化しており、派閥（?）が沢山あるようです。個人的には、Pandas作者であるWes McKin

ishideo 2020/01/27

リンク

Pandasで行うデータ処理を100倍高速にするOut-of-CoreフレームワークVaex - フリーランチ食べたい

TL;DR アウトオブコア、かつマルチコアでデータ処理を行えるVaexの紹介です。 string関係のメソッドで平均して100倍以上の高速化が確認できました。(作者のベンチマークだと最大1000倍) 文字列処理以外でも数倍~数十倍の高速化が行えそうです。この記事では性能の比較のみ行い、解説記事は別で書こうと思います。 pandasより1000倍早いフレームワーク？今週、興味深い記事を読みました。重要な部分だけ抜き出すと次のような内容です。 Vaexの最近のアップデートでの文字列処理が超早くなった 32コアだとpandasと比べて1000倍早い towardsdatascience.com 1000倍って本当なの？って感じですよね。そもそも自分はVaex自体を知らなかったので調べてみました。ちなみに調べていて気づいたのですが、この記事の著者はVaexの作者なんですよね。疑っているわけ

ishideo 2019/04/14

リンク

Python Dask で並列 DataFrame 処理 - StatsFragments

はじめに先日のエントリで少し記載した Dask について、その使い方を書く。Dask を使うと、NumPy や pandas の API を利用して並列計算/分散処理を行うことができる。また、Dask は Out-Of-Core (データ量が多くメモリに乗らない場合) の処理も考慮した実装になっている。 sinhrks.hatena blog.com 上にも書いたが、Daskは NumPy や pandas を置き換えるものではない。数値計算のためのバックエンドとして NumPy や pandas を利用するため、むしろこれらのパッケージが必須である。 Dask は NumPy や pandas の API を完全にはサポートしていないため、並列 / Out-Of-Core 処理が必要な場面では Dask を、他では NumPy / pandas を使うのがよいと思う。pandasとDas

ishideo 2018/12/19

リンク

時間のかかる前処理をDaskで高速化 - ぴよぴよ.py

最近仕事で自然言語処理を使ったモデルを作成していたんですが、前処理やモデルを作る際に数分〜数十分単位の処理待ちの空き時間が頻繁に発生してしまい、その度集中力が切れる問題に悩まされていました。モデルの学習に時間がかかってしまうのはまた別の解決策を考えるとして、今回は時間のかかる前処理をDaskをつかって高速化した方法をお話ししようと思います。この記事は PyLadies Advent Calendar 2018 - Adventar の18日目の記事になります。 Daskとは？ Daskとは、numpyやpandasなどのデータを簡単に並列計算するライブラリ。あまり公式のチュートリアルがわかりやすくない(気がする)ので、基本的な使い方は Python Dask で並列 DataFrame 処理 - StatsFragments を見てみると良い。サンプルデータ今回はKagg

ishideo 2018/12/19

リンク

PythonでCSVを高速＆省メモリに読みたい - tkm2261's blog

今日はPython (Pandas)で高速にCSVを読むことに挑戦したいと思います。 Kaggleに参加するたびに、イライラしていたので各実装の白黒はっきりさせようと思います。 R使いが羨ましいなぁと思う第一位がCSV読込が簡単に並列出来て速いことなので、なんとかGILのあるPythonでも高速に読み込みたいと思います。ただ、この検証ではコーディング量が多いものは検証しません。 CSV読込は頻出するので、フットワークの軽さが重要です。（オレオレライブラリ嫌い） Pickleは早いけど。。。結論はDask使おう！検証環境データ速度検証 pandas.read_csv() pandas.read_csv() (dtype指定) pandas.read_csv() (gzip圧縮) numpy.genfromtxt() pandas.read_csv() (chunksize指定 +

ishideo 2017/08/06

リンク

はてなブックマーク

タグ

関連タグで絞り込む (13)

daskとpandasに関するishideoのブックマーク (7)

お知らせ

今週のはてなブックマーク数ランキング（2024年8月第1週）

月間はてなブックマーク数ランキング（2024年7月）

今週のはてなブックマーク数ランキング（2024年7月第4週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス