タグ

pandasとmultiprocessingに関するishideoのブックマーク (1)

  • 時間のかかる前処理をDaskで高速化 - ぴよぴよ.py

    最近仕事で自然言語処理を使ったモデルを作成していたんですが、 前処理やモデルを作る際に数分〜数十分単位の処理待ちの空き時間が頻繁に発生してしまい、 その度集中力が切れる問題に悩まされていました。 モデルの学習に時間がかかってしまうのはまた別の解決策を考えるとして、 今回は時間のかかる前処理をDaskをつかって高速化した方法をお話ししようと思います。 この記事は PyLadies Advent Calendar 2018 - Adventar の18日目の記事になります。 Daskとは? Daskとは、numpyやpandasなどのデータを簡単に並列計算するライブラリ。 あまり公式のチュートリアルがわかりやすくない(気がする)ので、基的な使い方は Python Dask で 並列 DataFrame 処理 - StatsFragments を見てみると良い。 サンプルデータ 今回はKagg

    時間のかかる前処理をDaskで高速化 - ぴよぴよ.py
  • 1