タグ

Pythonと高速化に関するp_tanのブックマーク (3)

  • たった一文でPandasのapplyメソッドを高速化する方法(検証計算あり) - Qiita

    以下では、DaskやPandasなどと比較して、swifterがどの程度高速なのかを検証したいと思います。 swifterはベクトル化可能な場合とそうでない場合で挙動が異なるので、各々の場合を検証します。 使用したPCのスペックはIntel Core i5-8350U @1.70GHz、メモリが16GBです。 ベクトル化可能な場合 swifterはベクトル化可能なときはベクトル化するので、swifterの計算時間は単純にベクトル化した場合と ほぼ等しくなるはずです。これを確認してみましょう。 import pandas as pd import numpy as np import dask.dataframe as dd import swifter import multiprocessing import gc pandas_time_list = [] dask_time_list

    たった一文でPandasのapplyメソッドを高速化する方法(検証計算あり) - Qiita
  • pandasで1000万件のデータの前処理を高速にするTips集 - Qiita

    はじめに 当社にアルバイトに来ていた人(来春に新卒入社の予定)に「pandasを高速化するための情報は無いですか?」と尋ねられました。 このパッケージの使い方は多数の書籍やWebで体系立った記事で書かれています。 しかし、高速化に関しては体系的な情報源が思いつかなかったので、「実際に書いてみて、1つ1つチューニングするしかないです」としか答えられませんでした。 そこで、この方を始め、来春(2019年4月)にデータアナリストまたはデータサイエンティストになる新卒へ向けて、pandasの高速化に関する私の経験をTips集にしてお伝えしたいと思います。 この記事は今後も内容を充実させるために、Tipsを追加していきます。 この記事を読んだ後にできるようになること pandasでレコード数1000万件のデータでも1分以内で完了する前処理が書けるようになります。 その結果、1日中実行し続けなければな

    pandasで1000万件のデータの前処理を高速にするTips集 - Qiita
  • どこまで速くできる? 達人に学ぶPython超高速データ分析~PyData.Tokyo Meetup #4イベントレポート

    PyData.Tokyoは「Python+Dataを通じて、世界のPyDataエクスパートと繋がれるコミュニティーを作る」ことを目的として設立され、これまでに勉強会3回およびチュートリアル1回が開催されました(過去のイベントのリスト)。4回目の勉強会となる今回は「データ解析アルゴリズムの高速化」をテーマに、株式会社ブレインパッドの佐藤貴海さん(@tkm2261)とシルバーエッグ・テクノロジー株式会社の加藤公一さん(@hamukazu)の2人に話していただきました。 登壇者のレベルの高い講演に加え、ヤフー、日IBM、NTTデータ、AWS、Gunosy、Preferred Networksなど、第一線で活躍されている非常に質の高い聴講者にも参加いただき、大変充実した会になりました。 Pythonは書きやすい言語仕様と豊富なライブラリが特徴で、手軽に複雑なデータ分析を行えますが、他言語と同じ感

    どこまで速くできる? 達人に学ぶPython超高速データ分析~PyData.Tokyo Meetup #4イベントレポート
  • 1