[B! pandas] ymym3412のブックマーク

FASTPANEL

ymym3412 2020/01/06

リンク

たった一文でPandasのapplyメソッドを高速化する方法（検証計算あり） - Qiita

以下では、DaskやPandasなどと比較して、swifterがどの程度高速なのかを検証したいと思います。 swifterはベクトル化可能な場合とそうでない場合で挙動が異なるので、各々の場合を検証します。使用したPCのスペックはIntel Core i5-8350U @1.70GHz、メモリが16GBです。ベクトル化可能な場合 swifterはベクトル化可能なときはベクトル化するので、swifterの計算時間は単純にベクトル化した場合とほぼ等しくなるはずです。これを確認してみましょう。 import pandas as pd import numpy as np import dask.dataframe as dd import swifter import multiprocessing import gc pandas_time_list = [] dask_time_list

ymym3412 2019/11/15

リンク

pandasで1000万件のデータの前処理を高速にするTips集 - Qiita

はじめに当社にアルバイトに来ていた人（来春に新卒入社の予定）に「pandasを高速化するための情報は無いですか？」と尋ねられました。このパッケージの使い方は多数の書籍やWebで体系立った記事で書かれています。しかし、高速化に関しては体系的な情報源が思いつかなかったので、「実際に書いてみて、1つ1つチューニングするしかないです」としか答えられませんでした。そこで、この方を始め、来春（2019年4月）にデータアナリストまたはデータサイエンティストになる新卒へ向けて、pandasの高速化に関する私の経験をTips集にしてお伝えしたいと思います。この記事は今後も内容を充実させるために、Tipsを追加していきます。この記事を読んだ後にできるようになること pandasでレコード数1000万件のデータでも1分以内で完了する前処理が書けるようになります。その結果、1日中実行し続けなければな

ymym3412 2018/12/21

リンク

PyConJP 2016: pandas による時系列データ処理

Improving Search @scale with efficient query experimentation @BerlinBuzzwords 2024

ymym3412 2017/03/29

リンク

PyConJP 2016: pandasでの時系列処理についてお話させていただきました - StatsFragments

21日、22日と PyCon JP に参加させていただきました。ご参加いただいた皆様、スタッフの皆様ありがとうございました。資料はこちらになります。 pandas による時系列データ処理 pandas を使った時系列データの前処理と、statsmodels での時系列モデリングの触りをご紹介しました。 speakerdeck.com 時系列モデルの考え方については全く説明していないので、以下書籍などをご参照ください。経済・ファイナンスデータの計量時系列分析 (統計ライブラリー) 作者: 沖本竜義出版社/メーカー: 朝倉書店発売日: 2010/02/01メディア: 単行本購入: 4人クリック: 101回この商品を含むブログ (6件) を見る元ネタ以下のエントリをベースに新しい内容を追加しています。 sinhrks.hatena blog.com 時系列モデルを含む Python パッケ

ymym3412 2017/03/29

リンク

Python Jupyter + pandas で DataFrame 表示をカスタマイズする - StatsFragments

先日 pandas v0.17.1 がリリースされた。v0.17.0 に対するバグフィックスがメインだが、以下の追加機能もあるためその内容をまとめたい。 HTML 表示のカスタマイズ Jupyer 上では pandasの DataFrame は自動的に HTML として描画される。この HTML に対して、さまざまな CSS を柔軟に設定できるようになった。このエントリでは、添付した公式ドキュメントとは少し違う例を記載する。 Style -- pandas documentation @TomAugspurger (コミッタの一人) 作成の Jupyter Notebook 重要公式ドキュメントにも記載がされているが v0.17.1 時点で開発中 / Experimental な追加のため、今後破壊的な変更が発生する可能性がある。ご要望やお気づきの点があれば GitHub issu

ymym3412 2017/02/09

DataFrameのカスタマイズ

リンク

Python pandas 図でみるデータ連結 / 結合処理 - StatsFragments

なんかぼやぼやしているうちにひさびさの pandas エントリになってしまった。基本的な使い方については網羅したい気持ちはあるので、、、。今回はデータの連結 / 結合まわり。この部分公式ドキュメントがちょっとわかりにくいので改訂したいなと思っていて、自分の整理もかねて書きたい。公式の方はもう少し細かい使い方も載っているのだが、特に重要だろうというところだけをまとめる。連結 / 結合という用語は以下の意味で使っている。まず憶えておいたほうがよい関数、メソッドは以下の 4 つだけ。連結: データの中身をある方向にそのままつなげる。pd.concat, DataFrame.append 結合: データの中身を何かのキーの値で紐付けてつなげる。pd.merge, DataFrame.join 連結 (concatenate) 柔軟な連結 pd.concat ふたつの DataFram

ymym3412 2016/11/10

リンク

Python pandas データ選択処理をちょっと詳しく <中編> - StatsFragments

こちらの続き。上の記事では bool でのデータ選択について最後にしれっと書いて終わらせたのだが、一番よく使うところなので中編として補足。まず __getit em__ や ix の記法では、次のような指定によって行 / 列を選択することができた。 index, columns のラベルを直接指定しての選択 index, columns の番号(順序)を指定しての選択 index, columns に対応する bool のリストを指定しての選択ここでは上記の選択方法をベースとして、ユースケースごとに Index や Series のプロパティ / メソッドを使ってできるだけシンプルにデータ選択を行う方法をまとめる。補足一部の内容はこちらの記事ともかぶる。下の記事のほうが簡単な内容なので、必要な方はまずこちらを参照。簡単なデータ操作を Python pandas で行う - S

ymym3412 2016/10/04

リンク

はてなブックマーク

タグ

関連タグで絞り込む (10)

pandasに関するymym3412のブックマーク (8)

お知らせ

今週のはてなブックマーク数ランキング（2024年7月第3週）

今週のはてなブックマーク数ランキング（2024年7月第2週）

はてなブックマーク透明性レポート（2024年 2月-2024年4月）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス