[B! Python][pandas] hagino_3000のブックマーク

hagino_3000 id:hagino_3000

Pythonとpandasに関するhagino_3000のブックマーク (3)

Python pandas 欠損値/外れ値/離散化の処理 - StatsFragments
データの前処理にはいくつかの工程がある。書籍「データ分析プロセス」には欠損など前処理に必要なデータ特性の考慮とその対処方法が詳しく記載されている。が、書籍のサンプルは R なので、Python でどうやればよいかよく分からない。同じことを pandas でやりたい。データ分析プロセス (シリーズ Useful R 2) 作者: 福島真太朗,金明哲出版社/メーカー: 共立出版発売日: 2015/06/25メディア: 単行本この商品を含むブログ (2件) を見るとはいえ、pandas 自身は統計的 / 機械学習的な前処理手法は持っていない。また Python には R と比べると統計的な前処理手法のパッケージは少なく、自分で実装しないと使えない方法も多い。ここではそういった方法は省略し、pandas でできる前処理 / 可視化を中心に書く。また、方法自体の説明は記載しないので、詳細
hagino_3000 2016/02/07
python

pandas
リンク
Python pandas パフォーマンス維持のための 3 つの TIPS - StatsFragments
pandas でそこそこ大きいデータを扱う場合、その処理速度が気になってくる。公式ドキュメントではパフォーマンス向上のために Cython や Numba を使う方法を記載している。 Enhancing Performance — pandas 0.16.2 documentation が、軽く試したいだけなのにわざわざ Cythonや Numba を使うのは手間だし、かといってあまりに遅いのも嫌だ。そんなとき、pandas 本来のパフォーマンスをできるだけ維持するためのポイントを整理したい。 pandas に限らず、パフォーマンス改善の際にはボトルネックの箇所によってとるべき対策は異なる。pandas では速度向上/エッジケース処理のためにデータの型や条件によって内部で処理を細かく分けており、常にこうすれば速くなる！という方法を出すのは難しい。以下はこの前提のうえで、内部実装からみ
hagino_3000 2015/10/19
python

pandas

cython
リンク
PyConJP 2015: pandas/Daskについてお話させていただきました - StatsFragments
10日、11日と PyCon JP に参加させていただきました。ご参加いただいた皆様、スタッフの皆様ありがとうございました。資料はこちらになります。 pandas internals パフォーマンス向上のための pandas 内部実装の説明といくつかの TIPS について。そのうち翻訳するかもしれません。 speakerdeck.com Dask: 軽量並列分散フレームワーク (LT) speakerdeck.com 元ネタ以下のエントリをベースに、それぞれ新しい内容を追加しています。 sinhrks.hatena blog.com sinhrks.hatena blog.com
hagino_3000 2015/10/15
python

pandas

pydata
リンク
1

お知らせ

もっと読む

公式Twitter

@HatenaBookmark
リリース、障害情報などのサービスのお知らせ
@hatebu
最新の人気エントリーの配信

キーボードショートカット一覧

j次のブックマーク

k前のブックマーク

lあとで読む

eコメント一覧を開く

oページを開く

設定を変更しましたx