hagino_3000のブックマーク - はてなブックマーク

PyConJP 2016: pandasでの時系列処理についてお話させていただきました - StatsFragments

21日、22日と PyCon JP に参加させていただきました。ご参加いただいた皆様、スタッフの皆様ありがとうございました。資料はこちらになります。 pandas による時系列データ処理 pandas を使った時系列データの前処理と、statsmodels での時系列モデリングの触りをご紹介しました。 speakerdeck.com 時系列モデルの考え方については全く説明していないので、以下書籍などをご参照ください。経済・ファイナンスデータの計量時系列分析 (統計ライブラリー) 作者: 沖本竜義出版社/メーカー: 朝倉書店発売日: 2010/02/01メディア: 単行本購入: 4人クリック: 101回この商品を含むブログ (6件) を見る元ネタ以下のエントリをベースに新しい内容を追加しています。 sinhrks.hatena blog.com 時系列モデルを含む Python パッケ

hagino_3000 2016/12/05

リンク

Python pandas 欠損値/外れ値/離散化の処理 - StatsFragments

データの前処理にはいくつかの工程がある。書籍「データ分析プロセス」には欠損など前処理に必要なデータ特性の考慮とその対処方法が詳しく記載されている。が、書籍のサンプルは R なので、Python でどうやればよいかよく分からない。同じことを pandas でやりたい。データ分析プロセス (シリーズ Useful R 2) 作者: 福島真太朗,金明哲出版社/メーカー: 共立出版発売日: 2015/06/25メディア: 単行本この商品を含むブログ (2件) を見るとはいえ、pandas 自身は統計的 / 機械学習的な前処理手法は持っていない。また Python には R と比べると統計的な前処理手法のパッケージは少なく、自分で実装しないと使えない方法も多い。ここではそういった方法は省略し、pandas でできる前処理 / 可視化を中心に書く。また、方法自体の説明は記載しないので、詳細

hagino_3000 2016/02/07

リンク

Python pandas アクセサ / Grouperで少し高度なグルーピング/集計 - StatsFragments

日本語の説明がなさそうなので。概要 pandas では groupby メソッドを使って、指定したカラムの値でデータをグループ分けできる。ここでは少し凝った方法を説明。 ※ dtアクセサの追加、またグルーピング関連のバグ修正がいろいろ入っているので、0.15以降が必要。 ※簡単な処理については下の記事でまとめ。はじめに例えばこんなデータがあったとして、 import pandas as pd import datetime df = pd.DataFrame({'dt1': [datetime.datetime(2014, 10, 1), datetime.datetime(2014, 10, 2), datetime.datetime(2014, 10, 3), datetime.datetime(2014, 10, 4), datetime.datetime(2014, 10,

hagino_3000 2015/10/21

時系列にしつつグルーピングする手順いつも忘れてしまう

pandas

リンク

Python pandas パフォーマンス維持のための 3 つの TIPS - StatsFragments

pandas でそこそこ大きいデータを扱う場合、その処理速度が気になってくる。公式ドキュメントではパフォーマンス向上のために Cython や Numba を使う方法を記載している。 Enhancing Performance — pandas 0.16.2 documentation が、軽く試したいだけなのにわざわざ Cythonや Numba を使うのは手間だし、かといってあまりに遅いのも嫌だ。そんなとき、pandas 本来のパフォーマンスをできるだけ維持するためのポイントを整理したい。 pandas に限らず、パフォーマンス改善の際にはボトルネックの箇所によってとるべき対策は異なる。pandas では速度向上/エッジケース処理のためにデータの型や条件によって内部で処理を細かく分けており、常にこうすれば速くなる！という方法を出すのは難しい。以下はこの前提のうえで、内部実装からみ

hagino_3000 2015/10/19

リンク

PyConJP 2015: pandas/Daskについてお話させていただきました - StatsFragments

10日、11日と PyCon JP に参加させていただきました。ご参加いただいた皆様、スタッフの皆様ありがとうございました。資料はこちらになります。 pandas internals パフォーマンス向上のための pandas 内部実装の説明といくつかの TIPS について。そのうち翻訳するかもしれません。 speakerdeck.com Dask: 軽量並列分散フレームワーク (LT) speakerdeck.com 元ネタ以下のエントリをベースに、それぞれ新しい内容を追加しています。 sinhrks.hatena blog.com sinhrks.hatena blog.com

hagino_3000 2015/10/15

リンク

はてなブックマーク

タグ

ブックマーク / sinhrks.hatenablog.com (5)

お知らせ

今週のはてなブックマーク数ランキング（2024年7月第1週）

月間はてなブックマーク数ランキング（2024年6月）

今週のはてなブックマーク数ランキング（2024年6月第5週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス