[B! pandas] cakephperのブックマーク

pandas によるデータセットの加工 (1) - Qiita

サンプルデータの抽出統計解析においてはデータの前処理が欠かせません。まず計算機で扱えるようデータを読み込むわけですが、大きめのデータを扱う計算処理においてはそのターンアラウンドがしばしば問題になります。このようなときに採るべき策はいくつかあります。データのサイズを減らすボトルネックを特定し計算量の削減をする計算機の性能を上げるビッグデータなどと言われて久しいですが実際には標本のサイズを大きく取る必要はありません。標本抽出法によって有意なサンプルを抜きだしましょう。多くのデータ集中処理では I/O がボトルネックになります。このとき必要なデータだけを読み込むようにする、もとのデータを適切に分割して入力サイズそのものを減らす、といったことを検討するのが良いでしょう。サンプルデータのスライスと集計スライシング pandas でデータを扱う場合、スライシングは簡単におこなえます。

cakephper 2017/02/15

リンク

PyConJP 2016: pandasでの時系列処理についてお話させていただきました - StatsFragments

21日、22日と PyCon JP に参加させていただきました。ご参加いただいた皆様、スタッフの皆様ありがとうございました。資料はこちらになります。 pandas による時系列データ処理 pandas を使った時系列データの前処理と、statsmodels での時系列モデリングの触りをご紹介しました。 speakerdeck.com 時系列モデルの考え方については全く説明していないので、以下書籍などをご参照ください。経済・ファイナンスデータの計量時系列分析 (統計ライブラリー) 作者: 沖本竜義出版社/メーカー: 朝倉書店発売日: 2010/02/01メディア: 単行本購入: 4人クリック: 101回この商品を含むブログ (6件) を見る元ネタ以下のエントリをベースに新しい内容を追加しています。 sinhrks.hatena blog.com 時系列モデルを含む Python パッケ

cakephper 2017/02/15

リンク

Python pandas データのイテレーションと関数適用、pipe - StatsFragments

pandas ではデータを列や表形式のデータ構造として扱うが、これらのデータから順番に値を取得 (イテレーション) して何か操作をしたい / また何らかの関数を適用したい、ということがよくある。このエントリでは以下の 3 つについて整理したい。イテレーション関数適用 pipe (0.16.2 で追加) それぞれ、Series、DataFrame、GroupBy (DataFrame.groupbyしたデータ) で可能な操作が異なるため、順に記載する。まずは必要なパッケージを import する。 import numpy as np import pandas as pd イテレーション Series Series は以下 2つのイテレーション用メソッドを持つ。各メソッドの挙動は以下のようになる。 __iter__: Series の値 ( values ) のみをイテレーシ

cakephper 2017/02/15

リンク

Python Pandasでのデータ操作の初歩まとめ − 前半：データ作成＆操作編 - Qiita

Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article?

cakephper 2017/02/15

リンク

Python pandas データ選択処理をちょっと詳しく <前編> - StatsFragments

概要書いていて長くなったため、まず前編として pandas でデータを行 / 列から選択する方法を少し詳しく書く。特に、個人的にはけっこう重要だと思っている loc と iloc について日本語で整理したものがなさそうなので。サンプルデータの準備 import pandas as pd s = pd.Series([1, 2, 3], index = ['I1', 'I2', 'I3']) df = pd.DataFrame({'C1': [11, 21, 31], 'C2': [12, 22, 32], 'C3': [13, 23, 33]}, index = ['I1', 'I2', 'I3']) s # I1 1 # I2 2 # I3 3 # dtype: int64 df # C1 C2 C3 # I1 11 12 13 # I2 21 22 23 # I3 31 32

cakephper 2017/02/15

リンク

Python pandas プロット機能を使いこなす - StatsFragments

pandas は可視化のための API を提供しており、折れ線グラフ、棒グラフといった基本的なプロットを簡易な API で利用することができる。一般的な使い方は公式ドキュメントに記載がある。 Visualization — pandas 0.17.1 documentation これらの機能は matplotlib に対する薄い wrapper によって提供されている。ここでは pandas 側で一処理を加えることによって、ドキュメントに記載されているプロットより少し凝った出力を得る方法を書きたい。補足サンプルデータに対する見せ方として不適切なものがあるが、プロットの例ということでご容赦ください。パッケージのインポート import matplotlib.pyplot as plt plt.style.use('ggplot') import matplotlib as mpl m