関連タグで絞り込む (1)

タグの絞り込みを解除

pandasに関するcakephperのブックマーク (8)

  • pandas によるデータセットの加工 (1) - Qiita

    サンプルデータの抽出 統計解析においてはデータの前処理が欠かせません。まず計算機で扱えるようデータを読み込むわけですが、大きめのデータを扱う計算処理においてはそのターンアラウンドがしばしば問題になります。このようなときに採るべき策はいくつかあります。 データのサイズを減らす ボトルネックを特定し計算量の削減をする 計算機の性能を上げる ビッグデータなどと言われて久しいですが実際には標のサイズを大きく取る必要はありません。標抽出法によって有意なサンプルを抜きだしましょう。 多くのデータ集中処理では I/O がボトルネックになります。このとき必要なデータだけを読み込むようにする、もとのデータを適切に分割して入力サイズそのものを減らす、といったことを検討するのが良いでしょう。 サンプルデータのスライスと集計 スライシング pandas でデータを扱う場合、スライシングは簡単におこなえます。

    pandas によるデータセットの加工 (1) - Qiita
  • PyConJP 2016: pandasでの時系列処理についてお話させていただきました - StatsFragments

    21日、22日と PyCon JP に参加させていただきました。ご参加いただいた皆様、スタッフの皆様ありがとうございました。資料はこちらになります。 pandas による時系列データ処理 pandas を使った時系列データの前処理と、statsmodels での時系列モデリングの触りをご紹介しました。 speakerdeck.com 時系列モデルの考え方については全く説明していないので、以下書籍などをご参照ください。 経済・ファイナンスデータの計量時系列分析 (統計ライブラリー) 作者: 沖竜義出版社/メーカー: 朝倉書店発売日: 2010/02/01メディア: 単行購入: 4人 クリック: 101回この商品を含むブログ (6件) を見る 元ネタ 以下のエントリをベースに新しい内容を追加しています。 sinhrks.hatenablog.com 時系列モデルを含む Python パッケ

    PyConJP 2016: pandasでの時系列処理についてお話させていただきました - StatsFragments
  • Python pandas データのイテレーションと関数適用、pipe - StatsFragments

    pandas ではデータを 列 や 表形式のデータ構造として扱うが、これらのデータから順番に値を取得 (イテレーション) して何か操作をしたい / また 何らかの関数を適用したい、ということがよくある。このエントリでは以下の 3 つについて整理したい。 イテレーション 関数適用 pipe (0.16.2 で追加) それぞれ、Series、DataFrame、GroupBy (DataFrame.groupbyしたデータ) で可能な操作が異なるため、順に記載する。 まずは必要なパッケージを import する。 import numpy as np import pandas as pd イテレーション Series Series は以下 2つのイテレーション用メソッドを持つ。各メソッドの挙動は以下のようになる。 __iter__: Series の値 ( values ) のみをイテレーシ

    Python pandas データのイテレーションと関数適用、pipe - StatsFragments
  • Python Pandasでのデータ操作の初歩まとめ − 前半:データ作成&操作編 - Qiita

    はじめに Pythonデータ分析を扱う上で必須となる、Pandasでのデータ操作方法の 初歩についてまとめました。 ついつい忘れてしまう重要文法から、ちょっとしたTipsなどを盛り込んでいます。 こんな人にオススメ → Pandasを初めて触ってみたい! → Rが使えることをPythonでもやってみてーなー → Pandasの文法覚えきれねー どっかに一覧があれば便利なのに... → そもそもPythonでデータハンドリングってどれくらいできるものなのさ こちらも合わせてどうぞ ◆Pandasでデータ操作:Pandas_plyを使う http://qiita.com/hik0107/items/3dd260d9939a5e61c4f6 データを作ってみよう import pandas as pd df_sample =\ pd.DataFrame([["day1","day2","day

    Python Pandasでのデータ操作の初歩まとめ − 前半:データ作成&操作編 - Qiita
  • Python pandas データ選択処理をちょっと詳しく <前編> - StatsFragments

    概要 書いていて長くなったため、まず前編として pandas で データを行 / 列から選択する方法を少し詳しく書く。特に、個人的にはけっこう重要だと思っている loc と iloc について 日語で整理したものがなさそうなので。 サンプルデータの準備 import pandas as pd s = pd.Series([1, 2, 3], index = ['I1', 'I2', 'I3']) df = pd.DataFrame({'C1': [11, 21, 31], 'C2': [12, 22, 32], 'C3': [13, 23, 33]}, index = ['I1', 'I2', 'I3']) s # I1 1 # I2 2 # I3 3 # dtype: int64 df # C1 C2 C3 # I1 11 12 13 # I2 21 22 23 # I3 31 32

    Python pandas データ選択処理をちょっと詳しく <前編> - StatsFragments
  • Python pandas プロット機能を使いこなす - StatsFragments

    pandas は可視化のための API を提供しており、折れ線グラフ、棒グラフといった基的なプロットを簡易な API で利用することができる。一般的な使い方は公式ドキュメントに記載がある。 Visualization — pandas 0.17.1 documentation これらの機能は matplotlib に対する 薄い wrapper によって提供されている。ここでは pandas 側で一処理を加えることによって、ドキュメントに記載されているプロットより少し凝った出力を得る方法を書きたい。 補足 サンプルデータに対する見せ方として不適切なものがあるが、プロットの例ということでご容赦ください。 パッケージのインポート import matplotlib.pyplot as plt plt.style.use('ggplot') import matplotlib as mpl m

    Python pandas プロット機能を使いこなす - StatsFragments
  • https://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.resample.html

    cakephper
    cakephper 2017/02/15
    時系列で値を間引くpandasの機能
  • pandasでよく使う文法まとめ - Qiita

    Pythonデータ分析用ライブラリ「pandas」でよく使う文法をまとめました. Change log 2019-02-18 表示拡大の方法を更新 2018-05-06 コメント反映(pd.set_option('display.width', 100)) 2018-02-14 リンクの修正 2017-11-01 df.fillna(method='ffill')の説明を修正 2017-06-09 リンク切れ等の修正 2016-10-10 例の編集 2016-06-21 df.rolling, pd.date_range, pd.datetime, df.pivotの追加,その他の例の追加

    pandasでよく使う文法まとめ - Qiita
  • 1