タグ

pandasに関するKanasansoftのブックマーク (5)

  • さくっとトレンド抽出: Pythonのstatsmodelsで時系列分析入門 - Gunosyデータ分析ブログ

    久しぶりの投稿になってしまいましたが、ニュースパス(現在CM放映中!!)開発部の大曽根です。 作業中はGrover Washington Jr のWinelightを聴くと元気が出ます。参加ミュージシャンが素晴らしいですね。 なぜ時系列分析をするのか 季節調整 実演 おまけ: 時間別に見てみる まとめ 今後 なぜ時系列分析をするのか 数値を非常に重視している弊社では、数値を知るためのツールとしてRedashやChartioおよびSlackへの通知を活用しています。現在の数値を理解する上では、長期のトレンド(指標が下がっているのか、上がっているのか)を知ることが重要です。しかし、日々変化するデータ(特に売上やKPIと言われる指標)は、ばらつきも大きく、変化を適切に捉えることが難しいこともあります。 特にSlackなどへの通知を行っていると、日々の変化に囚われがちです。例えば、弊社ではニュース

    さくっとトレンド抽出: Pythonのstatsmodelsで時系列分析入門 - Gunosyデータ分析ブログ
    Kanasansoft
    Kanasansoft 2018/01/05
    StatsModelsのseasonal_decomposeを使った時系列データ分析。
  • リスト、NumPy、Pandas間の変換 - ぺーぺーSEのブログ

    リスト(Python標準)、ndarray(NumPy)、Series(Pandas)、DataFrame(Pandas)間での変換についてまとめる。 はじめに、前提として下記のインポート、データ定義等があるとする。 import numpy as np import pandas as pd _1dlist = [1, 2, 3] _2dlist = [[1, 2, 3], [4, 5, 6]] # NumPy _1darray = np.array([4, 5, 6]) _2darray = np.array([[1, 2, 3], [4, 5, 6]]) _3darray = np.array([[[1, 2], [3, 4]], [[5, 6], [7, 8]], [[9, 10], [11, 12]], [[13, 14],[15, 16]]]) # Pandas _series

    リスト、NumPy、Pandas間の変換 - ぺーぺーSEのブログ
  • Python pandas データ選択処理をちょっと詳しく <前編> - StatsFragments

    概要 書いていて長くなったため、まず前編として pandas で データを行 / 列から選択する方法を少し詳しく書く。特に、個人的にはけっこう重要だと思っている loc と iloc について 日語で整理したものがなさそうなので。 サンプルデータの準備 import pandas as pd s = pd.Series([1, 2, 3], index = ['I1', 'I2', 'I3']) df = pd.DataFrame({'C1': [11, 21, 31], 'C2': [12, 22, 32], 'C3': [13, 23, 33]}, index = ['I1', 'I2', 'I3']) s # I1 1 # I2 2 # I3 3 # dtype: int64 df # C1 C2 C3 # I1 11 12 13 # I2 21 22 23 # I3 31 32

    Python pandas データ選択処理をちょっと詳しく <前編> - StatsFragments
    Kanasansoft
    Kanasansoft 2017/11/18
    loc/iloc/ixの使い方。引数の書き方で戻り値が違う。『手元で対話的にちょっと試す場合は ix が便利』『ある程度の期間使うようなスクリプトを書く場合は 少し面倒でも iloc, loc が安全』
  • 決定木とランダムフォレスト - Qiita

    決定木とは 目的変数に属する確率を複数の説明変数の組み合わせで算出する方法。 イメージは以下で、Yes/Noなどの条件に属するかどうかで確率を算出する。 ランダムフォレストとは ランダムフォレストは、アンサンブル学習法(複数の分類器を集めて構成される分類器)の一つ。 決定木を複数集めて使うので、木が集まってフォレスト(森)として使う。 やってみる(sklearnでの決定木) データ用意 ランダムに作ったデータを用意する。 import numpy as np import pandas as pd import matplotlib.pyplot as plt import seaborn %matplotlib inline from sklearn.datasets import make_blobs # ダミーデータの生成用 X, y = make_blobs(n_samples=5

    決定木とランダムフォレスト - Qiita
    Kanasansoft
    Kanasansoft 2017/10/20
    『ランダムフォレストは、アンサンブル学習法(複数の分類器を集めて構成される分類器)の一つ。決定木を複数集めて使うので、木が集まってフォレスト(森)として使う。』分類結果が図式化されていて違いがわかりやす
  • PyConJP 2016: pandas による 時系列データ処理

    Scoring probability model based on service landing location and ranking points in men’s professional tennis matches

    PyConJP 2016: pandas による 時系列データ処理
    Kanasansoft
    Kanasansoft 2017/10/19
    Pandasの使い方詳解。StatsModelsの使い方やARIMA/SARIMAを用いた時系列データ解析/ADF検定の方法も。とにかく盛り沢山。
  • 1