ブックマーク / sinhrks.hatenablog.com (5)

  • Python でパイプ演算子を使いたい - StatsFragments

    ネタ記事です。/ This is a joke post which makes no practical sense. はじめに Python pandas では主要な操作を以下のようにメソッドチェインの形で書くことができる。 # Python (pandas) df.assign(x=df['y'] + df['z']).groupby('x').sum() pandas v0.16.2 で DataFrame と Series に .pipe というメソッドが追加され、このチェインを外部の関数/メソッドに対して連結できるようになった。利用例は以下のリンクを。 statsmodels を利用する例 seaborn を利用する例 補足 matplotlib でも v1.5.0 で ラベルデータ対応 が追加され、各関数が .pipe から利用できるようになる予定。 このメソッドチェインによ

    Python でパイプ演算子を使いたい - StatsFragments
    yamitzky
    yamitzky 2015/09/21
    ネタ記事とはいえ感心した。まじめにこれをやるライブラリがあっても良いとは思う、可読性のために
  • Python pandas データ選択処理をちょっと詳しく <後編> - StatsFragments

    概要 こちらの続き。これで pandas でのデータ選択についてはひとまず終わり。 Python pandas データ選択処理をちょっと詳しく <前編> - StatsFragments Python pandas データ選択処理をちょっと詳しく <中編> - StatsFragments サンプルデータの準備 データは 前編と同じものを使う。ただし変数名は変えた。 import pandas as pd s1 = pd.Series([1, 2, 3], index = ['I1', 'I2', 'I3']) df1 = pd.DataFrame({'C1': [11, 21, 31], 'C2': [12, 22, 32], 'C3': [13, 23, 33]}, index = ['I1', 'I2', 'I3']) s1 # I1 1 # I2 2 # I3 3 # dtype:

    Python pandas データ選択処理をちょっと詳しく <後編> - StatsFragments
    yamitzky
    yamitzky 2015/07/21
  • Python pandas パフォーマンス維持のための 3 つの TIPS - StatsFragments

    pandas でそこそこ大きいデータを扱う場合、その処理速度が気になってくる。公式ドキュメントではパフォーマンス向上のために Cython や Numba を使う方法を記載している。 Enhancing Performance — pandas 0.16.2 documentation が、軽く試したいだけなのに わざわざ Cythonや Numba を使うのは手間だし、かといってあまりに遅いのも嫌だ。そんなとき、pandas 来のパフォーマンスをできるだけ維持するためのポイントを整理したい。 pandas に限らず、パフォーマンス改善の際にはボトルネックの箇所によってとるべき対策は異なる。pandas では速度向上/エッジケース処理のために データの型や条件によって内部で処理を細かく分けており、常にこうすれば速くなる! という方法を出すのは難しい。以下はこの前提のうえで、内部実装からみ

    Python pandas パフォーマンス維持のための 3 つの TIPS - StatsFragments
    yamitzky
    yamitzky 2015/07/12
    参考になった
  • pandas 0.16.0/0.16.1 の主要な新機能 - StatsFragments

    先日 5/11 に pandas 0.16.1 がリリースされた。前バージョンである 0.16.0 とあわせて、主要な変更点である以下3点の概要をまとめたい。各見出しの括弧内には対応したバージョンを記載した。 簡単な列追加 / DataFrame.assign (0.16.0) 文字列処理の強化 (0.16.0/0.16.1) ランダムサンプリング DataFrame.sample (0.16.1) 変更点全体はリリースノートを参照。上記3点以外にも便利な変更はあるのだが、 Categorical や Frequency など 元機能の説明がないとわからない箇所なので別途、、。 簡単な列追加 / DataFrame.assign (0.16.0) DataFrame への列追加をより簡潔に行うためのメソッドとして、DataFrame.assign が追加された。R {dplyr} の mu

    pandas 0.16.0/0.16.1 の主要な新機能 - StatsFragments
    yamitzky
    yamitzky 2015/05/19
  • KalmanFilter の動きを可視化する 一次元版 - StatsFragments

    KalmanFilter をきちんと理解したいのだが いまいち 具体的な動作がわからない、、、ということで実装 & 可視化してみた。 KalmanFilter とは 誤差が乗っているであろう観測値の系列について、直前の観測と現在の観測を用いて 真の状態を推定する手法。例えば GPSで取得した位置情報から、正しい位置を推定する 取得可能な経済指標から 真の景気の状態を推定する カルマンフィルター - Wikipedia 理論 はてなTeX 記法で うまく数式がかけないところがあるので 英語wikipedia の数式を使う。KalmanFilter はある時点で観測を行うたびに 入力値を使って次の状態を予測するとともに、現時点の予測値を補正する処理を繰り返す。 予測: k-1 時点の値を利用して予測した k 時点での"真値の予測値" k-1 時点の値を利用して予測した k 時点での「真

    yamitzky
    yamitzky 2014/11/05
    わかりやすいやつだ
  • 1