タグ

pandasに関するincepのブックマーク (3)

  • pandas.DataFrameの行番号、列番号を取得 | note.nkmk.me

    pandas.DataFrameの行名、列名から行番号、列番号を取得したり、列の要素の値から行名、行番号を取得したりする方法を説明する。 以下の内容について説明する。 行名、列名から行番号、列番号を取得 get_loc()メソッド 行名、列名が重複している場合 index, columnsをリスト化 列の要素の値から行名、行番号を取得 行番号、列番号から行、列や要素の値を取得したい場合は以下の記事を参照。 関連記事: pandasのインデックス参照で行・列を選択し取得 関連記事: pandasで任意の位置の値を取得・変更するat, iat, loc, iloc 以下のpandas.DataFrameを例とする。 import pandas as pd df = pd.read_csv('data/src/sample_pandas_normal.csv', index_col=0) pri

    pandas.DataFrameの行番号、列番号を取得 | note.nkmk.me
  • たった数行でpandasを高速化する2つのライブラリ(pandarallel/swifter) - フリーランチ食べたい

    pandas はデータ解析やデータ加工に非常に便利なPythonライブラリですが、並列化されている処理とされていない処理があり、注意が必要です。例えば pd.Sereis.__add__ のようなAPI(つまり df['a'] + df['b'] のような処理です)は処理が numpy に移譲されているためPythonのGILの影響を受けずに並列化されますが、 padas.DataFrame.apply などのメソッドはPythonのみで実装されているので並列化されません。 処理によってはそこがボトルネックになるケースもあります。今回は「ほぼimportするだけ」で pandas の並列化されていない処理を並列化し高速化できる2つのライブラリを紹介します。同時に2つのライブラリのベンチマークをしてみて性能を確かめました。 pandarallel pandaralell はPythonの m

    たった数行でpandasを高速化する2つのライブラリ(pandarallel/swifter) - フリーランチ食べたい
  • 3.1. Python での統計 — Scipy lecture notes

    必要なもの 標準的な Python の科学技術環境 (numpy, scipy, matplotlib) Pandas Statsmodels Seaborn Python と依存ライブラリをインストールするのにに Anaconda Python か Enthought Canopy をダウンロードするか、Ubuntu や他の Linux ならパッケージマネージャーを利用する、ことをおすすめします。 参考 Python での Bayesian 統計 この章では Bayesian 統計については扱いません。Bayesian モデリングに関して特化したものとしては PyMC があり、 Python での確率を扱うプログラムを実装しています。 ちなみに どうして統計に Python を使うのか? R は統計に特化した言語です。Python は汎用の言語で、統計モジュールを持っています。R は P

    3.1. Python での統計 — Scipy lecture notes
  • 1