タグ

関連タグで絞り込む (0)

  • 関連タグはありません

タグの絞り込みを解除

pythonとPythonとpandasに関するteddy-gのブックマーク (39)

  • lambda式って超便利 - 雑記 in hibernation

    コーディングの文法でlambda式ってあるじゃないですか。あれ、何が有り難いのかイマイチよくわかってなかったんですけど、その恩恵がようやく理解できたのでPythonでのlambda式の使い方について備忘録にします。あんまり細かいtipsは記事化してもキリがないなあとは思っているので、コーディングの諸々に関するネタはあんまり書かないつもりではいるのですが、まあ今回はブログの賑やかしにでもなれば、くらいの感じで。 なお、今回主に参考にさせていただいた記事はこちらです。 note.nkmk.me qiita.com 基礎 of 基礎 まずlambda式の記法から。ざっくりいうと「関数のお手軽版」みたいな的な感じらしい。 普通に関数を宣言する場合とlambda式を用いた場合との対応関係はこんな感じです。 defで定義する関数を使用する場合 # 2変数の和を返す関数 def sum_func(a,b

    lambda式って超便利 - 雑記 in hibernation
    teddy-g
    teddy-g 2021/02/21
    DataFrameのあれとこれをそれしてソートしたいときは一発でできなくて、lambda式でカラムを追加してsort_valuesしないといけない。
  • [python] pandasの日付データ.変換,読み込み,図示まで | あきとしのスクラップノート

    pandasで日付データを操作する際に必要な知識をまとめた. 初めに,pythonにおける日付を取り扱うデータ型に代表的なものが3種類あり(datetime.datetime, np.datetime64, Timestamp),それぞれの相互変換の方法を説明する.その後,エクセルからpd.read_excel でデータを読み込む際にセルの設定やカラムに何が入るかによってデータ型が異なる点の指摘とTimestamp 型への変換方法.最後に,日付データの図示方法を説明する. 目的としては,pandasにおいて日付データを処理出来るようになることである.pandasではTimestamp 型を用いて内部処理しているため,如何にしてTimestamp型に変換していくかがポイントである. 記事で使用したコードは,git clone https://github.com/akitoshiblog/

    [python] pandasの日付データ.変換,読み込み,図示まで | あきとしのスクラップノート
    teddy-g
    teddy-g 2021/02/19
    日付の相互変換を覚えておかないといちいち引っ掛かる。Pandasに突っ込んだ日付型と足し算引き算するならpd.Timestamp()使ってtimedelta(days=1)で割ってやる。
  • PythonのPandas Dataframeで日数差(timedelta)を整数と計算する方法 | KMT92

    Pythonで日数差を計算した際、整数型ではなくtimedelta型で結果が出力されました。このままでは整数型との計算ができませんので、timedelta型を整数型に変換する方法を調べました。また、timedelta型から変換せずに計算する方法も載せています。 なおこれがベストな方法とは限りませんので、ご了承ください。 <実行環境> Python3 (3.7.4) Jupyter Lab version 1.1.4 Windows 10 (64bit) ライブラリのインポート 必要なライブラリを以下の通りインポートします。 今回はCSVファイルの取り込みデータを想定し、データフレームに文字列型で作成された日付を取り扱います。 import pandas as pd from pandas import DataFrame, Series import datetime from datet

    teddy-g
    teddy-g 2021/02/17
    Pandasで日付型を扱うと結構めんどくさい。日数をカウントするときはdatetimeを引き算してtimedelta(days=1)で割るべし。
  • PandasでNaNの列を処理する

    Pandas でデータを扱うことで、データ分析の前処理が格段に楽になります。 列データにおける NaN の処理を例に、Pandasの便利さの説明をしたいと思います。 NaNとはNaN(Not a Number) は浮動小数点型における異常な値のことを意味します。 わかりやすい例で言うと、0での割り算が該当します。これは実数では表せないため、 NaN になります。 Pandas において NaN は 値が欠損している 場合によく遭遇する表現です。 具体例で見ていきましょう。以下のようなサンプルデータ(sample.csv)を作成します。 ID,名前,年齢,性別,趣味 1,小林,20,男,野球観戦 2,田中,35,女,飲み会 3,佐藤,29,男 4,鈴木,44,女,編み物データを read_csv 関数で読み出して DataFrame とした後、表示してみます。 1import pandas

    teddy-g
    teddy-g 2021/02/14
    DataFrameにNaNが入っているかどうかをチェックするにはisna().any()でチェック。NaNを埋めるのはfillna('埋め文字')。fillnaでは元のDataFrameは上書きされないので注意。
  • Python matplotlib 時系列グラフ(時間軸の設定) - Qiita

    データ読み込み データは2つのエクセルファイルから読み込みます。 ファイル calvert.xlsx 1つめのデータは下に示すもので、作例グラフの緑線を描くためのもの。 エクセルで以下のような形で収納されています。これは自分でデータを打ち込んだので、打ち込みやすいよう、日付(dd)、月(mm)、年(yy)、値(Q) という並びにしています。 欠測期間が長く、グラフの線を連続させたくない場合は、欠測期間中のある一日の日付とデータとして nan をいれることにより、グラフの線を結ばないで描画してくれます。 ファイル v-notch.xlsx 2つめのデータは下に示すもので、作例グラフの濃い青線を描くためのもの。 これは既存のエクセルファイルがあったのでそれを用いていますが、ここで使用するのは、カラム A (Date)とカラム N (RWL) だけです。 エクセルファイルからのデータ読み込み エ

    Python matplotlib 時系列グラフ(時間軸の設定) - Qiita
    teddy-g
    teddy-g 2021/01/12
    Pythonで時系列グラフ書くときの軸の目盛り設定とか。
  • Pandasでヒストグラムの作成や頻度を出力する方法

    ヒストグラムを作成するhist関数 基数の数を変更する (bins) ラベルを元にヒストグラムを作成する by 非数値データの頻度をヒストグラムで表示する まとめ 参考 Pandasにもヒストグラムを作成する関数hist()が存在します。この関数は値を表示するのではなく、ヒストグラムをmatplotlibを使ってプロットします。単純に頻度の数値データが欲しい場合はvalues_counts関数が便利な関数です。 記事では ヒストグラムの作成の仕方 value_counts関数を使った非数値データの頻度の出力方法 について解説します。 今回扱うサンプルデータはKaggleのチュートリアルからとってきたものです。 Titanic - Kaggle ここのtrain.csvという名前のファイルを使います。 (ダウンロードするためにはユーザー登録が必要ですが簡単なものなのでしておくことをお勧めし

    Pandasでヒストグラムの作成や頻度を出力する方法
    teddy-g
    teddy-g 2020/10/08
    Pandasでヒストグラムを書くときのポイントをいくつか。備忘まで。
  • pandasで=でコピーした場合とcopy()を使った場合の挙動の違い - Qiita

    Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article?

    pandasで=でコピーした場合とcopy()を使った場合の挙動の違い - Qiita
    teddy-g
    teddy-g 2020/10/05
    DataFrameを単純に代入すると参照渡しになるので必ずcopy()しないといけない。
  • Pandasでピボットテーブルを手軽に作成するpivot_table関数の使い方

    pivot_table関数 APIドキュメント params: returns: ピボットテーブルを作成する 複数要素を元に多層化させる データの個数をカウントする 列ごとと行ごとの合計を表示 複数の統計量を表示させる 関数を使って統計処理を指定する 欠損値を補完 欠損値があるデータも表示させる まとめ 参考 ピボットテーブルとはエクセルで有名な機能の1つで馴染みの方も多いかもしれません。 複雑なデータ構造を一目で分かりやすくする目的でよく使われるもので、クロス集計したものをまとめたものとなります。 2つの要素間の相関が分かりやすく現れるので使いこなせると重宝するでしょう。例えば男女間での科目ごとの平均点といったものをひと目で把握することができます。 Pandasでも手軽にピボットテーブルを作成できるpivot_table関数が実装されています。 そこで記事ではpivot_table関数

    Pandasでピボットテーブルを手軽に作成するpivot_table関数の使い方
    teddy-g
    teddy-g 2020/08/17
    PandasでEXCELのピボットと同じことができる。インデックスがmulti-indexになるのでその辺の値の操作は注意する必要がある。関数を柔軟に適用できるのでEXCELより凝った集計・統計を作りたいときは便利。
  • pandasにexcel出力のcsvを読ませる時に注意する点 - Qiita

    Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article?

    pandasにexcel出力のcsvを読ませる時に注意する点 - Qiita
    teddy-g
    teddy-g 2020/08/10
    WindowsのExcelを通したCSVファイルは'cp932'とエンコードを指定して読み込む必要がある。ひどい落とし穴。
  • pandas.DataFrame, SeriesとPythonのリストを相互に変換 | note.nkmk.me

    pandasのDataFrame, SeriesとPython組み込みのリストlistを相互に変換する方法を説明する。 なお、便宜上「変換」という言葉を使っているが、実際は元のオブジェクトはそのままで新たな型のオブジェクトが生成される。 DataFrame, SeriesとNumPy配列ndarrayの相互変換、DataFrameとSeriesの相互変換については以下の記事を参照。 関連記事: pandas.DataFrame, SeriesとNumPy配列ndarrayを相互に変換 関連記事: pandas.DataFrameとSeriesを相互に変換 記事のサンプルコードのpandasのバージョンは以下の通り。バージョンによって仕様が異なる可能性があるので注意。

    pandas.DataFrame, SeriesとPythonのリストを相互に変換 | note.nkmk.me
    teddy-g
    teddy-g 2020/07/11
    DataFrameとSeriesとリストをあっちいったりこっちいったり。なんか同じことをいつも調べてる気がする。
  • pandas.DataFrameの複数の列の文字列を結合して新たな列を生成 | note.nkmk.me

    pandas.DataFrameの複数の列の文字列を結合(連結)して新たな列を生成する方法について、以下の内容を説明する。 文字列の列同士の結合(連結) str.cat() +演算子 欠損値NaNの処理 文字列の列と数値の列の結合(連結) 連結した列をpandas.DataFrameに追加 例として、以下のデータを使用する。 import pandas as pd df = pd.read_csv('data/src/sample_pandas_normal.csv').head(3) print(df) # name age state point # 0 Alice 24 NY 64 # 1 Bob 42 CA 92 # 2 Charlie 18 CA 70

    pandas.DataFrameの複数の列の文字列を結合して新たな列を生成 | note.nkmk.me
    teddy-g
    teddy-g 2020/07/11
    Pandasで複数のカラムから文字列を取り出して単純にくっつけたいときはstr.cat。セパレータも指定できる。
  • NumPyでCSVファイルを読み込み・書き込み(入力・出力) | note.nkmk.me

    NumPyで、CSV(カンマ区切り)やTSV(タブ区切り)などのファイルを配列ndarrayとして読み込むにはnp.loadtxt()またはnp.genfromtxt()、ndarrayをCSVやTSVファイルとして出力(保存)するにはnp.savetxt()を使う。 便宜上、タイトルおよび見出しではCSVとしているが、カンマ区切りに限らず任意の文字列で区切られたテキストファイルを処理できる。 最後に触れるように、ヘッダー(見出し行)を含んでいたり、数値の列と文字列の列が混在していたりするファイルの読み書きにはpandasが便利。 また、他のアプリケーションで使う必要がなければNumPy独自のバイナリ形式で保存する方が楽。以下の記事を参照。 関連記事: NumPy配列ndarrayをバイナリファイル(npy, npz)で保存 記事のサンプルコードのNumPyのバージョンは以下の通り。バー

    NumPyでCSVファイルを読み込み・書き込み(入力・出力) | note.nkmk.me
    teddy-g
    teddy-g 2020/07/05
    NumPyのndarrayはsavetxtでdelimiter指定してCSVに保存する
  • http://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.as_matrix.html

    teddy-g
    teddy-g 2016/08/21
    pandasのDataFrameをArrayに変換するのはas_matrix()。read_csv()で読んだ後とかに便利。
  • 標準python、numpy、pandasを行ったり来たりするために① - Qiita

    Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article? # !/usr/bin/env python # -*- coding: utf-8 -*- # インポート import numpy as np import scipy as py import pandas as pd import itertools as it ''' 作成 ''' # リスト作成 list_value = [10,11,12] list_value Out[374]: [10, 11, 12] # タプル作成 tuple_value = (10,11,12) tuple_value Out[375]: (10

    標準python、numpy、pandasを行ったり来たりするために① - Qiita
    teddy-g
    teddy-g 2016/03/02
    Python標準、Numpy、Pandasのでリストとかタプルとか配列とかデータフレームとかを相互変換する為のTips。まさに行ったり来たり。
  • Python pandas データ選択処理をちょっと詳しく <中編> - StatsFragments

    こちらの続き。 上の記事では bool でのデータ選択について 最後にしれっと書いて終わらせたのだが、一番よく使うところなので中編として補足。 まず __getitem__ や ix の記法では、次のような指定によって 行 / 列を選択することができた。 index, columns のラベルを直接指定しての選択 index, columns の番号(順序)を指定しての選択 index, columns に対応する bool のリストを指定しての選択 ここでは上記の選択方法をベースとして、ユースケースごとに Index や Series のプロパティ / メソッドを使ってできるだけシンプルにデータ選択を行う方法をまとめる。 補足 一部の内容はこちらの記事ともかぶる。下の記事のほうが簡単な内容なので、必要な方はまずこちらを参照。 簡単なデータ操作を Python pandas で行う - S

    Python pandas データ選択処理をちょっと詳しく <中編> - StatsFragments
    teddy-g
    teddy-g 2016/02/27
    Pandas使った色々なデータフィルタ処理について。特定条件に合致するカラムやインデックスの処理、ソート、重複削除、等々。
  • pandasでよく使う文法まとめ - Qiita

    Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article?

    pandasでよく使う文法まとめ - Qiita
    teddy-g
    teddy-g 2016/02/25
    Pandasのデータフレーム処理について。NaNを削除したり、定数で穴埋めしたり、Interpolateしたり、GroupByしたり、resampleしたりと色々と使える機能がある。
  • Python Pandasでのデータ操作の初歩まとめ − 前半:データ作成&操作編 - Qiita

    Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article?

    Python Pandasでのデータ操作の初歩まとめ − 前半:データ作成&操作編 - Qiita
    teddy-g
    teddy-g 2016/02/25
    Pandasのデータフレーム処理について。地味に列名とかインデックス名とか忘れがち。
  • Pythonデータ分析系ライブラリのインストール Windows / Mac - Librabuch

    PyCon JP 2014 チュートリアル「PyData入門」のお知らせ | Librabuch 上記のエントリで告知した通り、2014年09年12日(金)に行われるチュートリアルの講師を務める御縁を頂いています。29枚あったチケットは完売のようで、若干プレッシャーの高まりを感じる今日この頃です。 さて、チュートリアル開催にあたり、利用するライブラリ群のインストール方法をOS毎に確認していたのでこちらにも備忘録として残しておきます。(参加者の方々には専用経路で別途ご案内差し上げます) 導入手順 共通 WindowsMac版 動作確認 導入したいもの 今回導入したいライブラリは下記の通りです。 NumPy Scipy Pandas scikit-learn matplotlib IPython 共通手順 Python3.4.1をインストールしてPATHを通しておきます。(手順問わず) p

    Pythonデータ分析系ライブラリのインストール Windows / Mac - Librabuch
    teddy-g
    teddy-g 2016/02/20
    Python+etcをWindowsに入れる方法について。最初からここ見りゃよかったか。
  • Principal components analysis using pandas dataframe

    teddy-g
    teddy-g 2016/02/17
    PandasとNumpyとScikit-Learn使ってPCAの簡単なサンプル。こいつ、動くぞ。