[B! python][Python][pandas] [2ページ] teddy-gのブックマーク

teddy-g id:teddy-g

pythonとPythonとpandasに関するteddy-gのブックマーク (39)

lambda式って超便利 - 雑記 in hibernation
コーディングの文法でlambda式ってあるじゃないですか。あれ、何が有り難いのかイマイチよくわかってなかったんですけど、その恩恵がようやく理解できたのでPythonでのlambda式の使い方について備忘録にします。あんまり細かいtipsは記事化してもキリがないなあとは思っているので、コーディングの諸々に関するネタはあんまり書かないつもりではいるのですが、まあ今回はブログの賑やかしにでもなれば、くらいの感じで。なお、今回主に参考にさせていただいた記事はこちらです。 note.nkmk.me qiita.com 基礎 of 基礎まずlambda式の記法から。ざっくりいうと「関数のお手軽版」みたいな的な感じらしい。普通に関数を宣言する場合とlambda式を用いた場合との対応関係はこんな感じです。 defで定義する関数を使用する場合 # 2変数の和を返す関数 def sum_func(a,b
teddy-g 2021/02/21
DataFrameのあれとこれをそれしてソートしたいときは一発でできなくて、lambda式でカラムを追加してsort_valuesしないといけない。

python

pandas

tips
リンク
[python] pandasの日付データ．変換，読み込み，図示まで | あきとしのスクラップノート
pandasで日付データを操作する際に必要な知識をまとめた．初めに，pythonにおける日付を取り扱うデータ型に代表的なものが3種類あり(datetime.datetime, np.datetime64, Timestamp)，それぞれの相互変換の方法を説明する．その後，エクセルからpd.read_excel でデータを読み込む際にセルの設定やカラムに何が入るかによってデータ型が異なる点の指摘とTimestamp 型への変換方法．最後に，日付データの図示方法を説明する．目的としては，pandasにおいて日付データを処理出来るようになることである．pandasではTimestamp 型を用いて内部処理しているため，如何にしてTimestamp型に変換していくかがポイントである．本記事で使用したコードは，git clone https://github.com/akitoshiblog/
teddy-g 2021/02/19
日付の相互変換を覚えておかないといちいち引っ掛かる。Pandasに突っ込んだ日付型と足し算引き算するならpd.Timestamp()使ってtimedelta(days=1)で割ってやる。

python

pandas

tips
リンク
PythonのPandas Dataframeで日数差（timedelta）を整数と計算する方法 | KMT92
Pythonで日数差を計算した際、整数型ではなくtimedelta型で結果が出力されました。このままでは整数型との計算ができませんので、timedelta型を整数型に変換する方法を調べました。また、timedelta型から変換せずに計算する方法も載せています。なおこれがベストな方法とは限りませんので、ご了承ください。＜実行環境＞ Python3 (3.7.4) Jupyter Lab version 1.1.4 Windows 10 (64bit) ライブラリのインポート必要なライブラリを以下の通りインポートします。今回はCSVファイルの取り込みデータを想定し、データフレームに文字列型で作成された日付を取り扱います。 import pandas as pd from pandas import DataFrame, Series import datetime from datet
teddy-g 2021/02/17
Pandasで日付型を扱うと結構めんどくさい。日数をカウントするときはdatetimeを引き算してtimedelta(days=1)で割るべし。

python

pandas

tips
リンク
PandasでNaNの列を処理する
Pandas でデータを扱うことで、データ分析の前処理が格段に楽になります。列データにおける NaN の処理を例に、Pandasの便利さの説明をしたいと思います。 NaNとはNaN（Not a Number）は浮動小数点型における異常な値のことを意味します。わかりやすい例で言うと、0での割り算が該当します。これは実数では表せないため、 NaN になります。 Pandas において NaN は値が欠損している場合によく遭遇する表現です。具体例で見ていきましょう。以下のようなサンプルデータ（sample.csv）を作成します。 ID,名前,年齢,性別,趣味 1,小林,20,男,野球観戦 2,田中,35,女,飲み会 3,佐藤,29,男 4,鈴木,44,女,編み物データを read_csv 関数で読み出して DataFrame とした後、表示してみます。 1import pandas
teddy-g 2021/02/14
DataFrameにNaNが入っているかどうかをチェックするにはisna().any()でチェック。NaNを埋めるのはfillna('埋め文字')。fillnaでは元のDataFrameは上書きされないので注意。

python

pandas

tips

datascience

bigdata
リンク
Python matplotlib 時系列グラフ（時間軸の設定） - Qiita
データ読み込みデータは２つのエクセルファイルから読み込みます。ファイル calvert.xlsx １つめのデータは下に示すもので、作例グラフの緑線を描くためのもの。エクセルで以下のような形で収納されています。これは自分でデータを打ち込んだので、打ち込みやすいよう、日付(dd)、月(mm)、年(yy)、値(Q) という並びにしています。欠測期間が長く、グラフの線を連続させたくない場合は、欠測期間中のある一日の日付とデータとして nan をいれることにより、グラフの線を結ばないで描画してくれます。ファイル v-notch.xlsx ２つめのデータは下に示すもので、作例グラフの濃い青線を描くためのもの。これは既存のエクセルファイルがあったのでそれを用いていますが、ここで使用するのは、カラム A (Date)とカラム N (RWL) だけです。エクセルファイルからのデータ読み込みエ
teddy-g 2021/01/12
Pythonで時系列グラフ書くときの軸の目盛り設定とか。

python

pandas

matplotlib

graph

visualization
リンク
Pandasでヒストグラムの作成や頻度を出力する方法
ヒストグラムを作成するhist関数基数の数を変更する (bins) ラベルを元にヒストグラムを作成する by 非数値データの頻度をヒストグラムで表示するまとめ参考 Pandasにもヒストグラムを作成する関数hist()が存在します。この関数は値を表示するのではなく、ヒストグラムをmatplotlibを使ってプロットします。単純に頻度の数値データが欲しい場合はvalues_counts関数が便利な関数です。本記事ではヒストグラムの作成の仕方 value_counts関数を使った非数値データの頻度の出力方法について解説します。今回扱うサンプルデータはKaggleのチュートリアルからとってきたものです。 Titanic - Kaggle ここのtrain.csvという名前のファイルを使います。（ダウンロードするためにはユーザー登録が必要ですが簡単なものなのでしておくことをお勧めし
teddy-g 2020/10/08
Pandasでヒストグラムを書くときのポイントをいくつか。備忘まで。

python

python3

pandas

data

bigdata

datascience

statistics

tips
リンク
pandasで=でコピーした場合とcopy()を使った場合の挙動の違い - Qiita
Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article?
teddy-g 2020/10/05
DataFrameを単純に代入すると参照渡しになるので必ずcopy()しないといけない。

python

pandas

tips
リンク
Pandasでピボットテーブルを手軽に作成するpivot_table関数の使い方
pivot_table関数 APIドキュメント params: returns: ピボットテーブルを作成する複数要素を元に多層化させるデータの個数をカウントする列ごとと行ごとの合計を表示複数の統計量を表示させる関数を使って統計処理を指定する欠損値を補完欠損値があるデータも表示させるまとめ参考ピボットテーブルとはエクセルで有名な機能の1つで馴染みの方も多いかもしれません。複雑なデータ構造を一目で分かりやすくする目的でよく使われるもので、クロス集計したものをまとめたものとなります。 2つの要素間の相関が分かりやすく現れるので使いこなせると重宝するでしょう。例えば男女間での科目ごとの平均点といったものをひと目で把握することができます。 Pandasでも手軽にピボットテーブルを作成できるpivot_table関数が実装されています。そこで本記事ではpivot_table関数
teddy-g 2020/08/17
PandasでEXCELのピボットと同じことができる。インデックスがmulti-indexになるのでその辺の値の操作は注意する必要がある。関数を柔軟に適用できるのでEXCELより凝った集計・統計を作りたいときは便利。

python

data

datascience

statistics

stats

tips

pandas
リンク
pandasにexcel出力のcsvを読ませる時に注意する点 - Qiita
Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article?
teddy-g 2020/08/10
WindowsのExcelを通したCSVファイルは'cp932'とエンコードを指定して読み込む必要がある。ひどい落とし穴。

python

pandas

Windows

encode

encoding

sjis

shift-jis
リンク
pandas.DataFrame, SeriesとPythonのリストを相互に変換 | note.nkmk.me
pandasのDataFrame, SeriesとPython組み込みのリストlistを相互に変換する方法を説明する。なお、便宜上「変換」という言葉を使っているが、実際は元のオブジェクトはそのままで新たな型のオブジェクトが生成される。 DataFrame, SeriesとNumPy配列ndarrayの相互変換、DataFrameとSeriesの相互変換については以下の記事を参照。関連記事: pandas.DataFrame, SeriesとNumPy配列ndarrayを相互に変換関連記事: pandas.DataFrameとSeriesを相互に変換本記事のサンプルコードのpandasのバージョンは以下の通り。バージョンによって仕様が異なる可能性があるので注意。
teddy-g 2020/07/11
DataFrameとSeriesとリストをあっちいったりこっちいったり。なんか同じことをいつも調べてる気がする。

pandas

python

tips
リンク
pandas.DataFrameの複数の列の文字列を結合して新たな列を生成 | note.nkmk.me
pandas.DataFrameの複数の列の文字列を結合（連結）して新たな列を生成する方法について、以下の内容を説明する。文字列の列同士の結合（連結） str.cat() +演算子欠損値NaNの処理文字列の列と数値の列の結合（連結）連結した列をpandas.DataFrameに追加例として、以下のデータを使用する。 import pandas as pd df = pd.read_csv('data/src/sample_pandas_normal.csv').head(3) print(df) # name age state point # 0 Alice 24 NY 64 # 1 Bob 42 CA 92 # 2 Charlie 18 CA 70
teddy-g 2020/07/11
Pandasで複数のカラムから文字列を取り出して単純にくっつけたいときはstr.cat。セパレータも指定できる。

python

pandas

dataframe

datascience

machinelearning
リンク
NumPyでCSVファイルを読み込み・書き込み（入力・出力） | note.nkmk.me
NumPyで、CSV（カンマ区切り）やTSV（タブ区切り）などのファイルを配列ndarrayとして読み込むにはnp.loadtxt()またはnp.genfromtxt()、ndarrayをCSVやTSVファイルとして出力（保存）するにはnp.savetxt()を使う。便宜上、タイトルおよび見出しではCSVとしているが、カンマ区切りに限らず任意の文字列で区切られたテキストファイルを処理できる。最後に触れるように、ヘッダー（見出し行）を含んでいたり、数値の列と文字列の列が混在していたりするファイルの読み書きにはpandasが便利。また、他のアプリケーションで使う必要がなければNumPy独自のバイナリ形式で保存する方が楽。以下の記事を参照。関連記事: NumPy配列ndarrayをバイナリファイル（npy, npz）で保存本記事のサンプルコードのNumPyのバージョンは以下の通り。バー
teddy-g 2020/07/05
NumPyのndarrayはsavetxtでdelimiter指定してCSVに保存する

python

numpy

pandas
リンク
http://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.as_matrix.html
teddy-g 2016/08/21
pandasのDataFrameをArrayに変換するのはas_matrix()。read_csv()で読んだ後とかに便利。

python

pandas

numpy
リンク
標準python、numpy、pandasを行ったり来たりするために① - Qiita
Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article? # !/usr/bin/env python # -*- coding: utf-8 -*- # インポート import numpy as np import scipy as py import pandas as pd import itertools as it ''' 作成 ''' # リスト作成 list_value = [10,11,12] list_value Out[374]: [10, 11, 12] # タプル作成 tuple_value = (10,11,12) tuple_value Out[375]: (10
teddy-g 2016/03/02
Python標準、Numpy、Pandasのでリストとかタプルとか配列とかデータフレームとかを相互変換する為のTips。まさに行ったり来たり。

python

numpy

pandas

scikit-learn

scipy

machinelearning

bigdata

tips
リンク
Python pandas データ選択処理をちょっと詳しく <中編> - StatsFragments
こちらの続き。上の記事では bool でのデータ選択について最後にしれっと書いて終わらせたのだが、一番よく使うところなので中編として補足。まず __getit em__ や ix の記法では、次のような指定によって行 / 列を選択することができた。 index, columns のラベルを直接指定しての選択 index, columns の番号(順序)を指定しての選択 index, columns に対応する bool のリストを指定しての選択ここでは上記の選択方法をベースとして、ユースケースごとに Index や Series のプロパティ / メソッドを使ってできるだけシンプルにデータ選択を行う方法をまとめる。補足一部の内容はこちらの記事ともかぶる。下の記事のほうが簡単な内容なので、必要な方はまずこちらを参照。簡単なデータ操作を Python pandas で行う - S
teddy-g 2016/02/27
Pandas使った色々なデータフィルタ処理について。特定条件に合致するカラムやインデックスの処理、ソート、重複削除、等々。

python

pandas

tips

hacks
リンク
pandasでよく使う文法まとめ - Qiita
Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article?
teddy-g 2016/02/25
Pandasのデータフレーム処理について。NaNを削除したり、定数で穴埋めしたり、Interpolateしたり、GroupByしたり、resampleしたりと色々と使える機能がある。

python

pandas
リンク
Python Pandasでのデータ操作の初歩まとめ − 前半：データ作成＆操作編 - Qiita
Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article?
teddy-g 2016/02/25
Pandasのデータフレーム処理について。地味に列名とかインデックス名とか忘れがち。

python

pandas
リンク
Pythonデータ分析系ライブラリのインストール Windows / Mac - Librabuch
PyCon JP 2014 チュートリアル「PyData入門」のお知らせ | Librabuch 上記のエントリで告知した通り、2014年09年12日（金）に行われるチュートリアルの講師を務める御縁を頂いています。29枚あったチケットは完売のようで、若干プレッシャーの高まりを感じる今日この頃です。さて、チュートリアル開催にあたり、利用するライブラリ群のインストール方法をOS毎に確認していたのでこちらにも備忘録として残しておきます。（参加者の方々には専用経路で別途ご案内差し上げます）導入手順共通 Windows版 Mac版動作確認導入したいもの今回導入したいライブラリは下記の通りです。 NumPy Scipy Pandas scikit-learn matplotlib IPython 共通手順 Python3.4.1をインストールしてPATHを通しておきます。（手順問わず） p
teddy-g 2016/02/20
Python＋etcをWindowsに入れる方法について。最初からここ見りゃよかったか。

python

windows

scikit-learn

numpy

scipy

pandas

ipython
リンク
Principal components analysis using pandas dataframe
teddy-g 2016/02/17
PandasとNumpyとScikit-Learn使ってPCAの簡単なサンプル。こいつ、動くぞ。

python

pandas

numpy

scikit-learn

machinelearning

bigdata

statistics
リンク
前のページ 1 2