pandas.DataFrameから任意の条件を満たす行を抽出するにはquery()メソッドを使う。比較演算子や文字列メソッドによる条件指定、複数条件の組み合わせなどを簡潔に記述できる。 pandas.DataFrame.query — pandas 2.1.4 documentation Indexing and selecting data - The query() Method — pandas 2.1.4 documentation ブーリアンインデックス(Boolean indexing)による条件指定については以下の記事を参照。 関連記事: pandasで複数条件のAND, OR, NOTから行を抽出(選択) 特定の型の列を抽出したり、行名・列名で行・列を抽出したりすることも可能。 関連記事: pandas.DataFrameから特定の型の列を抽出・除外するselect_dt
pandasでDataFrameの行・列を任意の順番に並べ替えるにはreindex()を使う。Seriesにも同様のメソッドがある。ラベル(行名・列名)のリストを指定する。 pandas.DataFrame.reindex — pandas 2.1.4 documentation pandas.Series.reindex — pandas 2.1.4 documentation 別のDataFrameの行・列と同じように並べるreindex_like()というメソッドもある。 pandas.DataFrame.reindex_like — pandas 2.1.4 documentation pandas.Series.reindex_like — pandas 2.1.4 documentation いずれのメソッドでも、既存の行・列を並べ替えるだけでなく、新たな行・列を追加することが
CSVに読み書きするなら「Pandas」が定番らしい Pythonで配列(list)を簡単にCSV化する方法としては「Pandas」を使うのが一般的。 「Pandas」を使うことで簡単にCSVの読み書きが可能となる。 今回はは配列リストを書き込むサンプルコードを紹介。 サンプルコード import pandas as pd listA = ["0001", "TARO", "man"] listB = ["0002", "HANAKO", "woman"] Coulum = ['id', 'name', 'sex'] # データフレームを作成 df = pd.DataFrame([listA,listB], columns=Coulum) # CSV ファイル出力 df.to_csv("pandas_test.csv") #結果の表示 df 出力ファイル csv出力 トラブルシューティング
pandasでCSVファイルを読み込むときにUnicodeDecodeErrorが出た、そんなときは以下のどれかを試しておけばまぁ上手くいくはず......みたいな備忘録 import pandas as pd 普通 選択肢1 選択肢2 選択肢3 選択肢4 参考文献 普通 df = pd.read_csv(path, encoding="utf-8") pd.read_csvはデフォルトでencoding=Noneですが、中身の処理的にはencoding="utf-8"と同じです。 選択肢1 df = pd.read_csv(path, encoding="utf-8-sig") Excelで編集されたCSVファイルとかはよくこれを使うことになります。 選択肢2 df = pd.read_csv(path, encoding="shift-jis") 日本語のCSVファイルだとたまに使いま
So I completely understand how to use resample, but the documentation does not do a good job explaining the options. So most options in the resample function are pretty straight forward except for these two: rule : the offset string or object representing target conversion how : string, method for down- or re-sampling, default to ‘mean’ So from looking at as many examples as I found online I can s
時系列データを扱う際に、特定の時間帯のみを切り出したい場合や、特定の条件が合致している部分のみを抽出したい場合があります。ここでは東京のアメダスデータをPandasを利用して抽出操作を行う際のメモです。 以降、データの表示のために .head() や .tail() を付けている箇所がありますが、操作するだけであれば削除して構いません。 ライブラリとデータの読み込み import numpy as np import pandas as pd %matplotlib inline # データの読み込み data_tokyo = pd.read_csv('./tokyo_amedas.csv', sep=',', index_col='date', parse_dates=['date'], encoding='SHIFT-JIS') data_tokyo = data_tokyo.drop
to_datetime関数 文字列からフォーマットを指定して変換する 基本的なフォーマットなら関数が検知してくれる フォーマットの指定の仕方 UNIX時間からの変換 パフォーマンス 複数列のデータから作成 まとめ 参考 今回はPandasにおいて文字列データや数値データを日付データであるdatetime64型に変換する方法についてまとめていきます。 datetime64型はPythonにあるtimestamp型を継承したクラスとなっています。Pandasでの日付の扱いは、時系列データを分析する上で役に立つので覚えておくと良いでしょう。 to_datetime関数を使って文字列や数値と日付との変換していきたいと思います。 to_datetime関数 文字列からフォーマットを指定して変換する まずは"2019/04/07"のようにフォーマットが定まっている場合についてです。 基本的なフォーマッ
共通のデータ列を持つ複数のpandas.DataFrameをその列の値に従って結合するには、pandas.merge()関数またはpandas.DataFrameのmerge()メソッドを使う。 pandas.merge — pandas 2.0.3 documentation pandas.DataFrame.merge — pandas 2.0.3 documentation インデックス列を基準にする場合はpandas.DataFrameのjoin()メソッドも使える。 pandas.DataFrame.join — pandas 2.0.3 documentation pandas.DataFrameを縦横に連結するにはpandas.concat()関数を使う。 関連記事: pandas.DataFrame, Seriesを連結するconcat 本記事のサンプルコードのpandas
データを分析する上では、通常は1つのDataFrameだけではなく、複数のDataFrameを組み合わせて、データを確認・分析していく必要があります。その際に必要となるのが、結合の処理です。 DataFrameの結合方法を、データベースにおけるSQLでのテーブルの結合方法に例えると、結合には行単位の連結であるUNION(ユニオン)と、列単位の連結であるJOIN(ジョイン)の2種類があり、それぞれ次のようなものになります。 行単位の連結(UNION):同じ列をもつDataFrameを縦(行を増やす)方向に連結する。列単位の連結(JOIN):結合するキーとなる列を元に、DataFrameを横(列を増やす)方向に連結する。 この記事では、DataFrameの結合方法の1つである列単位の結合(JOIN)について学んでいきましょう。Pandasではmerge()を利用して、DataFrameに対して
import pandas as pd import datetime from dateutil.parser import parse 日付と時刻を扱うには主に[cci lang="python"]datetime.datetime[/cci]型([cci lang="python"]datetime[/cci]型と略します)を使います.日付や時刻と認識できる様々な文字列を解釈し[cci lang="python"]datetime[/cci]型に変換するのが[cci lang="python"]dateutil[/cci]パッケージの[cci lang="python"]parser.parse[/cci]メソッドです.
pandas.DataFrameの日時(日付・時間)を表した列を操作する方法を説明する。文字列とdatetime64[ns]型との相互変換、年月日、時刻を数値として抽出する方法など。 以下の内容について説明する。 文字列をdatetime64[ns]型(Timestamp型)に変換: to_datetime() Timestamp型の属性・メソッド dtアクセサで列全体を一括処理 年月日、曜日などを抽出 任意のフォーマットで日時を文字列に変換 Pythonのdataframe型、NumPyのdatetime64[ns]型の配列に変換 dtに用意されていないメソッドの場合 DatetimeIndexの場合 ファイルからの読み込み時に文字列をdatetime64[ns]型に変換 datetime64[ns]型をインデックスに指定し、時系列データとして処理する方法およびその活用法は以下の記事を参
はじめに 機械学習や深層学習が人気の昨今ですが、それらのモデルの精度に最もクリティカルに影響するのはインプットするデータの質です。データの質は、データを適切に把握し、不要なデータを取り除いたり、必要なデータを精査する前処理を行うことで高めることができます。 本頁では、データ処理の基本ツールとしてPandasの使い方を紹介します。Pandasには便利な機能がたくさんありますが、特に分析業務で頻出のPandas関数・メソッドを重点的に取り上げました。 Pandasに便利なメソッドがたくさんあることは知っている、でもワイが知りたいのは分析に最低限必要なやつだけなんや…!、という人のためのPandasマニュアルです。 また、単に機能を説明するだけでは実際の処理動作がわかりにくいため、ここではSIGNATE(旧DeepAnalytics)のお弁当の需要予想を行うコンペのデータを拝借し、このデータに対
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く