並び順

ブックマーク数

期間指定

  • から
  • まで

161 - 200 件 / 325件

新着順 人気順

pandasの検索結果161 - 200 件 / 325件

  • Pandas で SQLite の Upsert(車輪の再開発) - Qiita

    PandasでUpsertが待ちきれず、自作してみた PandasのSql Upsertを試してみた を見て、Upsert なる言い方を知った(SQLiteの"INSERT OR REPLACE"は大昔使っていたけど) これこれ、と思ったけど、まだリリースされていないいし(21年4月現在)、なんとPandas の to_sqlだと、primary keyやunique keyが作れない。 (SQLTable/SQLiteTableにはkeysで指定できるけど、to_sqlにない。Why?) とりあえず、下記を参考にして、SQLite専用だけどUpsertを作ってみた。 Python Pandas to_sql, how to create a table with a primary key? def upsert(frame, name: str, unique_index_label,

      Pandas で SQLite の Upsert(車輪の再開発) - Qiita
    • Pandas入門講座|13.時系列データの扱い方【PythonのライブラリPandas】

      こんにちは。キノコードです。 この動画では、時系列データ処理について学びます。 時系列データとは、時間を軸に記録されたデータの集まりです。 時系列データの代表的なものには、人口推移のデータや気温や湿度などの気象データ、株価のデータなどがあります。 Pandasでは、データフレームのインデックスを日付型にすることで時系列データとして扱えるようになります。 こうすることで、指定した日数での集計、月末だけの集計、週次や月次の集計などが簡単にできます。 株価などの経済データを好きな期間で分析することもできますし、移動平均や指標となる数値を追加すればさらに深い分析まで可能になります。 このレッスンでは、あるアパレル会社の販売データを用いて説明をします。 準備として、キノコードのサイトに用意しているcsvファイルを2つ、ダウンロードしてください。 そして、学習用のJupyter Labを保存しているフ

        Pandas入門講座|13.時系列データの扱い方【PythonのライブラリPandas】
      • pandasで欠損値nanじゃないデータを抽出する方法 - Qiita

        Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article?

          pandasで欠損値nanじゃないデータを抽出する方法 - Qiita
        • 「データに関する堅牢性と可読性を向上させるpydanticとpanderaの活用方法の提案」の質疑応答 - AREKORE

          先日、PyCon JP 2022にて「データに関する堅牢性と可読性を向上させるpydanticとpanderaの活用方法の提案」という題で発表をしました。 2022.pycon.jp 発表資料は以下です。 speakerdeck.com とてもありがたいことに、想像以上に多くの方に発表を聞いていただくことができました。今回の発表について、確認しただけでも以下のような反響を得ることができました。ありがとうございます。 Twitterにおいて約50件のツイート Slidoにおいて約20件の質問 ただし、質問については、発表後の時間が短かったこともあり、回答しきれないものも多く、整理した情報や意見を十分に伝えることができませんでした。そこで、本記事では、いただいた質問に基づき、質問を整理します。そして、それらの質問に対する回答という形式で、発表を補足していきます。※本記事は随時更新予定です。

            「データに関する堅牢性と可読性を向上させるpydanticとpanderaの活用方法の提案」の質疑応答 - AREKORE
          • 【Python】pandasのデータフレームを作成する方法6つ

            タグ .__doc__ターミナルディレクトリディープラーニングテーマデータ型データベースデータサイエンティストデータサイエンスダブルクォートタプルタグセルの結合デバッグセットスラッグスライススペーススタイルシート言語シングルクォートショートカットキーシェルシーケンスサーバーディレクトリツリーデフォルト値コメントアウトブール演算子プリントスクリーンプラグインブラウザフォント名フォントフォルダファンクションキーファイル操作ファイルパスファイルバリューデメリットパラメータパディングパッケージバックスラッシュバックエンドバイナリーパーマリンクドライブドメインドキュメンテーション文字列コンテナコメントプログラミング言語whileyaxisxaxiswriteメソッドWorksheetオブジェクトworksheets属性workonWorkbookオブジェクトwordpresswithwidth属性W

              【Python】pandasのデータフレームを作成する方法6つ
            • Huggingface Datasets 入門 (2) - データセットの読み込み|npaka

              以下の記事を参考に書いてます。 ・Huggingface Datasets - Loading a Dataset ・Huggingface Transformers 4.1.1 ・Huggingface Datasets 1.2 1. データセットの読み込み「Huggingface Datasets」は、様々なデータソースからデータセットを読み込むことができます。 (1) Huggingface Hub (2) ローカルファイル (CSV/JSON/テキスト/pandas pickled データフレーム) (3) インメモリデータ (Python辞書/pandasデータフレームなど) 2. Huggingface Hub からのデータセットの読み込みNLPタスク用の135を超えるデータセットが、「HuggingFace Hub」で提供されています。「Huggingface Dataset

                Huggingface Datasets 入門 (2) - データセットの読み込み|npaka
              • コピペで使える!Bokehで時系列データの可視化をしよう! - Qiita

                # データの読み込み df = pd.read_csv(r'sample_data.csv',names=['date','pointA','pointB','pointC'],skiprows=[0],engine='python',index_col=[0],parse_dates=[0]) df.index.freq = 'H' df.dropna().head() # 適宜'pointA'などの文字列を変更してください。 pointA = 'pointA' pointB = 'pointB' pointC = 'pointC' # グラフの設定 p = figure(title='タイトル', # タイトルを入力 x_axis_type='datetime', # x軸が時系列のindexを持っている場合、datetimeを指定 x_axis_label='timestamp',

                  コピペで使える!Bokehで時系列データの可視化をしよう! - Qiita
                • pythonで2つのデータフレーム間の違い(差集合)をみつける方法 – Pandasで2つのデータフレーム(pandas.DataFrame)を比較して片方にしか無い値をピックアップ

                  Find the difference (set difference) between two dataframes in python – StackOverflow 回答が色々おかしい.「pandas.DataFrame.isin(pandas.DataFrame)」はindex/columns対応付けで比較されるので,明らかに処理として間違い.numpy.setdiff1dは入力をravelして1D同士で差集合を取るので,やはり不適当.今のテストケースではどちらもたまたま答えが合うだけ(論理的に誤りがある).全要素の差集合を取りたい場合はリーズナブルだが,基本的にデータフレームの比較という時,データには何かしらの構造がある筈なので,これを使う事はありえない. 「データフレームの比較」といっても,何を仮定するのか,できるのかで幾つかのケースに分けられる.一般に,行間比較や列間比較,何

                  • Introduction to Pandas apply, applymap and map

                    An intuitive Pandas tutorial for how to apply a function using apply() and applymap(), and how to substitute value using map()

                      Introduction to Pandas apply, applymap and map
                    • 【Flask Pandas】売上データからドロップダウンメニューで担当者を指定して抽出、ページに表示する - よちよちpython

                      今回は、PandasのデータフレームをWebページに表示させます。 売上データから担当者を指定して表示させるアプリ。 実行環境 アプリの仕様・操作手順など アプリの操作手順 ディレクトリ構成とファイルの中身 app.py (Flaskを動かす用) uriage_data.py (データフレーム生成用) base.html (htmlファイルのメタ情報) index.html (ホームページ) result.html (指定担当者の表出力ページ) style.css (指定担当者売上テーブルの装飾用) 実行 おわりに 実行環境 Windows10 Anaconda 4.11.0 Python3.9.7 VSCode 1.63.2 外部ライブラリ Flask 2.0.2 colorama 0.4.4 (Windowsはたぶん手動でインストールが必要 Pandas 1.3.5 アプリの仕様・操作

                        【Flask Pandas】売上データからドロップダウンメニューで担当者を指定して抽出、ページに表示する - よちよちpython
                      • pandas:indexを指定してSeriesを作成する方法

                        indexを指定してSeriesを作成するには以下のようにします。 indexを省略した場合は(0, 1, 2, …, n)が割り当てられます。 import pandas as pd series1 = pd.Series([1, 2, 3], index=["a", "b", "c"]) print(series1) # a 1 # b 2 # c 3 # dtype: int64 series2 = pd.Series([1, 2, 3]) print(series2) # 0 1 # 1 2 # 2 3 # dtype: int64

                          pandas:indexを指定してSeriesを作成する方法
                        • PandasにおけるDataFrameの複数の列に関数を適用する

                          ■Python 今回のPythonのバージョンは、「3.8.5」を使用しています。(Windows10)(pythonランチャーでの確認) ■DataFrameを作成するDataFrameの複数の列に関数を適用する前に、DataFrameを作成します。 ■コードimport pandas as pd data = { '名前1':['佐藤','吉田','松岡','朝永','永野'], '名前2':['佐々木','成田','岡本','須賀','藤丘'], } df = pd.DataFrame(data) print(df)インポートでPandasモジュールを呼び出します。dataという変数を作成し、その中に「名前1」、「名前2」の2つの列を格納します。 格納後、dfという変数を作成し、pd.DataFrame()と記述し、DataFrameを作成。作成後、dfという変数に格納します。 ■実

                            PandasにおけるDataFrameの複数の列に関数を適用する
                          • pandas 1.0以降での変更点を一部紹介します | フューチャー技術ブログ

                            SAIGの小橋昌明です。業務ではずっとPythonを書いています。 今回は Python連載 の6日目です。 Pythonを使ってデータ分析をする上で無くてはならないのがpandasです。リリースノートを見てみると、メジャーアップデートによる1.0.0 がリリースされたのが2020年の1月で、現時点での最新は1.3.3です。 ただ、1.0以降の機能で私自身が使ってるものは何だろうかと考えてみると、query関数のエスケープシーケンスだけしか使っていない気がします。DataFrameから条件を指定してデータを抽出するquery関数は、列名に記号を含んでいたりすると上手く動かないことがありますが、v1.0以降はbacktick記号 (` ` )で囲むと動くようになりました。リリースノートはこちら。 しかし上記は新しい機能のごく一部にすぎません。せっかくバージョンアップされているのに、機能を使わ

                              pandas 1.0以降での変更点を一部紹介します | フューチャー技術ブログ
                            • PythonでリストからPandasのSeriesを作成する

                              ■Python 今回のPythonのバージョンは、「3.8.5」を使用しています。(Windows10)(pythonランチャーでの確認) ■リストを作成するPandasのSeriesを作成するために、まずはリストを作成します。 ■コードfor_example = ['Apple','Banana','Strawberry','melon','Grape','peach'] print(for_example)今回はfor_exampleというリストを作成し、その中に果物の要素を追加しました。 ■PandasのSeriesを作成するリストの用意ができましたので、PandasのSeriesを作成してみます。なお、PandasモジュールはPythonの標準ライブラリではありませんので、事前にインストールする必要はありません。 ■コードimport pandas as pd for_exampl

                                PythonでリストからPandasのSeriesを作成する
                              • めっちゃ使えるpandasのメモリサイズをグッと抑える汎用的な関数 - Qiita

                                import pandas as pd import numpy as np def reduce_mem_usage(df, verbose=True): numerics = ['int16', 'int32', 'int64', 'float16', 'float32', 'float64'] start_mem = df.memory_usage().sum() / 1024**2 for col in df.columns: col_type = df[col].dtypes if col_type in numerics: c_min = df[col].min() c_max = df[col].max() if str(col_type)[:3] == 'int': if c_min > np.iinfo(np.int8).min and c_max < np.iinfo(

                                  めっちゃ使えるpandasのメモリサイズをグッと抑える汎用的な関数 - Qiita
                                • PythonでPandasとSQLAlchemyを使用しSQLからデータを取得する

                                  PythonでPandasとSQLAlchemyを使用しSQLからデータを取得してみます。 なお、今回はPandasモジュールとSQLAlchemyモジュールの2つを用います。この2つのライブラリは、Pythonの標準ライブラリではありませんので、事前にインストールする必要があります。 また、今回はPostgreSQL データベースを用いますが、ElephantSQLを利用します。事前にElephantSQLの無料プランでアカウント登録を行い、インスタンスを作成した状態となっています。「ElephantSQL」のアカウント登録とインスタンスの作成についてこちらをご確認ください。 ■Python 今回のPythonのバージョンは、「3.8.5」を使用しています。(Windows10)(pythonランチャーでの確認) ■ElephantSQLのインスタンスの状態を確認するまずは、Elepha

                                    PythonでPandasとSQLAlchemyを使用しSQLからデータを取得する
                                  • Pandas でよく忘れてしまう事柄(随時追加)|Hi-Roto's Note

                                    Pythonを使ったデータ解析をする際によく忘れてgoogle検索しがちなものを下記に書き留めておく(随時追加予定) Excelファイルのimport(read_excel)'xlrd'をインストールすると下記方法でxlsxファイルをデータフレームとして読み込み可能 pd.read_excel('filename.xlsx')Excelファイルのexport(to_excel)下記でデータフレーム(df) をファイル(output_file.xlsx)に書き出 (index = False でインデックスを除外) df.to_excel('output_file.xlsx', index = False)ファイル名に日付/時間(アジア圏)を挿入from datetime import datetime from pytz import timezone date_now = datetim

                                      Pandas でよく忘れてしまう事柄(随時追加)|Hi-Roto's Note
                                    • Pythonで既存のPandasにおけるDataFrameに辞書のリストを追加する

                                      Pythonで既存のPandasにおけるDataFrameに辞書のリストを追加してみます。もしくは、Pandas Seriesからの値を追加してみます。 ■Python 今回のPythonのバージョンは、「3.8.5」を使用しています。(Windows10)(pythonランチャーでの確認) ■DataFrameを作成する既存のPandasにおけるDataFrameに辞書のリストを追加する前に、DataFrameを作成します。 ■コードimport pandas as pd df = pd.DataFrame({ '名前':['田中','岡谷','森本','杉岡','吉村'], '出身':['富山','石川','新潟','東京','埼玉'], '年齢':[25,32,29,21,40] }) print(df)インポートでPandasモジュールを呼び出します。dfという変数を作成し、その中

                                        Pythonで既存のPandasにおけるDataFrameに辞書のリストを追加する
                                      • Pandasのto_csv関数を使ってCSVファイルに書き出す方法

                                        to_csv 基本的な操作 headerの有無の指定 header indexの有無の指定 index 特定の列(カラム)だけを保存する columns 読み込みモードの指定 mode 区切り文字の変更 sep アウトプット先をsys.stdoutに変更 まとめ 参考 Pandasはファイルの入出力に関する関数が豊富で、機能も多いです。 その中でも、CSVファイルで書き出すことでエクセルや他のアプリケーションでも読み込める場合が多いことから、CSVで書き出したいことは多いはずです。本記事で紹介するto_csv関数は名前の通り、CSV形式のファイルを出力してくれる便利な関数です。 to_csv関数の簡単な使い方 について使いこなせるように解説します。 csv形式のファイルを読み込む関数であるread_csv関数の解説は以下の記事でしています。 Pandasのread_csv関数でCSVファイ

                                          Pandasのto_csv関数を使ってCSVファイルに書き出す方法
                                        • PandasにおけるDataFrameの文字列を大文字に変更する

                                          ■Python 今回のPythonのバージョンは、「3.8.5」を使用しています。(Windows10)(pythonランチャーでの確認) ■DataFrameを作成するDataFrameのインデックスを指定し行を削除する前に、DataFrameを作成します。 ■コードimport pandas as pd data = { 'Name':['apple','banana','grape','peach'], 'Number':[10,20,30,40] } df = pd.DataFrame(data, columns =['Name','Number']) print(df)インポートでPandasモジュールを呼び出します。dataという変数を作成し、その中に、今回は「Name」,「Number」という2つの行を追加し格納します。今回「Name」は全て小文字にしてあります。 格納後、d

                                            PandasにおけるDataFrameの文字列を大文字に変更する
                                          • Pandasのpivot_tableの全引数を解説 | 自調自考の旅

                                            概要カテゴリカル変数と連続変数の関係の分析に特に有効で、Excelでもよく使うピボットテーブルの機能ですが、Pythonのpandasでもpivot_tableというメソッドを使うことが出来ます。本記事ではこのpivot_tableの全引数の効果を検証しました。なお、pandasのバージョンは0.23.4を使っています。 引数一覧pandasのpivot_tableには以下の7引数があります。以降、それぞれについて説明していきます。 valuesindexcolumnsaggfuncfill_valuedropnamargins_nameまた、データとしてはirisを使用しました。 df = pd.read_csv("iris.csv", index_col=0) df.head() データ分析の定番データセットですね。(全150件の最初の5件を表示しています) SepalLength S

                                            • pandas 移動平均も楽々計算!|rollingをわかりやすく解説! - YutaKaのPython教室

                                              pandasの.rolling()を使うと、DataFrameやSeriesに対して、データ区間をずらしながら関数を適用できます。 しかし、いざ.rolling()を適用とすると次のような疑問に直面することも… .rolling()で、データ区間のサイズや出力位置を調整するにはどうするの? ユーザー定義関数などの任意の関数を適用するには? 日付データで.rolling()ってできるの? そこで、今回は.rolling()を使って、データ区間をずらしながら関数を適用する方法を図解、サンプルコード付きでわかりやすく解説していきます。 実例で見る!rollingの使い方 rollingの基本設定 窓の大きさの変更|window 計算に必要な最小データ数 |min_periods データ出力位置の変更|center 窓の移動方向の指定|axis rollingで使える関数まとめ 任意の関数でrol

                                                pandas 移動平均も楽々計算!|rollingをわかりやすく解説! - YutaKaのPython教室
                                              • pandas:Excelファイルを読み込んでDataFrameを作成する方法

                                                Excelファイルを読み込んでDataFrameを作成するにはread_excelを使用します。 test.xlsxのデータ id name count rating 1 abc 13 4.38 2 defgh 4 8.56 3 ij 0 1.25 4 klmnopq 23 3.49 5 rst 11 0.51 import pandas as pd df = pd.read_excel("test.xlsx") print(df) # id name count rating # 0 1 abc 13 4.38 # 1 2 defgh 4 8.56 # 2 3 ij 0 1.25 # 3 4 klmnopq 23 3.49 # 4 5 rst 11 0.51 xlsxファイルを読み込もうとして以下のようなエラーメッセージが表示された場合は、 ValueError: Your versio

                                                  pandas:Excelファイルを読み込んでDataFrameを作成する方法
                                                • 【コピペで動く!】Google ColabでPython を用いての 効率的フロンティア と ポートフォリオの最適化 Efficient Frontier & Portfolio Optimization with Python [Part 2/2]

                                                    【コピペで動く!】Google ColabでPython を用いての 効率的フロンティア と ポートフォリオの最適化 Efficient Frontier & Portfolio Optimization with Python [Part 2/2]
                                                  • [python] pandasの日付データ.変換,読み込み,図示まで | あきとしのスクラップノート

                                                    pandasで日付データを操作する際に必要な知識をまとめた. 初めに,pythonにおける日付を取り扱うデータ型に代表的なものが3種類あり(datetime.datetime, np.datetime64, Timestamp),それぞれの相互変換の方法を説明する.その後,エクセルからpd.read_excel でデータを読み込む際にセルの設定やカラムに何が入るかによってデータ型が異なる点の指摘とTimestamp 型への変換方法.最後に,日付データの図示方法を説明する. 目的としては,pandasにおいて日付データを処理出来るようになることである.pandasではTimestamp 型を用いて内部処理しているため,如何にしてTimestamp型に変換していくかがポイントである. 本記事で使用したコードは,git clone https://github.com/akitoshiblog/

                                                      [python] pandasの日付データ.変換,読み込み,図示まで | あきとしのスクラップノート
                                                    • PandasにおけるDataFrameでデータ型を確認する

                                                      ■Python 今回のPythonのバージョンは、「3.8.5」を使用しています。(Windows10)(pythonランチャーでの確認) ■DataFrameを作成するPandasにおけるDataFrameでデータ型を確認する前に、DataFrameを作成します。 ■コードimport pandas as pd Data = {'Name':['Apple','Banana','Peach','Strawberry','Grape'], 'Number':['10','20','30','40','50']} df = pd.DataFrame(Data) print(df)インポートでPandasモジュールを呼び出します。Dataという変数を作成し、その中に2つの行を追加し格納します。 格納後、dfという変数を作成し、pd.DataFrame()と記述し、格納したDataを元にData

                                                        PandasにおけるDataFrameでデータ型を確認する
                                                      • Pandasでピボットテーブルを手軽に作成するpivot_table関数の使い方

                                                        pivot_table関数 APIドキュメント params: returns: ピボットテーブルを作成する 複数要素を元に多層化させる データの個数をカウントする 列ごとと行ごとの合計を表示 複数の統計量を表示させる 関数を使って統計処理を指定する 欠損値を補完 欠損値があるデータも表示させる まとめ 参考 ピボットテーブルとはエクセルで有名な機能の1つで馴染みの方も多いかもしれません。 複雑なデータ構造を一目で分かりやすくする目的でよく使われるもので、クロス集計したものをまとめたものとなります。 2つの要素間の相関が分かりやすく現れるので使いこなせると重宝するでしょう。例えば男女間での科目ごとの平均点といったものをひと目で把握することができます。 Pandasでも手軽にピボットテーブルを作成できるpivot_table関数が実装されています。 そこで本記事ではpivot_table関数

                                                          Pandasでピボットテーブルを手軽に作成するpivot_table関数の使い方
                                                        • もう手作業は卒業!Github Actionsでレポート作成を自動化する

                                                          インフルエンザの発生状況のデータを自動更新したい前回、stliteを使ってインフルエンザの発生情報をグラフに表示しました。stliteはブラウザ上で動くwasmなので、CSVデータの置き場所以外はサーバーが必要ありませんでした。 厚生労働省によるインフルエンザの発生状況のレポートは、基本的には毎週金曜日に更新されています。毎週金曜日に、Google Colabを実行してCSVファイルを作成し、Webサーバーに配置し直すのは面倒です。 そこで今回は、Github Actionsを使って、インフルエンザの発生状況のレポートをダウンロードし、CSVに変換してWebサーバーにdeployしてみます。 イメージ今回は、GitHub Actionsで土曜9:00a.m.にjobを起動し、厚生労働省からPDFをダウンロードしてCSVを作成し、成果物(public)をSSH/SCPでVPSにdeployし

                                                            もう手作業は卒業!Github Actionsでレポート作成を自動化する
                                                          • pandas:DataFrameを指定した列の値でソート(昇順、降順)する方法

                                                            DataFrameを指定した列の値でソート(昇順、降順)するにはsort_valuesを使用します。 降順でソートするにはascending=Falseを指定します。 test.csvのデータ id,name,count,rating 1,abc,13,4.38 2,defgh,4,8.56 3,ij,0,1.25 4,klmnopq,23,3.49 5,rst,11,0.51 import pandas as pd df = pd.read_csv("test.csv") print(df) # id name count rating # 0 1 abc 13 4.38 # 1 2 defgh 4 8.56 # 2 3 ij 0 1.25 # 3 4 klmnopq 23 3.49 # 4 5 rst 11 0.51 print(df.sort_values("rating")) #

                                                              pandas:DataFrameを指定した列の値でソート(昇順、降順)する方法
                                                            • pandas:データ型を指定してCSVファイルを読み込む方法

                                                              データ型を指定してCSVファイルを読み込むにはread_csvのdtypeを使用します。 test.csvのデータ id,name,count,rating 1,abc,13,4.38 2,defgh,4,8.56 3,ij,0,1.25 4,klmnopq,23,3.49 5,rst,11,0.51 import pandas as pd df1 = pd.read_csv("test.csv") print(df1.types) # id int64 # name object # count int64 # rating float64 # dtype: object df2 = pd.read_csv("test.csv", dtype={"count": float}) print(df2.dtypes) # id int64 # name object # count floa

                                                                pandas:データ型を指定してCSVファイルを読み込む方法
                                                              • Pandas列にHTMLタグの削除を適用する

                                                                2020-08-21 16:27パンダ列のすべてからHTMLタグを削除し、説明を保持する必要があります。 1つの列のタグは既に削除しましたが、他の列に適用する必要があります。 入力: df.description[1] 出力: '<p>Das Ziel der <a href="http://swa-muc.de">Software Architektur München Gruppe</a> ist es, Menschen, die sich mit Software-Architektur auseinandersetzen wollen, in und um München regelmäßig zusammenzubringen, und einen persönlichen Erfahrungsaustausch zu etablieren. Dazu dienen neben

                                                                • zipファイルをPandasにおけるDataFrameとして読み取る

                                                                  zipファイルをPandasにおけるDataFrameとして読み取ってみます。 なお、Pandasモジュールは、Pythonの標準ライブラリではありませんので、事前にインストールする必要はありません。また、zipfile36というモジュールが必要になりますので、これも事前にインストールする必要があります。 ■Python 今回のPythonのバージョンは、「3.8.5」を使用しています。(Windows10)(pythonランチャーでの確認) ■csvファイルをzipファイルに圧縮するzipファイルをPandasにおけるDataFrameとして読み取りますが、その前にcsvファイルを用意し、zipファイルに圧縮します。 今回は「sample.csv」という上記のcsvファイルを用意しました。 このcsvファイルをzipファイルに圧縮します。zipファイルは「C:\Users\user\te

                                                                    zipファイルをPandasにおけるDataFrameとして読み取る
                                                                  • Python/Pandasで時系列データを月毎に集計する方法 | WATLAB -Python, 信号処理, 画像処理, AI, 工学, Web-

                                                                    Pandasは機械学習の入力データ前処理で重宝されるPythonのライブラリです。ここではPandasデータフレームで読み込んだタイムスタンプ付きの時系列データを月毎に集計(合計・平均・最大値・最小値)する方法を紹介します。 時系列データの概要とサンプルデータ説明 時系列データとは? 時系列データ(Time-series data)とは、直訳すると時間によって変化するデータの総称です。 例えば毎日の気温といった気象情報、株価や外国為替といった金融情報等あらゆるデータ種があてはまります。 振動実験に代表されるような時間刻みのオーダーがmsやμsのデータも時系列データと呼びますが、このページでは日(day)、月(month)、年(year)といったタイムスタンプで記録されたデータを扱います。 タイムスタンプ(Timestamp)とは、ある出来事が発生した日付や時刻を示す文字列のことです。 古く

                                                                      Python/Pandasで時系列データを月毎に集計する方法 | WATLAB -Python, 信号処理, 画像処理, AI, 工学, Web-
                                                                    • pandasでfor文を使わない日本語テキスト前処理 - Qiita

                                                                      pandasで、テキストに対して処理する時、「よくわからないからfor文使うか」とならないための備忘録。 日本語テキストの前処理を目的として、情報をまとめる。 もっと良い処理方法があれば教えていただけると幸いです。 実行環境 macOS Catalina Python 3.7.4 pandas 0.25.3 TL;DR 簡単な処理は df["カラム名"].str のメソッドに実装されている pandasに実装されていない処理をしたい場合 df["カラム名"].apply() サンプルデータ HPからスクレイピングしてきたレディースのファッションブランドの店舗情報。 csvには企業名・ブランド名・店名・住所が保存されている。 複数のHPからスクレイピングしているため、半角全角だったり、空白など統一されていない。郵便番号が含まれていたりいなかったりもする。 下記の表はデータの一例。 このデータ

                                                                        pandasでfor文を使わない日本語テキスト前処理 - Qiita
                                                                      • PandasのSeriesのindexの順序を変更する

                                                                        ■Python 今回のPythonのバージョンは、「3.8.5」を使用しています。(Windows10)(pythonランチャーでの確認) ■Series(シリーズ)を作成するSeries(シリーズ)のindexの順序を変更をする前に、Series(シリーズ)を作成します。 ■コードimport pandas as pd import numpy as np data = np.array(["田中","鈴木","吉岡"]) series_test = pd.Series(data,index =[1,2,3]) print(series_test)pandasモジュールと、numpyモジュールを呼び出します。その後、dataという変数を作成し、array()関数を使用し、配列を作り格納します。配列の値には、今回は文字列を入れます。 格納後、series_testという変数を作成し、pd.

                                                                          PandasのSeriesのindexの順序を変更する
                                                                        • pandas:DataFrameの要素数を維持してデータを取得する方法

                                                                          DataFrameの要素数を維持してデータを取得するにはwhereを使用します。 条件に一致しない場合はデフォルトではNaNに置換されますが、引数で指定することもできます。 test.csvのデータ id,name,count,rating 1,abc,13,4.38 2,defgh,4,8.56 3,ij,0,1.25 4,klmnopq,23,3.49 5,rst,11,0.51 import pandas as pd df = pd.read_csv("test.csv") print(df) # id name count rating # 0 1 abc 13 4.38 # 1 2 defgh 4 8.56 # 2 3 ij 0 1.25 # 3 4 klmnopq 23 3.49 # 4 5 rst 11 0.51 print(df.loc[df["rating"] < 3])

                                                                            pandas:DataFrameの要素数を維持してデータを取得する方法
                                                                          • PandasにおけるDataFrameに「期間」インデックスを割り当て列を決める

                                                                            ■Python 今回のPythonのバージョンは、「3.8.5」を使用しています。(Windows10)(pythonランチャーでの確認) ■DataFrameを作成するDataFrameに「期間」インデックスを割り当て列を決める前に、DataFrameを作成します。 ■コードimport pandas as pd data = ["国語","英語",'数学','美術','理科'] df = pd.DataFrame(data) print(df)インポートでPandasモジュールを呼び出します。dataという変数を作成し、その中に、今回は1つの行を追加し格納します。 格納後、dfという変数を作成し、pd.DataFrame()と記述し、格納したdataを元にDataFrameを作成。作成後、dfという変数に格納します。 ■実行 このスクリプトを実行すると、作成したDataFrameが出力

                                                                              PandasにおけるDataFrameに「期間」インデックスを割り当て列を決める
                                                                            • pandas→networkx→pyvisでネットワーク分析&可視化 - Qiita

                                                                              ネットワーク分析する際は、いつもjavascriptかpythonでnodeとedigeのjsonファイル(または.dotファイル)を作成してから、gephiを利用していたけど、pythonで完結できないかと思って検討した結果。 タイトルのとおり、pythonの3つのライブラリを連携させれば楽にネットワーク分析&可視化までできる。 中心となるnetworkxさまさま。おかげで苦労してきたデータ作成や出力などが一気に楽になった。 1.ネットワーク元のデータ やはりpandasの利用。 networkxのドキュメントに「from_pandas_edgelist」という関数がある。 Parameters df (Pandas DataFrame) – An edge list representation of a graph source (str or int) – A valid colu

                                                                                pandas→networkx→pyvisでネットワーク分析&可視化 - Qiita
                                                                              • 【Python入門】Pythonを使った気象データ分析 - 第二弾 - Avinton Japan

                                                                                DataFrame形式の気温データをグラフで視覚化する DataFrameのplotメソッドを使ってDataFrameの最低気温データをグラフで視覚化します。 最初にJupyter Notebook内でグラフを表示させるためのマジックコマンドを実行します。 %matplotlib inline このままplotメソッドを呼び出すと、1つのグラフに各年の気温データが横に並んで表示されます。 また、凡例と横軸にはDataFrameのヘッダーが表示されます。 凡例は「最低気温(℃)」、横軸は「年月日」ですが、日本語のため文字化けして□が表示されます。 df.plot() このままでは、各年の気温データの比較が難しいので、各年の気温データを重ねて表示させます。 各年ごとにplotメソッドを呼び出してplotメソッドのaxパラメーターに格納していくと、各年の気温データを重ねて表示できます。 また、D

                                                                                  【Python入門】Pythonを使った気象データ分析 - 第二弾 - Avinton Japan
                                                                                • 【Python】IllegalCharacterErrorを回避する方法 - なろう分析記録

                                                                                  Pandasでたまに出る「IllegalCharacterError」 スクレイピングや各種APIから文字データを取得し、Pandasでエクセルファイルに書き出そうとする時、たまに表示される「IllegalCharacterError」を回避する方法について調べてみました。 原因 原因は対象データに含まれる文字コードの様です。 pandasのデータフレームに入れた段階ではエラーになりませんが、エクセルファイルに書き出そうとするときにエラーが生じるみたいです。 qiita.com 解決方法 「xlsxwriter」を使う方法が一番シンプルみたいです。 pandasのデフォルトでは「openpyxl 」がエクセルでの書き出しエンジンに使われていますが、これを「xlsxwriter」に変えることでエラーを回避できます。 pip pip install xlsxwriter 例 df.to_exc

                                                                                    【Python】IllegalCharacterErrorを回避する方法 - なろう分析記録