タグ

pandasに関するatm_09_tdのブックマーク (34)

  • japanmapライブラリで都道府県データを可視化してみる | DevelopersIO

    はじめに データアナリティクス事業部のkobayashiです。 以前Google Colaboratory(以下Colab)でBigQueryのデータを扱うエントリを書きましたが、その中でデータをColabで可視化する際に都道府県別のデータを日地図で表現するライブラリを使いました。そのライブラリの使い勝手が良かったので深堀りをしてみます。 japanmap · PyPI GitHub - SaitoTsutomu/japanmap japanmapとは できるとこはとてもシンプルで都道府県別に日地図を塗り分けるライブラリです。 使い方は「辞書型で色情報を渡す」のか「PandasのSeriesで色情報を渡す」の2パターンがあります。 辞書型で色情報を渡す 都道府県名:色情報で辞書を作成してjapanmapのライブラリに指定すれば良いだけです。 色情報は以下の型式で指定します。 カラー名

    japanmapライブラリで都道府県データを可視化してみる | DevelopersIO
  • Python初学者のためのPandas100本ノック - Qiita

    Information 2024/1/8: pandas , Polars など18を超えるライブラリを統一記法で扱える統合データ処理ライブラリ Ibis の100 ノックを作成しました。長期目線でとてもメリットのあるライブラリです。こちらも興味があればご覧下さい。 Ibis 100 ノック https://qiita.com/kunishou/items/e0244aa2194af8a1fee9 2023/2/12: 大規模データを高速に処理可能なデータ処理ライブラリ Polars の 100 ノックを作成しました。こちらも興味があればご覧下さい。 Polars 100 ノック https://qiita.com/kunishou/items/1386d14a136f585e504e はじめに この度、PythonライブラリであるPandasを効率的に学ぶためのコンテンツとして

    Python初学者のためのPandas100本ノック - Qiita
  • pythonでのデータ分析時、死ぬほど調べるTipsをまとめておく。 - プロクラシスト

    こんにちは、ほけきよです。 pythonでデータを取り扱っているとき「あれ、これどうやるんだっけ??」 ってなること、ありませんか?僕は10分に1回程度なります。 いや、覚えろと自分でも思うんですが、覚えられないんですよね。100回くらい同じコマンドを調べてたりする。 物覚えが良くないので、ココを見れば絶対大丈夫なようにしておこうと思い、まとめてみました。 jupyterで最初に開くときに読み込むモジュールたち datetime 日付⇔文字列の変換 datetimeの足し算引き算 json dict型⇔json jsonファイルの入出力 datetimeをjsonにする時、エラーが出る pandas ~以外を表すやつ andとor inf弾く リストをdfにサクッと変換 datetimeとして読み込み 読み込み時にcodecのエラーが出る DataFrameのfor文 numpy lins

    pythonでのデータ分析時、死ぬほど調べるTipsをまとめておく。 - プロクラシスト
  • SQL と Pandas の対応表 - Qiita

    トピック SQL のクエリと、Pandas のメソッドの対応表を作成する。 SQL 勉強中のため、備忘録代わりに箇条書き(殴り書き)で書いていく。 Udemy のこちらのコースで勉強していました。 DBやテーブル自体の更新・操作に関するものはこちらにまとめている。(SQL のクエリだけを書き散らかしているだけ) 順序 記述順序 select from join系(+on) where group by having order by limit 実行順序(※) from join系(+on) where group by select having order by limit (※)追記 @nora1962jp さんからご指摘をいただきましたので、コメント内容を追記します。 実行順序 from join系(+on) where SQLについてなら実行順序はonとwhereの順序はonが先

    SQL と Pandas の対応表 - Qiita
  • Python: pandas と Google BigQuery を連携させる - CUBE SUGAR CONTAINER

    ぶっちゃけ pandas は大規模なデータセットを扱うのが苦手だ。 だいたい一桁 GB なら我慢と工夫で何とかなるけど、二桁 GB を超えると現実的な処理時間で捌けなくなってくる。 そこで、今回は pandas を Google BigQuery と連携させることで重たい処理をオフロードする方法を試してみる。 使った環境は次の通り。 $ sw_vers ProductName: Mac OS X ProductVersion: 10.13.5 BuildVersion: 17F77 $ python -V Python 3.6.5 $ pip list --format=columns | grep -i pandas pandas 0.23.3 pandas-gbq 0.5.0 Google BigQuery を使う下準備 ここから BigQuery を使うための下準備が結構長いので、既

    Python: pandas と Google BigQuery を連携させる - CUBE SUGAR CONTAINER
  • Python: pandas の永続化フォーマットについて調べた - CUBE SUGAR CONTAINER

    以前、このブログでは pandas の DataFrame を Pickle として保存することで読み込み速度を上げる、というテクニックを紹介した。 blog.amedama.jp 実は pandas がサポートしている永続化方式は Pickle 以外にもある。 今回は、その中でも代表的な以下の永続化フォーマットについて特性を調べると共に簡単なベンチマークを取ってみることにした。 Pickle Feather Parquet 使った環境とパッケージのバージョンは次の通り。 $ sw_vers ProductName: Mac OS X ProductVersion: 10.13.5 BuildVersion: 17F77 $ python -V Python 3.6.5 $ pip list --format=columns | egrep "(pandas|feather-format|

    Python: pandas の永続化フォーマットについて調べた - CUBE SUGAR CONTAINER
  • Python: pandas の DataFrame を scikit-learn で KFold するときの注意点 - CUBE SUGAR CONTAINER

    今回は pandas の DataFrame を scikitl-learn で交差検証しようとしてハマった話について。 だいぶ平凡なミスなんだけど、またやるとこわいので自分用にメモしておく。 使った環境は次の通り。 $ sw_vers ProductName: Mac OS X ProductVersion: 10.13.5 BuildVersion: 17F77 $ python -V Python 3.6.5 下準備 まずは pandas と scikit-learn をインストールしておく。 $ pip install pandas scikit-learn scipy Python のインタプリタを起動する。 $ python なんか適当に DataFrame を作っておく。 >>> import pandas as pd >>> data = [ ... ('Ant'), ..

    Python: pandas の DataFrame を scikit-learn で KFold するときの注意点 - CUBE SUGAR CONTAINER
  • Python: pandas で縦持ちのデータを横持ちにする - CUBE SUGAR CONTAINER

    データ処理の世界では、データの持ち方に縦持ちと横持ちという考え方がある。 縦持ちでは、レコードに種類といったカラムを持たせてデータを追加していく。 それに対し横持ちでは種類ごとにカラムを用意した上でデータを追加する形を取る。 一般的にはデータの持ち方としては縦持ちのものが多いと思う。 今回は pandas で縦持ちのデータを横持ちに直す方法について書く。 使った環境は次の通り。 $ sw_vers ProductName: Mac OS X ProductVersion: 10.13.4 BuildVersion: 17E202 $ python -V Python 3.6.5 下準備 まずは pandas をインストールしておく。 $ pip install pandas 続いて Python のインタプリタを起動する。 $ python あとは縦持ちの形式になったサンプルの DataF

    Python: pandas で縦持ちのデータを横持ちにする - CUBE SUGAR CONTAINER
  • Python: pandas で DataFrame を連結したら dtype が int から float になって驚いた話 - CUBE SUGAR CONTAINER

    今回は pandas を使っているときに二つの DataFrame を pd.concat() で連結したところ int のカラムが float になって驚いた、という話。 先に結論から書いてしまうと、これは片方の DataFrame に存在しないカラムがあったとき、それが全て NaN 扱いになることで発生する。 NaN は浮動小数点数型にしか存在しない概念なので、それが元で整数型と浮動小数点数型の演算になりキャストされてしまった。 使った環境は次の通り。 $ sw_vers ProductName: Mac OS X ProductVersion: 10.13.4 BuildVersion: 17E202 $ python -V Python 3.6.5 下準備 まずは下準備として pandas と numpy をインストールしておく。 $ pip install pandas nump

    Python: pandas で DataFrame を連結したら dtype が int から float になって驚いた話 - CUBE SUGAR CONTAINER
  • データ分析で頻出のPandas基本操作 - Qiita

    はじめに 機械学習や深層学習が人気の昨今ですが、それらのモデルの精度に最もクリティカルに影響するのはインプットするデータの質です。データの質は、データを適切に把握し、不要なデータを取り除いたり、必要なデータを精査する前処理を行うことで高めることができます。 頁では、データ処理の基ツールとしてPandasの使い方を紹介します。Pandasには便利な機能がたくさんありますが、特に分析業務で頻出のPandas関数・メソッドを重点的に取り上げました。 Pandasに便利なメソッドがたくさんあることは知っている、でもワイが知りたいのは分析に最低限必要なやつだけなんや…!、という人のためのPandasマニュアルです。 また、単に機能を説明するだけでは実際の処理動作がわかりにくいため、ここではSIGNATE(旧DeepAnalytics)のお弁当の需要予想を行うコンペのデータを拝借し、このデータに対

    データ分析で頻出のPandas基本操作 - Qiita
  • Python: pandas の DataFrameGroupBy#agg() には関数も渡せる - CUBE SUGAR CONTAINER

    今回は pandas で DataFrame#groupby() したときに得られるオブジェクト DataFrameGroupBy が持つメソッド agg() について。 これまであんまり使ってこなかったけど、関数が渡せることを知って色々と便利に使えそうだなと感じた。 ちょっと前置きが長くなるので知っているところに関しては飛ばしながら読むと良いかも。 使った環境は次の通り。 $ sw_vers ProductName: Mac OS X ProductVersion: 10.13.4 BuildVersion: 17E199 $ python -V Python 3.6.5 下準備 ひとまず pandas` をインストールしておく。 $ pip install pandas $ pip list --format=columns | grep pandas pandas 0.22.0 Py

    Python: pandas の DataFrameGroupBy#agg() には関数も渡せる - CUBE SUGAR CONTAINER
  • Python: pandas で対応関係を渡して値を変換する - CUBE SUGAR CONTAINER

    例えばデータセットの中のカラムが文字列型なんかで入っていると、それを数値に直したくなることはよくあると思う。 今回はそれを pandas でやる方法について書く。 結論から先に書くと Series オブジェクトにある map() メソッドを使うと上手くいく。 使った環境は次の通り。 $ python -V Python 3.6.4 $ pip list --format=columns | grep -i pandas pandas 0.22.0 まずは pandas をインストールして Python の REPL を起動しておく。 $ pip install pandas $ python サンプルになる DataFrame オブジェクトを用意する。 各行には何かの商品のグレードと価格に関する情報が入っているイメージ。 >>> import pandas as pd >>> data =

    Python: pandas で対応関係を渡して値を変換する - CUBE SUGAR CONTAINER
  • Python: pandas で特定の値がいくつあるか数える - CUBE SUGAR CONTAINER

    今回は pandas で特定の値がいくつ数える方法について。 結論から先に書いてしまうと value_counts() という専用のメソッドがあるよ、という話。 使った環境は次の通り。 $ python -V Python 3.6.4 $ pip list --format=columns | grep -i pandas pandas 0.22.0 まずは pandas をインストールして Python の REPL を起動しておく。 $ pip install pandas $ python 続いて、サンプル用のデータフレームを作っておく。 何かのグレードが英字一文字で格納されたデータのようだ。 >>> import pandas as pd >>> data = [ ... "A", ... "B", ... "B", ... "C", ... ] >>> columns = ['g

    Python: pandas で特定の値がいくつあるか数える - CUBE SUGAR CONTAINER
  • pandas入門 DataFrame DB入出力 | Python学習講座

    CSV、TSVなどのファイル連携と並んでよく使うのがDBからの入出力です。ここではsqlite3を使用しますが、コネクションオブジェクトを変えれば他のものも使用可能です。 read_sql select文の結果をDataFrameに格納する pandas.io.sqlを使用します。 以下のサンプルは、articleテーブルをメモリ上のsqlite3に作成し、レコードを2件挿入後、select文の結果をDataFrameに格納しています。 read_sqlの引数にSQL文とコネクションを設定します。 import sqlite3 import pandas as pd import pandas.io.sql as psql # sqlite3に接続 con = sqlite3.connect(':memory:') cur = con.cursor() # サンプルテーブルを作成 cur.

  • pandasのDataFrameのデータ操作をよくわすれるので、よく使用する操作を自分のためにまとめた - Qiita

    pandasのDataFrameのデータ操作のかんたん早見表を作成したので、データ操作に役立ててください。また最後に、データ分析の流れを経験できるオススメ学習コンテンツを紹介したので、ご参考ください。 事前にimport

    pandasのDataFrameのデータ操作をよくわすれるので、よく使用する操作を自分のためにまとめた - Qiita
  • [Python] 株価データをプロットし,さらにCSVファイルを出力する - Qiita

    はじめに Web上で長期間の株価データを探してもなかなか見つからないので,Pythonを用いて株価のヒストリカルデータを取得し,CSV形式で出力,さらに出力したデータをプロットするプログラムを作成しました. 日株・外国株いずれにも対応しています. 参考までに,例として出力した日経平均株価1のCSVファイルはこちら,さらにプロットすると以下のようになります. ソースコードの紹介 まず,作成したソースコードを紹介します. #!/usr/bin/env python3 # -*- coding:utf-8 -*- ''' 株価データのプロット・CSVへの出力 ''' import datetime as dt from pandas import DataFrame import jsm import pandas_datareader.data as web import matplotli

    [Python] 株価データをプロットし,さらにCSVファイルを出力する - Qiita
  • Python: pandas でカラムの型を変換する - CUBE SUGAR CONTAINER

    pandas はデータを読み込むとき、よきに計らってカラムに型を付与してくれる。 ただ、その内容が意図しない場合もある。 そんなとき、どうやってカラムの型を直すか、ということについて。 使った環境は次の通り。 $ sw_vers ProductName: Mac OS X ProductVersion: 10.12.6 BuildVersion: 16G29 $ python --version Python 3.6.3 もくじ もくじ 下準備 サンプルデータ カラムの型を変換する 型を変換したカラムを非破壊的に追加する 型を変換したカラムを破壊的に追加する もっと柔軟に変換する 値として NaN が入っている場合 下準備 まずは下準備として pandas をインストールしておく。 $ pip install pandas $ pip list --format=columns | gre

    Python: pandas でカラムの型を変換する - CUBE SUGAR CONTAINER
  • Pandasを使ったデータ操作の基本 - ぴよぴよ.py

    データ分析の会社に転職してから3ヶ月。 最初の1ヶ月はPandasの扱いに当に困ったので、 昔メモしてたことを簡単にブログに記録しておく(o ・ω・)ノ 【追記】2017/07/31 0:36 データが一部間違ってたので修正しました Pandasとは pandasでよく使う型 テストデータについて 余談 Pandasでのデータ操作入門 pandasのload データ(csv)のロード データのサイズ データのカラム 行列から必要な列(カラム)を取り出す 条件にマッチするデータを取り出す 1. DataFrame.queryで取り出す True/FalseのSeries型を指定し、Trueの行だけを取り出す 追記(2017/12/14) 行列から必要な行番号を指定してを取り出す グループ分けと集計 新たな列を追加する 固有値を追加する 他の列を加工して新たな列を作る 他の複数列を加工して新

    Pandasを使ったデータ操作の基本 - ぴよぴよ.py
  • Python pandas 図でみる データ連結 / 結合処理 - StatsFragments

    なんかぼやぼやしているうちにひさびさの pandas エントリになってしまった。基的な使い方については網羅したい気持ちはあるので、、、。 今回は データの連結 / 結合まわり。この部分 公式ドキュメント がちょっとわかりにくいので改訂したいなと思っていて、自分の整理もかねて書きたい。 公式の方はもう少し細かい使い方も載っているのだが、特に重要だろうというところだけをまとめる。 連結 / 結合という用語は以下の意味で使っている。まず憶えておいたほうがよい関数、メソッドは以下の 4 つだけ。 連結: データの中身をある方向にそのままつなげる。pd.concat, DataFrame.append 結合: データの中身を何かのキーの値で紐付けてつなげる。pd.merge, DataFrame.join 連結 (concatenate) 柔軟な連結 pd.concat ふたつの DataFram

    Python pandas 図でみる データ連結 / 結合処理 - StatsFragments
  • Python pandas で日時関連のデータ操作をカンタンに - StatsFragments

    概要 Python で日時/タイムスタンプ関連の操作をする場合は dateutil や arrow を使っている人が多いと思うが、 pandas でもそういった処理がわかりやすく書けるよ、という話。 pandas の領は多次元データの蓄積/変形/集約処理にあるが、日時操作に関連した強力なメソッド / ユーティリティもいくつか持っている。今回は それらを使って日時操作を簡単に行う方法を書いてく。ということで DataFrame も Series もでてこない pandas 記事のはじまり。 ※ ここでいう "日時/タイムスタンプ関連の操作" は文字列パース、日時加算/減算、タイムゾーン設定、条件に合致する日時のリスト生成などを想定。時系列補間/リサンプリングなんかはまた膨大になるので別途。 インストール 以下サンプルには 0.15での追加機能も含まれるため、0.15 以降が必要。 pip

    Python pandas で日時関連のデータ操作をカンタンに - StatsFragments