[B! pandas] atm_09_tdのブックマーク

japanmapライブラリで都道府県データを可視化してみる | DevelopersIO

はじめにデータアナリティクス事業本部のkobayashiです。以前Google Colaboratory(以下Colab)でBigQueryのデータを扱うエントリを書きましたが、その中でデータをColabで可視化する際に都道府県別のデータを日本地図で表現するライブラリを使いました。そのライブラリの使い勝手が良かったので深堀りをしてみます。 japanmap · PyPI GitHub - SaitoTsutomu/japanmap japanmapとはできるとこはとてもシンプルで都道府県別に日本地図を塗り分けるライブラリです。使い方は「辞書型で色情報を渡す」のか「PandasのSeriesで色情報を渡す」の2パターンがあります。辞書型で色情報を渡す都道府県名:色情報で辞書を作成してjapanmapのライブラリに指定すれば良いだけです。色情報は以下の型式で指定します。カラー名

atm_09_td 2022/11/08

リンク

Python初学者のためのPandas100本ノック - Qiita

Information 2024/1/8： pandas , Polars など18を超えるライブラリを統一記法で扱える統合データ処理ライブラリ Ibis の100 本ノックを作成しました。長期目線でとてもメリットのあるライブラリです。こちらも興味があればご覧下さい。 Ibis 100 本ノック https://qiita.com/kunishou/it ems/e0244aa2194af8a1fee9 2023/2/12：大規模データを高速に処理可能なデータ処理ライブラリ Polars の 100 本ノックを作成しました。こちらも興味があればご覧下さい。 Polars 100 本ノック https://qiita.com/kunishou/it ems/1386d14a136f585e504e はじめにこの度、PythonライブラリであるPandasを効率的に学ぶためのコンテンツとして

atm_09_td 2020/09/26

リンク

pythonでのデータ分析時、死ぬほど調べるTipsをまとめておく。 - プロクラシスト

こんにちは、ほけきよです。 pythonでデータを取り扱っているとき「あれ、これどうやるんだっけ？？」ってなること、ありませんか？僕は10分に1回程度なります。いや、覚えろと自分でも思うんですが、覚えられないんですよね。100回くらい同じコマンドを調べてたりする。物覚えが良くないので、ココを見れば絶対大丈夫なようにしておこうと思い、まとめてみました。 jupyterで最初に開くときに読み込むモジュールたち datetime 日付⇔文字列の変換 datetimeの足し算引き算 json dict型⇔json jsonファイルの入出力 datetimeをjsonにする時、エラーが出る pandas ～以外を表すやつ andとor inf弾くリストをdfにサクッと変換 datetimeとして読み込み読み込み時にcodecのエラーが出る DataFrameのfor文 numpy lins

atm_09_td 2019/01/18

リンク

SQL と Pandas の対応表 - Qiita

トピック SQL のクエリと、Pandas のメソッドの対応表を作成する。 SQL 勉強中のため、備忘録代わりに箇条書き（殴り書き）で書いていく。 Udemy のこちらのコースで勉強していました。 DBやテーブル自体の更新・操作に関するものはこちらにまとめている。（SQL のクエリだけを書き散らかしているだけ）順序記述順序 select from join系(+on) where group by having order by limit 実行順序(※) from join系(+on) where group by select having order by limit (※)追記 @nora1962jp さんからご指摘をいただきましたので、コメント内容を追記します。実行順序 from join系(+on) where SQLについてなら実行順序はonとwhereの順序はonが先

atm_09_td 2018/11/12

sql
pandas

リンク

Python: pandas と Google BigQuery を連携させる - CUBE SUGAR CONTAINER

ぶっちゃけ pandas は大規模なデータセットを扱うのが苦手だ。だいたい一桁 GB なら我慢と工夫で何とかなるけど、二桁 GB を超えると現実的な処理時間で捌けなくなってくる。そこで、今回は pandas を Google BigQuery と連携させることで重たい処理をオフロードする方法を試してみる。使った環境は次の通り。 $ sw_vers ProductName: Mac OS X ProductVersion: 10.13.5 BuildVersion: 17F77 $ python -V Python 3.6.5 $ pip list --format=columns | grep -i pandas pandas 0.23.3 pandas-gbq 0.5.0 Google BigQuery を使う下準備ここから BigQuery を使うための下準備が結構長いので、既

atm_09_td 2018/08/05

リンク

Python: pandas の永続化フォーマットについて調べた - CUBE SUGAR CONTAINER

以前、このブログでは pandas の DataFrame を Pickle として保存することで読み込み速度を上げる、というテクニックを紹介した。 blog.amedama.jp 実は pandas がサポートしている永続化方式は Pickle 以外にもある。今回は、その中でも代表的な以下の永続化フォーマットについて特性を調べると共に簡単なベンチマークを取ってみることにした。 Pickle Feather Parquet 使った環境とパッケージのバージョンは次の通り。 $ sw_vers ProductName: Mac OS X ProductVersion: 10.13.5 BuildVersion: 17F77 $ python -V Python 3.6.5 $ pip list --format=columns | egrep "(pandas|feather-format|

atm_09_td 2018/07/11

リンク

Python: pandas の DataFrame を scikit-learn で KFold するときの注意点 - CUBE SUGAR CONTAINER

今回は pandas の DataFrame を scikitl-learn で交差検証しようとしてハマった話について。だいぶ平凡なミスなんだけど、またやるとこわいので自分用にメモしておく。使った環境は次の通り。 $ sw_vers ProductName: Mac OS X ProductVersion: 10.13.5 BuildVersion: 17F77 $ python -V Python 3.6.5 下準備まずは pandas と scikit-learn をインストールしておく。 $ pip install pandas scikit-learn scipy Python のインタプリタを起動する。 $ python なんか適当に DataFrame を作っておく。 >>> import pandas as pd >>> data = [ ... ('Ant'), ..

atm_09_td 2018/06/22

pandas

リンク

Python: pandas で縦持ちのデータを横持ちにする - CUBE SUGAR CONTAINER

データ処理の世界では、データの持ち方に縦持ちと横持ちという考え方がある。縦持ちでは、レコードに種類といったカラムを持たせてデータを追加していく。それに対し横持ちでは種類ごとにカラムを用意した上でデータを追加する形を取る。一般的にはデータの持ち方としては縦持ちのものが多いと思う。今回は pandas で縦持ちのデータを横持ちに直す方法について書く。使った環境は次の通り。 $ sw_vers ProductName: Mac OS X ProductVersion: 10.13.4 BuildVersion: 17E202 $ python -V Python 3.6.5 下準備まずは pandas をインストールしておく。 $ pip install pandas 続いて Python のインタプリタを起動する。 $ python あとは縦持ちの形式になったサンプルの DataF

atm_09_td 2018/06/03

リンク

Python: pandas で DataFrame を連結したら dtype が int から float になって驚いた話 - CUBE SUGAR CONTAINER

今回は pandas を使っているときに二つの DataFrame を pd.concat() で連結したところ int のカラムが float になって驚いた、という話。先に結論から書いてしまうと、これは片方の DataFrame に存在しないカラムがあったとき、それが全て NaN 扱いになることで発生する。 NaN は浮動小数点数型にしか存在しない概念なので、それが元で整数型と浮動小数点数型の演算になりキャストされてしまった。使った環境は次の通り。 $ sw_vers ProductName: Mac OS X ProductVersion: 10.13.4 BuildVersion: 17E202 $ python -V Python 3.6.5 下準備まずは下準備として pandas と numpy をインストールしておく。 $ pip install pandas nump

atm_09_td 2018/05/12

リンク

データ分析で頻出のPandas基本操作 - Qiita

はじめに機械学習や深層学習が人気の昨今ですが、それらのモデルの精度に最もクリティカルに影響するのはインプットするデータの質です。データの質は、データを適切に把握し、不要なデータを取り除いたり、必要なデータを精査する前処理を行うことで高めることができます。本頁では、データ処理の基本ツールとしてPandasの使い方を紹介します。Pandasには便利な機能がたくさんありますが、特に分析業務で頻出のPandas関数・メソッドを重点的に取り上げました。 Pandasに便利なメソッドがたくさんあることは知っている、でもワイが知りたいのは分析に最低限必要なやつだけなんや…！、という人のためのPandasマニュアルです。また、単に機能を説明するだけでは実際の処理動作がわかりにくいため、ここではSIGNATE(旧DeepAnalytics)のお弁当の需要予想を行うコンペのデータを拝借し、このデータに対

atm_09_td 2018/04/17

リンク

Python: pandas の DataFrameGroupBy#agg() には関数も渡せる - CUBE SUGAR CONTAINER

今回は pandas で DataFrame#groupby() したときに得られるオブジェクト DataFrameGroupBy が持つメソッド agg() について。これまであんまり使ってこなかったけど、関数が渡せることを知って色々と便利に使えそうだなと感じた。ちょっと前置きが長くなるので知っているところに関しては飛ばしながら読むと良いかも。使った環境は次の通り。 $ sw_vers ProductName: Mac OS X ProductVersion: 10.13.4 BuildVersion: 17E199 $ python -V Python 3.6.5 下準備ひとまず pandas` をインストールしておく。 $ pip install pandas $ pip list --format=columns | grep pandas pandas 0.22.0 Py

atm_09_td 2018/04/17

リンク

Python: pandas で対応関係を渡して値を変換する - CUBE SUGAR CONTAINER

例えばデータセットの中のカラムが文字列型なんかで入っていると、それを数値に直したくなることはよくあると思う。今回はそれを pandas でやる方法について書く。結論から先に書くと Series オブジェクトにある map() メソッドを使うと上手くいく。使った環境は次の通り。 $ python -V Python 3.6.4 $ pip list --format=columns | grep -i pandas pandas 0.22.0 まずは pandas をインストールして Python の REPL を起動しておく。 $ pip install pandas $ python サンプルになる DataFrame オブジェクトを用意する。各行には何かの商品のグレードと価格に関する情報が入っているイメージ。 >>> import pandas as pd >>> data =

atm_09_td 2018/03/20

リンク

Python: pandas で特定の値がいくつあるか数える - CUBE SUGAR CONTAINER

今回は pandas で特定の値がいくつ数える方法について。結論から先に書いてしまうと value_counts() という専用のメソッドがあるよ、という話。使った環境は次の通り。 $ python -V Python 3.6.4 $ pip list --format=columns | grep -i pandas pandas 0.22.0 まずは pandas をインストールして Python の REPL を起動しておく。 $ pip install pandas $ python 続いて、サンプル用のデータフレームを作っておく。何かのグレードが英字一文字で格納されたデータのようだ。 >>> import pandas as pd >>> data = [ ... "A", ... "B", ... "B", ... "C", ... ] >>> columns = ['g

atm_09_td 2018/03/17

リンク

pandas入門 DataFrame DB入出力 | Python学習講座

CSV、TSVなどのファイル連携と並んでよく使うのがDBからの入出力です。ここではsqlite3を使用しますが、コネクションオブジェクトを変えれば他のものも使用可能です。 read_sql select文の結果をDataFrameに格納する pandas.io.sqlを使用します。以下のサンプルは、articleテーブルをメモリ上のsqlite3に作成し、レコードを2件挿入後、select文の結果をDataFrameに格納しています。 read_sqlの引数にSQL文とコネクションを設定します。 import sqlite3 import pandas as pd import pandas.io.sql as psql # sqlite3に接続 con = sqlite3.connect(':memory:') cur = con.cursor() # サンプルテーブルを作成 cur.

atm_09_td 2018/01/16

pandas

リンク

pandasのDataFrameのデータ操作をよくわすれるので、よく使用する操作を自分のためにまとめた - Qiita

pandasのDataFrameのデータ操作のかんたん早見表を作成したので、データ操作に役立ててください。また最後に、データ分析の流れを経験できるオススメ学習コンテンツを紹介したので、ご参考ください。事前にimport

atm_09_td 2018/01/02

リンク

[Python] 株価データをプロットし，さらにCSVファイルを出力する - Qiita

はじめに Web上で長期間の株価データを探してもなかなか見つからないので，Pythonを用いて株価のヒストリカルデータを取得し，CSV形式で出力，さらに出力したデータをプロットするプログラムを作成しました．日本株・外国株いずれにも対応しています．参考までに，例として出力した日経平均株価1のCSVファイルはこちら，さらにプロットすると以下のようになります．ソースコードの紹介まず，作成したソースコードを紹介します． #!/usr/bin/env python3 # -*- coding:utf-8 -*- ''' 株価データのプロット・CSVへの出力 ''' import datetime as dt from pandas import DataFrame import jsm import pandas_datareader.data as web import matplotli

atm_09_td 2017/11/23

リンク

Python: pandas でカラムの型を変換する - CUBE SUGAR CONTAINER

pandas はデータを読み込むとき、よきに計らってカラムに型を付与してくれる。ただ、その内容が意図しない場合もある。そんなとき、どうやってカラムの型を直すか、ということについて。使った環境は次の通り。 $ sw_vers ProductName: Mac OS X ProductVersion: 10.12.6 BuildVersion: 16G29 $ python --version Python 3.6.3 もくじもくじ下準備サンプルデータカラムの型を変換する型を変換したカラムを非破壊的に追加する型を変換したカラムを破壊的に追加するもっと柔軟に変換する値として NaN が入っている場合下準備まずは下準備として pandas をインストールしておく。 $ pip install pandas $ pip list --format=columns | gre

atm_09_td 2017/11/01

リンク

Pandasを使ったデータ操作の基本 - ぴよぴよ.py

データ分析の会社に転職してから3ヶ月。最初の1ヶ月はPandasの扱いに本当に困ったので、昔メモしてたことを簡単にブログに記録しておく(o ･ω･)ﾉ【追記】2017/07/31 0:36 データが一部間違ってたので修正しました Pandasとは pandasでよく使う型テストデータについて余談 Pandasでのデータ操作入門 pandasのload データ(csv)のロードデータのサイズデータのカラム行列から必要な列(カラム)を取り出す条件にマッチするデータを取り出す 1. DataFrame.queryで取り出す True/FalseのSeries型を指定し、Trueの行だけを取り出す追記(2017/12/14) 行列から必要な行番号を指定してを取り出すグループ分けと集計新たな列を追加する固有値を追加する他の列を加工して新たな列を作る他の複数列を加工して新

atm_09_td 2017/07/31

リンク

Python pandas 図でみるデータ連結 / 結合処理 - StatsFragments

なんかぼやぼやしているうちにひさびさの pandas エントリになってしまった。基本的な使い方については網羅したい気持ちはあるので、、、。今回はデータの連結 / 結合まわり。この部分公式ドキュメントがちょっとわかりにくいので改訂したいなと思っていて、自分の整理もかねて書きたい。公式の方はもう少し細かい使い方も載っているのだが、特に重要だろうというところだけをまとめる。連結 / 結合という用語は以下の意味で使っている。まず憶えておいたほうがよい関数、メソッドは以下の 4 つだけ。連結: データの中身をある方向にそのままつなげる。pd.concat, DataFrame.append 結合: データの中身を何かのキーの値で紐付けてつなげる。pd.merge, DataFrame.join 連結 (concatenate) 柔軟な連結 pd.concat ふたつの DataFram

atm_09_td 2017/01/25

リンク

Python pandas で日時関連のデータ操作をカンタンに - StatsFragments

概要 Python で日時/タイムスタンプ関連の操作をする場合は dateutil や arrow を使っている人が多いと思うが、 pandas でもそういった処理がわかりやすく書けるよ、という話。 pandas の本領は多次元データの蓄積/変形/集約処理にあるが、日時操作に関連した強力なメソッド / ユーティリティもいくつか持っている。今回はそれらを使って日時操作を簡単に行う方法を書いてく。ということで DataFrame も Series もでてこない pandas 記事のはじまり。 ※ ここでいう "日時/タイムスタンプ関連の操作" は文字列パース、日時加算/減算、タイムゾーン設定、条件に合致する日時のリスト生成などを想定。時系列補間/リサンプリングなんかはまた膨大になるので別途。インストール以下サンプルには 0.15での追加機能も含まれるため、0.15 以降が必要。 pip

atm_09_td 2017/01/16

リンク

はてなブックマーク

タグ

関連タグで絞り込む (14)

pandasに関するatm_09_tdのブックマーク (34)

お知らせ

今週のはてなブックマーク数ランキング（2024年8月第3週）

今週のはてなブックマーク数ランキング（2024年8月第2週）

今週のはてなブックマーク数ランキング（2024年8月第1週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス