[B! pandas] mnruのブックマーク

Pandasで特徴量取得する場合に使う操作をまとめてみた - のんびりしているエンジニアの日記

皆さんこんにちはお元気ですか。私は元気です。分析は基本的にPythonを使って行います。（大体Pandasですが・・・） Pandasを利用すると色々できます。が、ふとどうするんだっけ処理が増えていきました。自分のメモがてらカテゴリを分けて記録に残したいと思います。最後のほうは特徴量の作り方集になっています。 Kaggleで実際に使ったことがある処理も数多く掲載しました。思いついたら随時、追加しようと思います。準備ファイル操作読み込み書き込みテーブル操作 1行ごとに処理をする。複数列を取得する。選択操作テーブル条件の指定複数条件の指定 NaNを埋める。カラム、テーブルの統計情報を取得する。完全一致の列を発見し、除去する。日付操作日付から日などの情報を取得する。 2つ以上のDataFrameの結合操作内部結合外部結合 2つの結合処理集計操作を使った特

mnru 2017/08/29

pandas

リンク

https://pandas.pydata.org/pandas-docs/stable/comparison_with_r.html

mnru 2017/08/01

pandas

リンク

Pythonでのデータ分析初心者がまず見るべき情報源のまとめ - Qiita

データ分析言語としてデータサイエンスの世界での存在を日々増している(と言われる)Python。 Pythonでのデータ分析、特にPandasの使い方についてまとめてみました。・Rユーザーの方がPythonを使いたい場合には特に有用だと思います。・基本的なデータハンドリングの方法に主眼をおいています。 RユーザーがPandas,Numpyを使う場合の早見表【Slide Share】Python for R uses Rで使う記法をPythonで再現するにはどうしたらいいかの比較早見表が列記されており、RでやっていたことをPythonでやろうと思ったらかなり有用だと思います。 http://www.slideshare.net/ajayohri/python-for-r-users 【Pandas Official】Pandas -comparison with R 上記と同様、Rで

mnru 2017/07/31

pandas
R

リンク

R vs Python：データ解析を比較 | POSTD

主観的な観点からPythonとRの比較した記事は山ほどあります。それらに私たちの意見を追加する形でこの記事を書きますが、今回はこの2つの言語をより客観的な目線で見ていきたいと思います。PythonとRを比較をしていき、同じ結果を引き出すためにはそれぞれどんなコードが必要なのかを提示していきます。こうすることで、推測ではなく、それぞれの言語の強みと弱みの両者をしっかりと理解できます。 Dataquest では、PythonとRの両方の言語のレッスンを行っていますが、データサイエンスのツールキットの中では両者ともそれぞれに適所があります。この記事では、NBA選手の2013/2014年シーズンの活躍を分析したデータセットを解析していきます。ファイルはここからダウンロードしてください。解析はまずPythonとRのコードを示してから、その後に2つの異なるアプローチを解説し議論していきます。つま

mnru 2017/07/31

リンク

strftime を憶えられない (rubyの) - Qiita

Register as a new user and use Qiita more conveniently You get articles that match your needsYou can efficiently read back useful informationYou can use dark themeWhat you can do with signing up

mnru 2017/05/31

pandas

リンク

pandasで様々な日付フォーマットを取り扱う - Qiita

新生活応援期間中とのことですので，"pandas"の使い方，特に日付フォーマットについて取り上げたいと思います．「Pythonはデータ分析に強い」という評判がありますが，これは以下のような「定番」パッケージによって実現されています． "pandas" for representing and analyzing data "NumPy" for basic numeriacal computation "SciPy" for scientific computation including statistics "StatsModels" for regression and other statistical analysis "matplotlib" for visualization （以上，"Think Stats" より引用．） pandas は，Seriesオブジェクト(１次元

mnru 2017/05/31

pandas

リンク

Python pandas で日時関連のデータ操作をカンタンに - StatsFragments

概要 Python で日時/タイムスタンプ関連の操作をする場合は dateutil や arrow を使っている人が多いと思うが、 pandas でもそういった処理がわかりやすく書けるよ、という話。 pandas の本領は多次元データの蓄積/変形/集約処理にあるが、日時操作に関連した強力なメソッド / ユーティリティもいくつか持っている。今回はそれらを使って日時操作を簡単に行う方法を書いてく。ということで DataFrame も Series もでてこない pandas 記事のはじまり。 ※ ここでいう "日時/タイムスタンプ関連の操作" は文字列パース、日時加算/減算、タイムゾーン設定、条件に合致する日時のリスト生成などを想定。時系列補間/リサンプリングなんかはまた膨大になるので別途。インストール以下サンプルには 0.15での追加機能も含まれるため、0.15 以降が必要。 pip

mnru 2017/05/31

pandas

リンク

pandasで時系列データを扱う（pandas.Seriesとpandas.DataFrameを使って時系列データを扱う）１ - 日常メモ

話題は変わるが、「pandasによるStackingとUnstacking」の続き。時系列データについては、これまで以下で扱ったので重複する部分もあると思うが反復練習ということで気にしない。・Pythonでの時系列データの扱い１　〜　文字列とdatetimeの変換・Pythonでの時系列データの扱い２　〜　時系列データの作成および選択・Pythonでの時系列データの扱い３　〜　時系列データの頻度設定・Pythonでの時系列データの扱い４　〜　「祝日の取得」および「祝日を考慮した営業日の取得」・pandas_datareader.dataのDataReaderを使用して株価を取得する　〜　pandas.Panel型で取得したデータ構造からpandas.Panel.minor_xsを使用して特定の銘柄のDataFrameを取得する扱うテーマは次。１．時系列データとDatetim

mnru 2017/05/30

pandas

リンク

pandas の loc、iloc、ix の違い – python | コード７区

from pandas import DataFrame df=DataFrame([[1,2,3], [10,20,30], [100,200,300], [1000,2000,3000]], index=['row_0', 'row_1','row_2','row_3'], columns=['col_0','col_1','col_2']) #----------------------------- # col_0 col_1 col_2 # row_0 1 2 3 # row_1 10 20 30 # row_2 100 200 300 # row_3 1000 2000 3000 #----------------------------- # # 行ラベルを指定 # df.loc[['row_2','row_3']] #----------------------------

mnru 2017/05/30

pandas

リンク

pandasでよく使う文法まとめ - Qiita

Pythonのデータ分析用ライブラリ「pandas」でよく使う文法をまとめました． Change log 2019-02-18　表示拡大の方法を更新 2018-05-06　コメント反映（pd.set_option('display.width', 100)） 2018-02-14　リンクの修正 2017-11-01　df.fillna(method='ffill')の説明を修正 2017-06-09　リンク切れ等の修正 2016-10-10　例の編集 2016-06-21　df.rolling, pd.date_range, pd.datetime, df.pivotの追加，その他の例の追加

mnru 2017/05/23

pandas

リンク

pandas.DataFrame.to_sqlの落とし穴と対処法 - Qiita

バッチでデータフレーム型のデータを元に、DB上に仮テーブルを作ったものの object型のカラムのデータの64文字目以降が勝手に消えていた。エラーも警告も出なかったのに…なので対処法まとめ。以下のようなデータを元にDBにテーブルを作るとする(nameは70文字) name,age AAAAAAAAAABBBBBBBBBBCCC CCC CCCCDDDDDDDDDDEEEEEEEEEEFFFFFFFFFFGGGGGGGGGG,20 AAAAAAAAAABBBBBBBBBBCCC CCC CCCCDDDDDDDDDDEEEEEEEEEEFFFFFFFFFFGGGGGGGGGG,18 AAAAAAAAAABBBBBBBBBBCCC CCC CCCCDDDDDDDDDDEEEEEEEEEEFFFFFFFFFFGGGGGGGGGG,23 AAAAAAAAAABBBBBBBBBBCCC CCC CCCCDDDDD

mnru 2017/05/23

pandas

リンク

pandasメモ - Qiita

Python for Data Analysisの日本語版発売記念によく使いそうなものとか詰まりそうなところとかめちゃくちゃ長くなってしまったので目次複数のSeriesを結合してDataFrameに DataFrameのインデックス参照 columnの参照 rowの参照行と列を同時に範囲指定して参照 (ixによる参照) Seriesのインデックス参照 bool値によるマスキング Series同士, DataFrame同士の演算階層的インデックス stackメソッドとunstackメソッド名前付け行または列の名前付けインデックスラベル自体の名前付けビンニング列とインデックスの変換ランダムサンプリングカテゴリカルデータをダミー変数化グルーピング複数のSeriesを結合してDataFrameに concatを使ってでaxis=1にすれば良い s1 = pd.Serie

mnru 2017/05/22

pandas

リンク

pandas でメモリに乗らない大容量ファイルを上手に扱う - StatsFragments

概要分析のためにデータ集めしていると、たまにマジか！? と思うサイズの CSV に出くわすことがある。なぜこんなに育つまで放っておいたのか、、、？このエントリでは普通には開けないサイズの CSV を pandas を使ってうまいこと処理する方法をまとめたい。サンプルデータたまには実データ使おう、ということで WorldBankから GDPデータを落とす。以下のページ右上の "DOWNLOAD DATA" ボタンで CSV を選択し、ローカルに zip を保存する。解凍した "ny.gdp.mktp.cd_Indicator_en_csv_v2.csv" ファイルをサンプルとして使う。 http://data.worldbank.org/indicator/NY.GDP.MKTP.CD?page=1 補足 pandas の Remote Data Access で WorldBan

mnru 2017/05/18

pandas

リンク

開発者がビッグデータ分析にPythonを使う時によくやる間違い | POSTD

システムの構築、新しい技術の習得、PythonやDevOpsなどに情熱を注ぐソフトウェア開発者です。現在はチューリッヒを拠点とするビッグデータのスタートアップで働いており、データ分析およびデータ管理ソリューションのためのPythonの技術を磨いています。 1 はじめに Python は開発時間を短縮できるという点で一般的に評価の高い言語です。しかし、Pythonを使って効率よくデータ分析をするには、思わぬ落とし穴があります。動的かつオープンソースのシステムであるという特徴は、初めは開発を容易にしてくれますが、大規模システムの破綻の原因になり得ます。ライブラリが複雑で実行時間が遅く、データの完全性を考慮した設計になっていないので、開発時間の短縮どころか、すぐに時間を使い果たしてしまう可能性があるのです。この記事ではPythonやビッグデータで作業をする時に、最も時間を無駄にしがちな事柄につ

mnru 2017/04/21

pandas

リンク

クラウドワークス内でPandasとJupyterの布教活動をおこなった話 - クラウドワークスエンジニアブログ

どうも、Androidアプリの開発をやっています、エンジニアの岩木（@YusukeIwaki）です。社内ではRubyistたちに囲まれながら、孤独にJavaを書いています（誇張ｗ）クラウドワークスでは、施策の事前調査や効果検証などのデータ測定を、エンジニアが率先しておこなう開発プロセスをとっています。データ収集ではSQLを使う機会が多いのですが、「会員登録した人の、１週間単位での発注率の推移」のような複雑なデータを取ろうとした時に、わりとつらい思いをすることが多かったため、SQL運用のつらみを解決すべくPandasとJupyterの布教活動をおこなった！という話を共有します。そもそも解決したかった"SQLのつらみ" 「データ収集をいろんなエンジニアがやる」というシーンにおいてクエリの結果の再利用性が低い「よく使うベースクエリは関数化して、みんなで使い回す」ということができない。

mnru 2017/04/11

リンク

Pandas + Jupyter notebookで分析を便利に - Qiita

環境 Python 3.5.1 :: Anaconda 2.5.0 pandas.DataFrame使ってないの？ pythonでcsv読み込んだり、json読み込んだり、DBからSQL文書いてexecute(hogehoge)とかやるのは、大変じゃないですか？DBなんかは特に，エラー処理でrollbackとかcommitとか分けたり非常にめんどくさい。その悩み、pandas使えば解決しますよーよくあるcsvの読み込み

mnru 2017/04/11

リンク

Python pandas 図でみるデータ連結 / 結合処理 - StatsFragments

なんかぼやぼやしているうちにひさびさの pandas エントリになってしまった。基本的な使い方については網羅したい気持ちはあるので、、、。今回はデータの連結 / 結合まわり。この部分公式ドキュメントがちょっとわかりにくいので改訂したいなと思っていて、自分の整理もかねて書きたい。公式の方はもう少し細かい使い方も載っているのだが、特に重要だろうというところだけをまとめる。連結 / 結合という用語は以下の意味で使っている。まず憶えておいたほうがよい関数、メソッドは以下の 4 つだけ。連結: データの中身をある方向にそのままつなげる。pd.concat, DataFrame.append 結合: データの中身を何かのキーの値で紐付けてつなげる。pd.merge, DataFrame.join 連結 (concatenate) 柔軟な連結 pd.concat ふたつの DataFram

mnru 2017/01/25

pandas

リンク

Python pandas でのグルーピング/集約/変換処理まとめ - StatsFragments

これの pandas 版。準備サンプルデータは iris で。補足 (11/26追記) rpy2 を設定している方は rpy2から、そうでない方はこちらから .csv でダウンロードして読み込み (もしくは read_csv のファイルパスとして直接 URL 指定しても読める)。 import pandas as pd import numpy as np # 表示する行数を設定 pd.options.display.max_rows=5 # iris の読み込みはどちらかで # rpy2 経由で R から iris をロード # import pandas.rpy.common as com # iris = com.load_data('iris') # csv から読み込み # http://aima.cs.berkeley.edu/data/iris.csv names

mnru 2016/09/12

pandas

リンク

10分でPandasを学ぶ - Qiita

DataFrameを作る DataFrameの作成方法も幾つかあるので、その整理。まずは、DataFrameをnumpyで行列を作り、インデックスとラベルを貼り付けるパターン。インデックスの作成。 #Create a index dates = pd.date_range("20130101", periods=6) dates <class 'pandas.tseries.index.DatetimeIndex'> [2013-01-01, ..., 2013-01-06] Length: 6, Freq: D, Timezone: None #Create a DatFrame df = pd.DataFrame(np.random.randn(6,4),index = dates, columns = list("ABCD")) df A B C D 2013-01-01 0.7

mnru 2016/09/06

pandas

リンク

Pythonでpandasを使う - 計算物理屋の研究備忘録

目次インストール import 使い方 csvファイルの読み込み csvファイルをデータフレームとして読み込むコンマ区切りじゃないとき headerが無い場合最初の数行をskip n行目をskip カラム名を指定して読み込むカラム名、インデックス名を変えるデータの参照方法行をスライシングカラム名を指定 DataFrame.ix を使う条件でフィルタデータの追加行を追加データ解析合計値を求める列にデータを追加するインストール pipとかcondaコマンドを使って入れるだけ。 $ conda install pandas import 決まり文句 import matplotlib.pyplot as plt import numpy as np import pandas as pd 使い方 csvファイルの読み込み csvファイルの例。これを例として使う $ c