[B! Python][pandas] ohnabeのブックマーク

Scikit-learn pipelines and pandas

ohnabe 2017/10/04

リンク

PythonでCSVを高速＆省メモリに読みたい - tkm2261's blog

今日はPython (Pandas)で高速にCSVを読むことに挑戦したいと思います。 Kaggleに参加するたびに、イライラしていたので各実装の白黒はっきりさせようと思います。 R使いが羨ましいなぁと思う第一位がCSV読込が簡単に並列出来て速いことなので、なんとかGILのあるPythonでも高速に読み込みたいと思います。ただ、この検証ではコーディング量が多いものは検証しません。 CSV読込は頻出するので、フットワークの軽さが重要です。（オレオレライブラリ嫌い） Pickleは早いけど。。。結論はDask使おう！検証環境データ速度検証 pandas.read_csv() pandas.read_csv() (dtype指定) pandas.read_csv() (gzip圧縮) numpy.genfromtxt() pandas.read_csv() (chunksize指定 +

ohnabe 2017/08/04

リンク

Cythonの導入とPandasでapplyする方法の調査 | mwSoft

Cythonの導入とPandasでapplyする方法の調査概要 CythonはPythonに型指定を書き足すことでコンパイルできるようにして、実行速度を何倍にも速くできるような言語。Pythonユーザーであればそれほど困ることなく使え、且つ実行速度の問題を解決できる、大変ありがたい言語である。個人的にPandas使っている時に、ちょっとPythonのコードをapplyで噛ませると処理速度が急に遅くなってしまう問題を、Cythonで関数を記述することで解決したいというモチベーションの元に手を出した。今回は導入からapplyに渡す方法の検討までを行う。 @CretedDate 2016/03/19 @Versions python 3.4, pandas0.17.1, cython0.23.4 インストール pipでいける。 $ sudo pip install cython 簡易サンプ

ohnabe 2017/06/30

リンク

【野球Hack】PythonとJupyterで「一球速報」っぽいモノを作る(MLB編) #pyhack - Lean Baseball

この記事は,「jupyter notebook Advent Calendar 2016」 12/15のネタとなります(といいつつ当日書けそうにないので前倒しで公開します). 先日(12/10)のPython mini Hack-a-thon(71回目)にて, Jupyterとメジャーリーグ一球速報データを用いた一球速報っぽいモノを作る！という目標を立てて色々とやっていて,一定の成果が出たので公開したいと思います. Starting Member はじめに Who am I? 完成イメージ&コード今回使ったモノ【おさらい】野球のストライクゾーンについて Pitch f/xデータの座標系仕様(ざっくり) Jupyter + pandas + matplotlib(seaborn)で実装まとめ&次の方へ【Appendix】今回,参考にした書籍はじめにこの記事内の統一ルールです.

ohnabe 2016/12/11

リンク

TreasureDataとPandasとJupyterでインタラクティブにデータを可視化する。 - Qiita

サインアップこちらのページからサインアップを行います。現在のところ、14日間のトライアル期間があるため、その間はPrestoを利用することが可能です。 Pandasは、公式から引用すると、下記みたいな感じのツールです。 pandas is an open source, BSD-licensed library providing high-performance, easy-to-use data structures and data analysis tools for the Python programming language. Pythonのインストール Ubuntu14.04ではPython3.4が入っているが、python3がエイリアスになっていたりして、面倒なので、pyenvで環境構築を行います。参考: http://qiita.com/akito1986/it em

ohnabe 2016/12/08

リンク

seaborn.FacetGrid — seaborn 0.13.2 documentation

seaborn.FacetGrid# class seaborn.FacetGrid(data, *, row=None, col=None, hue=None, col_wrap=None, sharex=True, sharey=True, height=3, aspect=1, palette=None, row_order=None, col_order=None, hue_order=None, hue_kws=None, dropna=False, legend_out=True, despine=True, margin_titles=False, xlim=None, ylim=None, subplot_kws=None, gridspec_kws=None)# Multi-plot grid for plotting conditional relationships.

ohnabe 2016/12/04

リンク

Python でパイプ演算子を使いたい <2> - StatsFragments

ネタ記事です。/ This is a joke post which makes no practical sense. 過去にこんなエントリを書いた。 sinhrks.hatena blog.com R ではパイプ演算子 %>% を使って連続した処理を記述できる。式に含まれる x, y, z は非標準評価 (NSE) によって data.frame の列として解決される。 # R (magrittr + dplyr) df %>% mutate(x = y + z) %>% group_by(x) %>% summarize_each(funs(sum)) Python (pandas) ではほぼ同じ処理をメソッドチェインを使って書ける。チェインとパイプ演算子でどちらが読みやすいかは好みの問題だと思うものの、式の中に何度も df が出てくるのはちょっとすっきりしない。 # Python

ohnabe 2016/10/18

リンク

開発者がビッグデータ分析にPythonを使う時によくやる間違い | POSTD

システムの構築、新しい技術の習得、PythonやDevOpsなどに情熱を注ぐソフトウェア開発者です。現在はチューリッヒを拠点とするビッグデータのスタートアップで働いており、データ分析およびデータ管理ソリューションのためのPythonの技術を磨いています。 1 はじめに Python は開発時間を短縮できるという点で一般的に評価の高い言語です。しかし、Pythonを使って効率よくデータ分析をするには、思わぬ落とし穴があります。動的かつオープンソースのシステムであるという特徴は、初めは開発を容易にしてくれますが、大規模システムの破綻の原因になり得ます。ライブラリが複雑で実行時間が遅く、データの完全性を考慮した設計になっていないので、開発時間の短縮どころか、すぐに時間を使い果たしてしまう可能性があるのです。この記事ではPythonやビッグデータで作業をする時に、最も時間を無駄にしがちな事柄につ