前回、pickleというオブジェクトを保存する方法を紹介しました。ひょっとして、このpickleを使うとpandasモジュールを使ったデータ処理結果を保存しておいたり、再度読み出すことが速くなるのではないかと思い、リードライトする速度を測ることにしました。 まずは150万行程度のcsvファイルを以下コードで生成します。 def file_write_test(): xy=[] x=np.linspace(-np.pi,np.pi,1500000) for r in x: y=np.sin(r) xy.append([r,y]) wfilename='csv_write.dat' csv_write(wfilename,xy,dialect='comma') return xy
Table Of Contents What’s New Installation Contributing to pandas Frequently Asked Questions (FAQ) Package overview 10 Minutes to pandas Tutorials Cookbook Intro to Data Structures Essential Basic Functionality Working with Text Data Options and Settings Indexing and Selecting Data MultiIndex / Advanced Indexing Computational tools Working with missing data Group By: split-apply-combine Merge, join
こちらの続き。 上の記事では bool でのデータ選択について 最後にしれっと書いて終わらせたのだが、一番よく使うところなので中編として補足。 まず __getitem__ や ix の記法では、次のような指定によって 行 / 列を選択することができた。 index, columns のラベルを直接指定しての選択 index, columns の番号(順序)を指定しての選択 index, columns に対応する bool のリストを指定しての選択 ここでは上記の選択方法をベースとして、ユースケースごとに Index や Series のプロパティ / メソッドを使ってできるだけシンプルにデータ選択を行う方法をまとめる。 補足 一部の内容はこちらの記事ともかぶる。下の記事のほうが簡単な内容なので、必要な方はまずこちらを参照。 簡単なデータ操作を Python pandas で行う - S
新生活応援期間中とのことですので,"pandas"の使い方,特に日付フォーマットについて取り上げたいと思います.「Pythonはデータ分析に強い」という評判がありますが,これは以下のような「定番」パッケージによって実現されています. "pandas" for representing and analyzing data "NumPy" for basic numeriacal computation "SciPy" for scientific computation including statistics "StatsModels" for regression and other statistical analysis "matplotlib" for visualization (以上,"Think Stats" より引用.) pandas は,Seriesオブジェクト(1次元
Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article? 環境 OS X El Capitan 10.11.6 python: 2.7.11 pandas: 0.18.0 matplotlib: 1.5.1 numpy: 1.10.4 IPython: 4.1.2 初めに Pythonによる作図のおすすめ10 Pythonには様々な作図方法があり、matplotlibというライブラリを使うのが基本です。ただそれは少し野暮ったいので楽にオシャレに描けるようにするseabornというラッパーがあります。これに満足できなかったら、Bokehとかがいいのかもしれません。ggplotはRで使用している方
Last update: 2016-05-06 このページでは、Pandas で作成したデータフレーム同士を結合する方法について紹介します。 2 つのデータフレームを結合する 以下の例では、merge() メソッドを用いて、2 つのデータフレームを作成し、内部結合 (inner join) を行います。 Merge メソッドの使い方
概要 Python で日時/タイムスタンプ関連の操作をする場合は dateutil や arrow を使っている人が多いと思うが、 pandas でもそういった処理がわかりやすく書けるよ、という話。 pandas の本領は多次元データの蓄積/変形/集約処理にあるが、日時操作に関連した強力なメソッド / ユーティリティもいくつか持っている。今回は それらを使って日時操作を簡単に行う方法を書いてく。ということで DataFrame も Series もでてこない pandas 記事のはじまり。 ※ ここでいう "日時/タイムスタンプ関連の操作" は文字列パース、日時加算/減算、タイムゾーン設定、条件に合致する日時のリスト生成などを想定。時系列補間/リサンプリングなんかはまた膨大になるので別途。 インストール 以下サンプルには 0.15での追加機能も含まれるため、0.15 以降が必要。 pip
Suppose I have the following code that plots something very simple using pandas: import pandas as pd values = [[1, 2], [2, 5]] df2 = pd.DataFrame(values, columns=['Type A', 'Type B'], index=['Index 1', 'Index 2']) df2.plot(lw=2, colormap='jet', marker='.', markersize=10, title='Video streaming dropout by category') How do I easily set x and y-labels while preserving my ability to use specific colo
このブログ中の pandas 関連のエントリをまとめた目次です。 最近 pandas 開発チーム と PyData グループ の末席に加えていただき、パッケージ自体の改善にもより力を入れたいと思います。使い方についてご質問などありましたら Twitter で @ ください。 目次につけた絵文字は以下のような意味です。 🔰: 最初に知っておけば一通りの操作ができそうな感じのもの。 🚧: v0.16.0 時点で少し情報が古く、機能の改善を反映する必要があるもの。 🚫: 当該の機能が deprecate 扱いとなり、将来的に 代替の方法が必要になるもの。 基本 簡単なデータ操作を Python pandas で行う 🔰 Python pandas でのグルーピング/集約/変換処理まとめ 🔰 また、上記に対応した比較エントリ: R {dplyr}, {tidyr} Rの data.tab
pandas は可視化のための API を提供しており、折れ線グラフ、棒グラフといった基本的なプロットを簡易な API で利用することができる。一般的な使い方は公式ドキュメントに記載がある。 Visualization — pandas 0.17.1 documentation これらの機能は matplotlib に対する 薄い wrapper によって提供されている。ここでは pandas 側で一処理を加えることによって、ドキュメントに記載されているプロットより少し凝った出力を得る方法を書きたい。 補足 サンプルデータに対する見せ方として不適切なものがあるが、プロットの例ということでご容赦ください。 パッケージのインポート import matplotlib.pyplot as plt plt.style.use('ggplot') import matplotlib as mpl m
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く