Spark v1.3.0 で追加された DataFrame 、結構いいらしいという話は聞いていたのだが 自分で試すことなく時間が過ぎてしまっていた。ようやく PySpark を少し触れたので pandas との比較をまとめておきたい。内容に誤りや よりよい方法があればご指摘 下さい。 過去に基本的なデータ操作について 以下 ふたつの記事を書いたことがあるので、同じ処理のPySpark 版を加えたい。今回は ひとつめの "簡単なデータ操作〜" に相当する内容。 pandas 版 簡単なデータ操作を Python pandas で行う - StatsFragments Python pandas でのグルーピング/集約/変換処理まとめ - StatsFragments 準備 環境は EC2 に作る。Spark のインストールについてはそのへんに情報あるので省略。サンプルデータは iris を
![簡単なデータ操作を PySpark & pandas の DataFrame で行う - StatsFragments](https://cdn-ak-scissors.b.st-hatena.com/image/square/874fa7992f3ca2ba91a710439d4223117fd161a9/height=288;version=1;width=512/http%3A%2F%2Fecx.images-amazon.com%2Fimages%2FI%2F51Bc6CVwWSL.jpg)