タグ

pythonとSparkに関するFluss_kawaのブックマーク (1)

  • 簡単なデータ操作を PySpark & pandas の DataFrame で行う - StatsFragments

    Spark v1.3.0 で追加された DataFrame 、結構いいらしいという話は聞いていたのだが 自分で試すことなく時間が過ぎてしまっていた。ようやく PySpark を少し触れたので pandas との比較をまとめておきたい。内容に誤りや よりよい方法があればご指摘 下さい。 過去に基的なデータ操作について 以下 ふたつの記事を書いたことがあるので、同じ処理のPySpark 版を加えたい。今回は ひとつめの "簡単なデータ操作〜" に相当する内容。 pandas 版 簡単なデータ操作を Python pandas で行う - StatsFragments Python pandas でのグルーピング/集約/変換処理まとめ - StatsFragments 準備 環境は EC2 に作る。Spark のインストールについてはそのへんに情報あるので省略。サンプルデータは iris を

    簡単なデータ操作を PySpark & pandas の DataFrame で行う - StatsFragments
  • 1