[B! python][Spark] Fluss_kawaのブックマーク

Fluss_kawa id:Fluss_kawa

pythonとSparkに関するFluss_kawaのブックマーク (1)

簡単なデータ操作を PySpark & pandas の DataFrame で行う - StatsFragments
Spark v1.3.0 で追加された DataFrame 、結構いいらしいという話は聞いていたのだが自分で試すことなく時間が過ぎてしまっていた。ようやく PySpark を少し触れたので pandas との比較をまとめておきたい。内容に誤りやよりよい方法があればご指摘下さい。過去に基本的なデータ操作について以下ふたつの記事を書いたことがあるので、同じ処理のPySpark 版を加えたい。今回はひとつめの "簡単なデータ操作〜" に相当する内容。 pandas 版簡単なデータ操作を Python pandas で行う - StatsFragments Python pandas でのグルーピング/集約/変換処理まとめ - StatsFragments 準備環境は EC2 に作る。Spark のインストールについてはそのへんに情報あるので省略。サンプルデータは iris を
Fluss_kawa 2015/04/27
pandas

データ

あとで読む

python

Spark
リンク
1

お知らせ

もっと読む

公式Twitter

@HatenaBookmark
リリース、障害情報などのサービスのお知らせ
@hatebu
最新の人気エントリーの配信

キーボードショートカット一覧

j次のブックマーク

k前のブックマーク

lあとで読む

eコメント一覧を開く

oページを開く

設定を変更しましたx