PySpark入門として、2014年11月06日に株式会社ALBERTで開催した社内勉強会で利用したスライドです。 PySparkのインストール方法、簡単な使い方、IPythonからPySparkをinteractive modeで触ってみるところまでを紹介しています。
PySpark入門として、2014年11月06日に株式会社ALBERTで開催した社内勉強会で利用したスライドです。 PySparkのインストール方法、簡単な使い方、IPythonからPySparkをinteractive modeで触ってみるところまでを紹介しています。
前回投稿でインストールしたSparkを、pysparkから軽く触ってみる。 環境はAmazon ec2上のCentOS 6.5、CDH5(beta2)。 その前にテストデータを用意しておく。過去記事にも書いたダミーデータ生成ライブラリでこんなCSVを作った。データは10000行。ダミーデータ作るのも面倒だったらログファイルとか、テキストデータなら何でもいいと思う。 29297,Ms. Jolie Haley DDS,2014-03-19 09:43:20 23872,Ayana Stiedemann,2014-03-03 10:31:44 23298,Milton Marquardt,2014-03-26 22:19:41 25038,Damian Kihn,2014-03-23 03:30:08 23743,Lucie Stanton,2014-03-14 20:53:33 28979,
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く