[B! spark][pandas] mahler-5のブックマーク

mahler-5 id:mahler-5

sparkとpandasに関するmahler-5のブックマーク (1)

簡単な集約/変換処理を PySpark & pandas の DataFrame で行う - StatsFragments
こちらの続き。 sinhrks.hatena blog.com 準備サンプルデータは iris 。今回は HDFS に csv を置き、そこから読み取って DataFrame を作成する。 # HDFS にディレクトリを作成しファイルを置く $ hadoop fs -mkdir /data/ $ hadoop fs -put iris.csv /data/ $ hadoop fs -ls / Found 1 it ems drwxr-xr-x - ec2-user supergroup 0 2015-04-28 20:01 /data # Spark のパスに移動 $ echo $SPARK_HOME /usr/local/spark $ cd $SPARK_HOME $ pwd /usr/local/spark $ bin/pyspark 補足前回同様に pandas から直接 PySp
mahler-5 2015/08/31
pandas

python

spark
リンク
1

お知らせ

もっと読む

公式Twitter

@HatenaBookmark
リリース、障害情報などのサービスのお知らせ
@hatebu
最新の人気エントリーの配信

キーボードショートカット一覧

j次のブックマーク

k前のブックマーク

lあとで読む

eコメント一覧を開く

oページを開く

設定を変更しましたx