タグ

ブックマーク / qiita.com/uryyyyyyy (1)

  • EMR上でPython3系でpysparkする - Qiita

    概要 機械学習・データサイエンスといえばpython(numpy/iPython/scikit-learn)なのでpythonで書いていきたい。 しかし、仕事柄大規模なデータを扱うことになるので、分散できるsparkのAPIで取り扱いたい。 ということで(EMR)クラスタ上でpysparkを動かしてみます。 今からpython学ぶなら3系だろうということで3系(Anaconda3-4.0)で動かします。 不安だったので確認したけど、sparkは1,4からpython3系に対応してますね。 手順 基的にこちらの記事を参考にしました。丁寧に書かれていて素晴らしいです。 Spark + IPython環境をAmazon EMR上で構築し、簡単なData解析を動かして見る (第1回:環境構築編) スクリプト準備 EMRクラスタ立ち上げ iPython Notebook起動 動作確認 スクリプト準

    EMR上でPython3系でpysparkする - Qiita
  • 1