こんにちは、平野です。 SparkはHadoopと一緒に語られることが多いのでHadoopと一緒でないと分散処理環境が使えないと思っている方もいるかもしれませんが、Sparkだけで分散処理のクラスタを作る機能があり、構築も非常に簡単ですので、その方法を紹介します。 以下、Sparkをインストールした場所をSPARK_HOMEとします。 なおインストールの手順は こちら の記事を参照してください。 手順 まずは、クラスタのマスタープロセスを立ち上げます。 クラスタを管理するコマンド一式は$SPARK_HOME/sbin/ディレクトリの中に含まれています。 $ cd $SPARK_HOME $ sbin/start-master.sh starting org.apache.spark.deploy.master.Master, logging to /Users/hirano.shigeto
環境変数を設定します。MavenとSparkのパスは個人の環境に合わせて変更してください。 echo 'export PATH=$HOME/.apache-maven-3.6.2/bin:$PATH' >> ~/.bash_profile echo 'export SPARK_HOME=$HOME/.spark-2.2.1-bin-hadoop2.7' >> ~/.bash_profile echo 'export JAVA_HOME=`/usr/libexec/java_home -v 1.8`' >> ~/.bash_profile Pythonでローカル開発 AWS Glue Pythonライブラリを取得 GitHubからAWS Glue Pythonライブラリをダウンロードします。以降の作業はAWS Glue Pythonライブラリのルートディレクトリで行います。 https://
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く