8月中はSparkを利用したレコメンドシステムの構築を主にやっていたので、今回はそのことについて記載していきます。 Sparkとは BigDataを高速に分散処理を行うフレームワークで、以下のパッケージで構成されている。 Spark Core Spark SQL Spark Streaming MLib(Machine Learning Library) GraphX サポートしている言語 Python Java Scala R 1.6以降からデータフレームの機能が追加され、以降アップデートの際、RDDで提供されている機能が徐々に移植されている。 2.0以降はMLibでRDDはメンテナンスモードに入り、新規機能の追加はRDDでは行われなくなる模様。 EMR on Spark EMRとは Amazon EMR は、AWS でビッグデータフレームワーク (Apache Hadoop や Apa