Sparkの概要 Apache Spark は大規模なデータ処理のための統合分析エンジンです。Java, Scale, PythonおよびRの高レベルのAIPを提供し、一般的な実行グラフをサポートする最適化されたエンジンを提供します。また、SQLおよび構造化データ処理のためのSpark SQL、機械学習のためのMLlib、グラフ処理のためのGraphX、逐次計算およびストリーム処理のための構造化ストリーミングを含む高レベルのツールの充実したセットもサポートします。 ダウンロード プロジェクトのwebサイトの ダウンロードページ からSparkを取得します。このドキュメントはSpark バージョン3.2.1のものです。SparkはHDFSおよびYARNのためにHadoopのクライアントライブラリを使用します。ダウンロードは少数の一般的なHadoopバージョンのためにあらかじめパッケージ化され