PythonからSparkを利用するための機能、PySparkを使いこなすテクニックとノウハウを習得する書籍です。はじめに高速になったSpark 2.0の特徴とアーキテクチャを解説し、次に構造化及び非構造化データの読み取り、PySparkで利用できる基本的なデータ型、MLlibとMLパッケージによる機械学習モデルの構築を説明します。さらにGraphFramesを使ったグラフの操作、ストリーミングデータの読み取り、クラウドへのモデルのデプロイなどの方法を豊富なサンプルと一緒に学びます。またローカルでのSpark+Python+Jupyter環境の構築方法も紹介。大規模なデータを処理し、活用したいエンジニア必携の一冊です。 序文 訳者まえがき はじめに 1章 Sparkを理解する 1.1 Apache Sparkとは 1.2 SparkのジョブとAPI 1.2.1 実行のプロセス 1.2.2