はじめに はじめまして、IBMの田中裕一です。 デバイスやセンサの高度化による、モバイルから取得できるデータの多様化、IoTの本格化といったハードウェアの面、機械学習の本格的な広がりといったソフトウェアの面、双方の進歩もあり、ビッグデータのキーワードのもと、大規模なデータ分析基盤を構築するデータエンジニアやデータサイエンティストの重要性が増しています。 昨今いろいろな分散処理基盤や機械学習ライブラリが登場してきましたが、本連載では数回に分けてApacheプロジェクトでも人気が高いApache Spark(以下、Spark)を使い、Sparkでのプログラミングやデータ処理を中心に見ていきます。 また、分散処理系で入門時につまづくことが多いClusterでの動作や、Sparkの詳細な挙動を連載後半に回すことで、Sparkを使う際のハードルを下げられればと思っています。 対象読者 連載を通して、