このエントリは G*Advent Calendar(Groovy,Grails,Gradle,Spock...) Advent Calendar 2014 - Qiita の12/20担当分です。 Apache Sparkとは? Hadoopエコシステムにおける次世代の分散処理基盤として注目されています。インメモリ処理とDAGによるタスクスケジューリングを特徴とし、分散処理に必要な耐障害性を備えています。また、RDDという共通のプログラミングモデルの上で機械学習やストリーミング処理が統一的に扱えるため、複雑なビッグデータ処理を実装するのに有利です。 概要をつかむにはこのへんの資料がよいかと思います。 Spark MLlibではじめるスケーラブルな機械学習 from NTT DATA OSS Professional Services Groovyから使ってみようと思った動機 公式サイト A