Apache Sparkについて Apache Software Foundationで最近トップレベルプロジェクトになり5月に最速でバージョン1がリリースされた分散処理基盤のオープンソースプロダクト。 MapReduce on HDFSとことなり繰り返し演算処理の情報をシェアードメモリで共有するため演算速度が爆速とうたわれています。 バッチでしか処理できなかった部分をリアルタイム化、タイムラグを減らすなど今後大きな期待ができるプロジェクトです。 参考他プロジェクト Twitter Stormとか EC2で簡単にクラスタを構築できるスクリプトが用意されています。 こちらの日本語訳をさらっと。変なところがあったらご指摘ください。 Quick StartやEC2での導入ガイドも和訳していますのであわせてご覧ください。 Quick Start http://qiita.com/mychaelst