はじめに 先日、AWSのEMR(Elastic MapReduce)というサービスを使ってApache Sparkに初めて触ってみました。サンプルプログラムを作成するところまでの手順を自分でまとめてみました。前提としてS3とEC2などに触ったことがあり、キーペアやセキュリティグループは分かる方を対象としています。10分位で試せるようにしてありますので、SparkやEMRに触ったことがない方はぜひやってみてください。 1.EC2のキーペアを用意する EC2インスタンスにSSHで接続するのでキーペアがない場合は作成する必要があります。以下のAWSのサイトを見て作ってください。キーペアがすでにある方はスキップしてもらって結構です。 Amazon EC2 のキーペア - Amazon Elastic Compute Cloud 2.サンプルのファイルを用意する 今回はテキストファイルの中に単語の出