はじめに Spark SQLに触ってみたので手順などをまとめました。Spark SQLというのは Apache Hiveのようにクエリ実行することで分散処理ができるものです。Hiveとの違いはインメモリであるために高速に処理できることとクエリ言語にSQLが使えることです。10分位で試せると思いますのでSparkやEMRに触ったことがない方はぜひやってみてください。 1.EC2のキーペアを用意する EC2インスタンスにSSHで接続するのでキーペアがない場合は作成する必要があります。以下のAWSのサイトを見て作ってください。 キーペアがすでにある方はスキップしてもらって結構です。 Amazon EC2 のキーペア - Amazon Elastic Compute Cloud 2.サンプルのファイルを用意する 今回は私が趣味でやっているポケモンGOで捕まえたポケモンの名前、CP、タイプ情報が入っ
![はじめてのSpark SQL!Amazon EMRを使って10分で試してみる | DevelopersIO](https://cdn-ak-scissors.b.st-hatena.com/image/square/46fafde613a125aacd21cca3f78d3bb8d8855101/height=288;version=1;width=512/https%3A%2F%2Fdevio2023-media.developers.io%2Fwp-content%2Fuploads%2F2014%2F05%2FAmazon_EMR.png)