はじめに 追加のライブラリを導入することで、Apache DrillからS3上に配置したJSONに対してSQLクエリを発行できます。 S3上のファイルに直接アクセスできれば、データをマシン上に配置しなくて済むので、EBSの領域を確保しなくて済みます。 また、Apache Drillを使いたいときだけスポットインスタンスを立ち上げるといったことも簡単になり、お財布にもとても嬉しいです。 ちなみに、このページで解説していることをやってみただけです。 http://drill.apache.org/blog/2014/12/09/running-sql-queries-on-amazon-s3/ 動画も公開されていますので手順がわかりやすいです。 https://www.youtube.com/watch?v=jNUsprJNQUg セットアップ 準備 Apache Drillを実行できる環境を