Google Cloud StorageをHadoopのファイルシステムとして使うことのできるようになるGoogle Cloud Storage Connector for HadoopというライブラリがGoogleから出ています。 これを使うと、SparkはHDFSではなくGoogle Cloudに対してジョブを実行できるようになります。 Google Cloud Storage Connector for HadoopによってHDFSが使えなくなるわけではなく、HDFSと併用してGoogle Cloudを使うことができるようになるだけなので、キャッシュやテンポラリ・ファイルはHDFSの方に載せた方がよいでしょう。 早速使ってみます。 1. 秘密鍵の発行 まずはGoogle Cloud Service接続用のクライアントIDと秘密鍵の発行を行います。 これはGoogle Develope