タグ

ブックマーク / itsneatlife.blogspot.com (1)

  • SparkでS3上のデータを使用する

    http://spark.incubator.apache.org/docs/latest/ec2-scripts.html SparkではローカルファイルやHDFS上のファイル以外に、S3上のファイルもデータとして使用することができます。 読み込む際に、SparkContextにAWSのACCESS_KEYとSECRET_KEYを認識させる必要がありますが、ネット上では色々情報が錯綜していてちょっと良くわかりませんでした。 (Hadoopクラスタのcore-site.xmlに書くとか、S3のURLに含ませるとか) 0.8.1のSparkContext.scala(core/src/main/scala/org/apache/spark/SparkContext.scala)のソースを見てみたら、以下のようになっていました。 /** A default Hadoop Configurati

  • 1