タグ

ブックマーク / qiita.com/devneko (1)

  • Sparkのチューニングに関するメモ - Qiita

    Sparkを使った際にチューニングで考慮した点のメモです。 前提となる環境 Spark1.4 元データはJSON データ形式と圧縮コーデック データをParquet形式で扱う 元となるデータはJSON形式ですが、Parquetの方が効率的に扱えるためJSONをParquetに変換します。 必要なデータだけをParquetに保存する DataFrame#select()で必要なカラムだけを選択し、計算に不要なデータを取り除きます。 Parquetの圧縮形式にはsnappyを使用する デフォルトではParquetの圧縮形式はgzip形式ですが、snappyを選択することで高速な圧縮・伸長が行えます。 (追記:2.0ではsnappyがデフォルトになっています) コード例 sqlContext.setConf("spark.sql.parquet.compression.codec", "snap

    Sparkのチューニングに関するメモ - Qiita
    wlbhiro
    wlbhiro 2016/07/20
    速度は、JSON<=Parquet=Avro<SEQUENCEFILE<RCFile
  • 1