wlbhiroのブックマーク - はてなブックマーク

wlbhiro id:wlbhiro

ブックマーク / qiita.com/devneko (1)

Sparkのチューニングに関するメモ - Qiita
Sparkを使った際にチューニングで考慮した点のメモです。前提となる環境 Spark1.4 元データはJSON データ形式と圧縮コーデックデータをParquet形式で扱う元となるデータはJSON形式ですが、Parquetの方が効率的に扱えるためJSONをParquetに変換します。必要なデータだけをParquetに保存する DataFrame#select()で必要なカラムだけを選択し、計算に不要なデータを取り除きます。 Parquetの圧縮形式にはsnappyを使用するデフォルトではParquetの圧縮形式はgzip形式ですが、snappyを選択することで高速な圧縮・伸長が行えます。 (追記：2.0ではsnappyがデフォルトになっています) コード例 sqlContext.setConf("spark.sql.parquet.compression.codec", "snap
wlbhiro 2016/07/20
速度は、JSON<=Parquet=Avro<SEQUENCEFILE<RCFile

Spark

JSON
リンク
1

お知らせ

もっと読む

公式Twitter

@HatenaBookmark
リリース、障害情報などのサービスのお知らせ
@hatebu
最新の人気エントリーの配信

キーボードショートカット一覧

j次のブックマーク

k前のブックマーク

lあとで読む

eコメント一覧を開く

oページを開く

設定を変更しましたx