こんにちは。 間が空いてしまっていますが、 Spark Summitの資料をとりあえず読んでみよう、の第2弾です。 今回は「Spark Performance」を見てみました。 概要の次にいきなり性能の資料に入ってしまうあたり趣味を反映している気もしますが^^; では、見てみます。 あと、この情報はSpark0.8.1準拠だそうです。現状の最新版ですね。 Spark deep dive まず、下記のRDDの記述によって性能が変わることを理解いただきたい。 ■RDD (patrick, $24), (matei, $30), (patrick, $1), (aaron, $23), (aaron, $2), (reynold, $10), (aaron, $10)….. ■パターン1(groupByKey) このパターンの場合、groupByKeyオペレーションを実行したタイミングで全データ