こんにちは、弊社で1ヶ月半ほどインターンとして働いているt_sakaiです。 インターンシップの課題として、メモリ使用量が大きくて将来問題になりそうなバッチ処理をスケールアウトできるように書き換えるという課題に取り組みました。 解決手段として流行りのApache Sparkを使ってみたので、本記事ではこれについて書こうと思います。 本記事で使っている言語はScalaです。 前編ではSparkを選んだ理由とSparkの基礎について説明したので、後編では既存プログラムをSpark用に書き換える際の問題と解決方法について説明します。 本記事で紹介する内容 前編 今回解決したかった課題 なぜSparkを選んだのか RDDについて 簡単なプログラムをSparkで書き換える 後編(本記事) 本番プログラムをSpark用に書き換える はまりどころ 本番プログラムをSpark用に書き換える モデル(DB)