タグ

ブックマーク / lab.adn-mobasia.net (2)

  • 【前編】Apache Sparkを使って、メモリ使用量が大きいバッチ処理をスケールアウト | ADN LAB's Blog

    初めまして、弊社で1ヶ月半ほどインターンとして働いているt_sakaiです。 インターンシップの課題として、メモリ使用量が大きくて将来問題になりそうなバッチ処理をスケールアウトできるように書き換えるという課題に取り組みました。 解決手段として流行りのApache Sparkを使ってみたので、記事ではこれについて書こうと思います。 記事で使っている言語はScalaです。 Scalaについては、弊社のk_oomoriが書いた記事があるのでよろしければご覧ください。 紹介する内容 前編(記事) 今回解決したかった課題 なぜSparkを選んだのか RDDについて 簡単なプログラムをSparkで書き換える 後編 番プログラムをSpark用に書き換える はまりどころ 紹介しない内容 Hadoopとの比較 Spark環境の構築 性能チューニング 解決したかった課題 弊社のScalaで書かれたある

  • とあるオープンソースの分散処理基盤 -Hadoop(ハドゥープ)- | ADN LAB's Blog

    Introduction – Hadoopとは? こんにちは、k_oomoriです。今回は、オープンソースミドルウェアのApache Hadoopを取り上げたいと思います。 コンピュータの性能は日々進化しているとはいえ、1台のマシンの性能にはおのずと限界があります。また、その時々で常に最高性能のマシンを維持していこうとすると莫大なコストがかかってしまいます。そこで登場するのが分散処理という考え方です。1台1台は特に高性能ではないマシンでも多数並べて処理を同時並行で行うことにより、全体の処理性能を上げようというアプローチです。この方法では性能が足りなくなった場合にはマシンを追加することで容易に性能向上ができる反面、分散処理の実装そのものが難しいという問題がありました。例えば、処理の振り分けアルゴリズムやサーバの死活監視、結果の集約など、考えなければならないことがいくつもあります。この分散処理

  • 1