yukimori_726のブックマーク - はてなブックマーク

【前編】Apache Sparkを使って、メモリ使用量が大きいバッチ処理をスケールアウト | ADN LAB's Blog
初めまして、弊社で１ヶ月半ほどインターンとして働いているt_sakaiです。インターンシップの課題として、メモリ使用量が大きくて将来問題になりそうなバッチ処理をスケールアウトできるように書き換えるという課題に取り組みました。解決手段として流行りのApache Sparkを使ってみたので、本記事ではこれについて書こうと思います。本記事で使っている言語はScalaです。 Scalaについては、弊社のk_oomoriが書いた記事があるのでよろしければご覧ください。紹介する内容前編（本記事）今回解決したかった課題なぜSparkを選んだのか RDDについて簡単なプログラムをSparkで書き換える後編本番プログラムをSpark用に書き換えるはまりどころ紹介しない内容 Hadoopとの比較 Spark環境の構築性能チューニング解決したかった課題弊社のScalaで書かれたある
yukimori_726 2016/01/30
spark
リンク
とあるオープンソースの分散処理基盤 -Hadoop（ハドゥープ）- | ADN LAB's Blog
Introduction – Hadoopとは? こんにちは、k_oomoriです。今回は、オープンソースミドルウェアのApache Hadoopを取り上げたいと思います。コンピュータの性能は日々進化しているとはいえ、1台のマシンの性能にはおのずと限界があります。また、その時々で常に最高性能のマシンを維持していこうとすると莫大なコストがかかってしまいます。そこで登場するのが分散処理という考え方です。1台1台は特に高性能ではないマシンでも多数並べて処理を同時並行で行うことにより、全体の処理性能を上げようというアプローチです。この方法では性能が足りなくなった場合にはマシンを追加することで容易に性能向上ができる反面、分散処理の実装そのものが難しいという問題がありました。例えば、処理の振り分けアルゴリズムやサーバの死活監視、結果の集約など、考えなければならないことがいくつもあります。この分散処理
yukimori_726 2014/04/03
hadoop
リンク
1

はてなブックマーク

タグ

ブックマーク / lab.adn-mobasia.net (2)

お知らせ

今週のはてなブックマーク数ランキング（2024年11月第2週）

今週のはてなブックマーク数ランキング（2024年11月第1週）

月間はてなブックマーク数ランキング（2024年10月）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス

タグ

ブックマーク / lab.adn-mobasia.net (2)

【前編】Apache Sparkを使って、メモリ使用量が大きいバッチ処理をスケールアウト | ADN LAB's Blog

とあるオープンソースの分散処理基盤 -Hadoop（ハドゥープ）- | ADN LAB's Blog

お知らせ

今週のはてなブックマーク数ランキング（2024年11月第2週）

今週のはてなブックマーク数ランキング（2024年11月第1週）

月間はてなブックマーク数ランキング（2024年10月）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス