タグ

ブックマーク / lab.adn-mobasia.net (4)

  • 【後編】Apache Sparkを使って、メモリ使用量が大きいバッチ処理をスケールアウトADN LAB's Blog | ADN LAB's Blog

    こんにちは、弊社で1ヶ月半ほどインターンとして働いているt_sakaiです。 インターンシップの課題として、メモリ使用量が大きくて将来問題になりそうなバッチ処理をスケールアウトできるように書き換えるという課題に取り組みました。 解決手段として流行りのApache Sparkを使ってみたので、記事ではこれについて書こうと思います。 記事で使っている言語はScalaです。 前編ではSparkを選んだ理由とSparkの基礎について説明したので、後編では既存プログラムをSpark用に書き換える際の問題と解決方法について説明します。 記事で紹介する内容 前編 今回解決したかった課題 なぜSparkを選んだのか RDDについて 簡単なプログラムをSparkで書き換える 後編(記事) 番プログラムをSpark用に書き換える はまりどころ 番プログラムをSpark用に書き換える モデル(DB

  • 【前編】Apache Sparkを使って、メモリ使用量が大きいバッチ処理をスケールアウト | ADN LAB's Blog

    初めまして、弊社で1ヶ月半ほどインターンとして働いているt_sakaiです。 インターンシップの課題として、メモリ使用量が大きくて将来問題になりそうなバッチ処理をスケールアウトできるように書き換えるという課題に取り組みました。 解決手段として流行りのApache Sparkを使ってみたので、記事ではこれについて書こうと思います。 記事で使っている言語はScalaです。 Scalaについては、弊社のk_oomoriが書いた記事があるのでよろしければご覧ください。 紹介する内容 前編(記事) 今回解決したかった課題 なぜSparkを選んだのか RDDについて 簡単なプログラムをSparkで書き換える 後編 番プログラムをSpark用に書き換える はまりどころ 紹介しない内容 Hadoopとの比較 Spark環境の構築 性能チューニング 解決したかった課題 弊社のScalaで書かれたある

  • AWSでPacemaker & CorosyncADN LAB's Blog | ADN LAB's Blog

    はじめに はじめまして、nendでインフラ担当をしているn_watanabeです。 今回はAWS EC2でVIP(仮想IP)を使ったActive/Standby構成を組む方法を紹介します。 技術要素としては、AWS EC2(AmazonLinux) + Pacemaker + Corosyncとなります。 Pacemaker構成をオンプレミスで使う場合、IPアドレスはOS上で設定すればいいだけなのですが、 AWSの場合はAWSのシステムに対して設定してあげる必要もあります。 IPアドレスをOSに設定しただけではパケットはインスタンスに到達しません。 注意点として、今回のようにEIPではなくプライベートアドレスを切り替える方式の場合は、 2台が同一Subnetにいる必要があるのでMulitiAZできないという制約があります。 ちなみにちょっとカッコよくいうと、CDP:Floating IPパ

    AWSでPacemaker & CorosyncADN LAB's Blog | ADN LAB's Blog
  • とあるオープンソースの分散処理基盤 -Hadoop(ハドゥープ)- | ADN LAB's Blog

    Introduction – Hadoopとは? こんにちは、k_oomoriです。今回は、オープンソースミドルウェアのApache Hadoopを取り上げたいと思います。 コンピュータの性能は日々進化しているとはいえ、1台のマシンの性能にはおのずと限界があります。また、その時々で常に最高性能のマシンを維持していこうとすると莫大なコストがかかってしまいます。そこで登場するのが分散処理という考え方です。1台1台は特に高性能ではないマシンでも多数並べて処理を同時並行で行うことにより、全体の処理性能を上げようというアプローチです。この方法では性能が足りなくなった場合にはマシンを追加することで容易に性能向上ができる反面、分散処理の実装そのものが難しいという問題がありました。例えば、処理の振り分けアルゴリズムやサーバの死活監視、結果の集約など、考えなければならないことがいくつもあります。この分散処理

  • 1