タグ

ブックマーク / blog.recruit.co.jp (2)

  • SparkRをEC2上で動かして分散処理してみる

    こんにちは!美味しいコーヒーを飲むために、毎朝早くにデスクコーヒーミル回してます、アナリティクスチームの高柳です。 アナリティクスチームでは、じゃらんnetやホットペッパービューティーをはじめとしたリクルートライフスタイルのサービスに対して、基礎集計やレポーティング、また、データマイニング(データ分析)を活用し、高速にサービスを改善していくというミッションを担っています。 記事では、データ分析環境としてのApache Spark、特にver 1.4から利用可能になったSparkRを、当チームのAWS上の分析環境に導入検討していたので、その辺について書きたいと思います。 SparkRは、まだリリースから日が浅いことから、日語の記事が相当に少ないので、この記事がみなさんの"Happy SparkR ライフ"のお役に立つことを願っております。 Apache Spark導入の背景 サービスを

    SparkRをEC2上で動かして分散処理してみる
    kimutansk
    kimutansk 2015/11/30
    見た感じ、Spark Standalone Modeのクラスタ構成ですかね。その場合はSparkRも比較的簡単に分散実行可能ですか。
  • 「AWSからGCPに切り替えたらコストが1/10になった」CETエンジニア 吉田啓二氏インタビュー - Tech Blog - Recruit Lifestyle Engineer

    前編(「ビッグデータは“リアルタイム”でこそ価値がある」)では、リアルタイムなビッグデータ解析プロジェクト「CET(Capture EveryThing)」が始まったきっかけから、いまのチームまで組織に焦点を当てました。 後編では、いよいよビッグデータ解析のシステムについて深掘りしていきます。 Amazonのクラウドサービスを活用して作り上げた現状のシステムを捨て、Googleで作る構成に変えようとしているそう。その意図とは。 クラウドサービスのコストパフォーマンスなど、エンジニアやアーキテクトには気になる情報が満載です。 「CET」で基盤構築や分析・集計アプリケーションの開発を行っている、吉田啓二さんに聞きました。 聞き手/構成/編集/写真:小川楓太(NEWPEACE Inc.) AWS格的に運用するのは厳しいかなという印象です —— 今回構築された基盤の具体的なシステム構成はどのよ

    「AWSからGCPに切り替えたらコストが1/10になった」CETエンジニア 吉田啓二氏インタビュー - Tech Blog - Recruit Lifestyle Engineer
    kimutansk
    kimutansk 2015/11/28
    確かにDynamoDBのスループット課金はべらぼうに高いですね。ただ、利用料抑止のためアプリケーション側の対応するのは本末転倒。ならGCPに行こうという話ですか。
  • 1