Amazon EMR Apache Spark、Hive、Presto、その他のビッグデータワークロードを簡単に実行してスケールする
こんにちわ。サービス開発担当の勝間です。クックパッドの1年の最大のピークであるバレンタインが終わり、少し落ち着きをとりもどした技術部からお届けします。 さて、先日秋葉原で「第0回 AWS User Group - Japan勉強会」が開催されました。100人を超す参加者の中、AWSのエバンジェリストJeff Barrさんの講演があったり、内容の濃いLTが続いたりと、非常に大盛況でした。そんなLTに僕も参加して、クックパッドのバッチシステムとAWSとの連携について話してきました。 クックパッドではAWSとしてEC2, S3をつかって分散解析環境を構築して、Hiveを使ったデイリーのログ解析を行っています。LTではそれらの話をしたのですが、5分と限られた時間では駆け足の発表になってしまったので、当日じっくり話せなかった箇所などを確認いただければと思います。 [slideshare id=328
Amazon Elastic MapReduceとは 昨今、バッチ処理にHadoopを活用する事例が話題になっています。その中でも特筆すべきなのは、分散処理技術であるMapReduceです。しかし、MapReduceを実際に使うには、数台から数100台のサーバを用意し、Hadoopのセットアップもしなければなりません。そのようなサーバ構築・管理、セットアップの手間を無くし、すぐ使えるのがAmazon Web Service(AWS)のElastic MapReduce(EMR)です。 図1 Amazon Elastic MapReduce AWS、MapReduceの説明は多くの書籍、ブログなどを参照してください。また、EMRを使用するには、まずAWSのアカウントを作っておく必要がありますが、その手順も割愛させていただきます。本連載ではEMRの使い方、気をつけなければいけない点などを重点的
8月に入社した佐々木です。こんにちわ! 入社してからはHadoopを使うことが多く、日々、大規模データと格闘しています。大変ではありますが、個人ではなかなか触ることが出来ないような大規模データを触れるのは楽しいです。 さて、Hadoopは最近色々なところで使われ始めてきていると思うんですが、実際に利用してみて困った事やtipsなど、実践的な情報はまだあまり公開されていません。その辺の情報をみんな求めているはず…!! そこで、僕が実際に触ってみて困った事やHadoopを使う上でポイントだと思ったことなどを社内勉強会で発表したので公開してみます。Hadoopを使っている(使いたいと思っている)方の参考になれば幸いです。 [slideshare id=2711363&doc=20091214techblog-091213183529-phpapp02] Hadoopの利用はまだまだ試行錯誤の連続
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く