Amazon Elastic MapReduceとは 昨今、バッチ処理にHadoopを活用する事例が話題になっています。その中でも特筆すべきなのは、分散処理技術であるMapReduceです。しかし、MapReduceを実際に使うには、数台から数100台のサーバを用意し、Hadoopのセットアップもしなければなりません。そのようなサーバ構築・管理、セットアップの手間を無くし、すぐ使えるのがAmazon Web Service(AWS)のElastic MapReduce(EMR)です。 図1 Amazon Elastic MapReduce AWS、MapReduceの説明は多くの書籍、ブログなどを参照してください。また、EMRを使用するには、まずAWSのアカウントを作っておく必要がありますが、その手順も割愛させていただきます。本連載ではEMRの使い方、気をつけなければいけない点などを重点的
というわけで冬休み最後の自由研究として、Amazon Elastic MapReduce(EMR)を使ってみました。今なら公式ページもほぼ日本語化していて楽チンです。Amazon Web Services (日本語) Amazon Elastic MapReduceとはAmazon EMRは、Amazonのインフラ上で動作する仮想サーバーを使ったHadoopクラスタを時間単価で貸し出すサービスです。少々わかりにくいので、Amazon Web Service(AWS)の関連する製品群について整理しておきます。EC2 (Elastic Compute Cloud) EC2は、仮想マシンを時間単価で貸し出すサービスです。 EMRを使わずに、EC2に自前でHadoopをインストールして使うやり方もあります(EMRが出来る以前はそれしかなかった)。 EMRを使う場合でも、バックグラウンドでは自動的に
There have been reports that a government inquiry prompted us not to serve WikiLeaks any longer. That is inaccurate. There have also been reports that it was prompted by massive DDOS attacks. That too is inaccurate. There were indeed large-scale DDOS attacks, but they were successfully defended against. Amazon Web Services (AWS) rents computer infrastructure on a self-service basis. AWS does not p
Programmatic Deployment to Elastic Mapreduce with Boto and Bootstrap Action A while back I wrote about How to combine Elastic Mapreduce/Hadoop with other Amazon Web Services. This posting is a small update to that, showing how to deploy extra packages with Boto for Python. Note that Boto can deploy mappers and reducers in written any language supported by Elastic Mapreduce. In the example below (i
AmazonのCTOであるWerner Vogels氏がやってくるという情報を入手したので行ってきた。ちなみにAmazonがシンガポールでやっているのはAmazon Web Service(AWS)のみで、本の販売は行っていない。話の内容は主にクラウドコンピューティングだった。 現在AmazonはConsumer Business、Seller Business、Web servicesの3つを行っている。Consumer Businessは本などをAmazon自らが販売してるもの。現在7カ国で展開中。Seller Businessは、Amazonが他の店にオンライン店舗のプラットフォームを提供しているビジネス。そして、Web Servicesは、Developers, IT professionals向けのクラウドコンピューティングサービス。AmazonがAWSを始めたときは唐突に感じた
AWS News Blog Amazon Elastic MapReduce – Now Even Stretchier! Our customers have used Amazon Elastic MapReduce to process very large-scale data sets using an array of Amazon EC2 instances. One such customer, Seattle’s Razorfish, was able to side-step the need for a capital investment of over $500K while also speeding up their daily processing cycle (read more in our Razorfish case study). Our impl
今日はとある私的なプロジェクトで画像の情報操作が必要になったので、ローカルで計算してもいいんだけど今後もパラメータチューニングで何度か発生しそうなので、AmazonのMapReduceを使ってみました。 今回の構成図はこんなかんじ。全部Amazonで全部PHPでやってみた。 やろうとおもったきっかけ 別に5万枚くらいじゃ実はAmazonじゃなくてもよかったりします。一晩ペチぺーのスクリプトを4〜5本平行で走らせておけば、ローカルのMySQLに結果をためるくらい可能です。でも、 今後のために勉強したかった。MapReduceで調べても、Apacheのログとかテキスト操作くらいしか見つからなかったので。 データをオンラインに置きたかった・ローカルに置きたくなかった。 そうすると、MapReduceするにせよしないにせよS3がよさそうだった。 じゃあ、EC2一晩動かすより、MapReduceで一
大手クラウドサービスであるAmazon EC2では、9種類ものインスタンスタイプ(サーバの種類)から、利用したいスペックのサーバを選択できます。また、EC2のサーバは、4ヶ所ものリージョン(アメリカ東海岸、同西海岸、ヨーロッパ西部、シンガポール)から稼動させる場所を選択することができます。 ここで、気になるのが、Amazon Web Servicesの説明ページで、各インスタンスタイプの公表スペック差異として、EC2独自のCPU単位である"ECU"の数値や、IO性能のModerate(中)やHigh(高)で、どのくらいパフォーマンスが違うのかが見え辛いといった点。 また、一部の場所ではパフォーマンスが出ていない等の話が以前に出ていましたが、4ヶ所のロケーション(Region)によって、各場所でのインスタンス性能が全く同じなのか等も気になるところ。 ここを解明すべく、各種ベンチマークを実行し
The Amazon Web Services (AWS) Open Data Sponsorship Program covers the cost of storage for publicly available high-value cloud-optimized datasets. We work with data providers who seek to: Democratize access to data by making it available for analysis on AWS Develop new cloud-native techniques, formats, and tools that lower the cost of working with data Encourage the development of communities that
Amazonクラウド、5月に入って3回もトラブル発生。UPSの故障、分電盤のショート、ネットワーク接続エラー Amazonクラウドの北アメリカサイトでトラブルが続いています。今月に入って3回もトラブルが発生しているのです。 今月最初のトラブルは5月4日午前2時(現地時間)。データセンターの電源関係の作業中にトラブルが発生。切り替わるはずのUPS電源がうまく働かず、データセンター内アベイラビリティゾーンの一部のラックに対して電源供給が停止しました。その後、技術者がUPSを迂回して直接電源を供給することで復旧が始まり、午前3時40分から6時35分のあいだに復旧しています。 2度目のトラブルは5月8日午前0時20分。ふたたびアベイラビリティゾーンの一部のラックに対して電源トラブルが発生。トラブルは長時間に及び、午前7時20分頃に復旧開始。原因は主分電盤の漏電とショートで、復旧前に分電盤の修理とテ
インスタンスストレージの大きさは、インスタンスのタイプにより決まっています。sda1、すなわちルートパーティションの大きさは10GB固定です。swapは、32-bitの場合しか定義されておらず、大きさは896MBです。この割り当ては、インスタンスの起動時に、ec2-run-instancesコマンドの「--block-device-mapping」オプションを指定することにより、変えることは一応可能ではありますが、固定と考えてほぼ差し支えありません。 永続的なデータを格納するためには、「Elastic Block Device(EBS)」という機能が用意されています。使用するための手順は以下のようになります。(括弧内は、使用するコマンドラインツール) 1) ボリュームを作成する(ec2-create-volume) ボリュームID が返るので、以降、それを使用する。作成する大きさは、GB単
Amazon EC2互換のクラウドシステム作成を目指し、ここ数回はEC2そのものの各機能についてトピックごとに紹介しています。今回は、インスタンスの属性情報(インスタンスデータ)を取得するための機能と、インスタンスのルートパーティションのイメージである「Amazon Machine Image(AMI)」についてです。 インスタンスデータの取得 インスタンス内部から、インスタンスの各種属性(インスタンスメタデータ)を、Webサービスを通して取得できます。また、インスタンス実行時に任意のユーザーデータを与えることができ、このユーザーデータもインスタンス内部からWebサービスを通して取得可能です。 インスタンスメタデータ、ユーザーデータを取得するには、「http://169.254.169.254/2008-12-01/」に要求を投げます。「2008-12-01」の部分はバージョン番号ですが、
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く