AWS Summit Tokyo 2015 TC-07での発表資料となります。 社内の分析環境の紹介です。Read less
こんにちは、虎塚です。 AWSサミットのセッション「AWSビッグデータサービス Deep Dive」をタイムシフト聴講したので、レポートします。 講師は、HBaseのコントリビュータ、書籍の著者でもある蒋逸峰さん(アマゾン データ サービス ジャパン)です。 テーマは、EMRを中心とするAWSのさまざまなビッグデータサービスを効率使うために、押さえておきたいポイントの紹介とのことです。 AWS Summit Tokyo 2014 開催レポート動画・資料一覧 | アマゾン ウェブ サービス(AWS 日本語) AWSビッグデータサービス Deep Dive(AWS Summit Tokyo 2014 | TA-01) Amazon Elastic MapReduce (EMR) のご紹介 What is EMR? EMARとは、マネージド型のHadoopサービス。オンプレミスのHadoopの導
7月にAWS Big Data Blogというブログが始まったのですが、最初の記事がBuilding a Recommender with Apache Mahout on Amazon Elastic MapReduce (EMR)というタイトルでEMR上でMahoutを使ってレコメンデーションを行ってみるというものでした。EMR上でMahoutというと既にAmazon Elastic MapReduce入門 〜 Apache Mahoutでレコメンデーション!というエントリーがありますが、こちらはAmazon EMR CLIを使っていることもあり、ブログにしてみました。 Building a Recommender with Apache Mahout on Amazon Elastic MapReduce (EMR)について まず機械学習の概要について説明した上でMahoutを使って
S-JIS[2013-05-23/2014-01-16] 変更履歴 Amazon EMR IAMロール AWS EMRのIAMロールのメモ。 IAMロール EMRを使う為の最小限のIAMロールは以下の通り。 { "Statement": [ { "Action": [ "s3:ListBucket" ], "Effect": "Allow", "Resource": [ "arn:aws:s3:::自分のバケット" ] }, { "Action": [ "s3:DeleteObject", "s3:GetObject", "s3:PutObject" ], "Effect": "Allow", "Resource": [ "arn:aws:s3:::自分のバケット/*" ] } ] } 自分のバケット配下のファイルをEMRで読み書きする想定。 なお、ec2やcloudwath(さらにはel
EMRがImpalaをサポートするようになりました。ImpalaはClouderaが提供するオープンソースのクエリエンジンで、Hiveより断然速いそうです。 例として、Cloudfrontのログを、タイムスタンプをJSTに直して1時間ごとのアクセス数の集計をしてみます。 ログバケットの確認 まずCloudFrontのログが以下のS3にたまっているとします。 s3://memorycraft-impala-input/cf/logs EMRクラスタの起動 次に、EMRクラスタを起動します。 EMRのダッシュボードで「Create Cluster」をクリックし、新規クラスタ作成画面を表示します。 Cluster Configuration Cluster nameに適当なクラスタ名を入力します。また、今回はEMRのログは出力しないのでLoggingのチェックはOFFなんかにしておきます。起動し
1. © 2012 Amazon.com, Inc. and its affiliates. Allrights reserved. May not be copied, modified or distributed in w hole or in part w ithout the express consent of Amazon.com, Inc. AWS マイスターシリーズ Amazon Elastic MapReduce 2013.09.25 アマゾンデータサービスジャパン株式会社 ソリューションアーキテクト 大谷 晋平 2. © 2012 Amazon.com, Inc. and its affiliates. Allrights reserved. May not be copied, modified or distributed in w hole or in part
よく訓練されたアップル信者、都元です。CloudFrontにはDistributionの設定により、アクセスログを出力する機能があります。アクセスログは定期的に *1、gzip圧縮ファイルとして、指定したS3バケットに配信されます。 http://docs.aws.amazon.com/AmazonCloudFront/latest/DeveloperGuide/AccessLogs.html さてこの設定を行いますと、指定したバケットがこんな感じになります。どんな単位で集約されているのかは定かではありませんが、同じ時間帯に複数のファイルがありますね。これでも数が少ない時間帯を選んだのですが。要するに物凄い数のログファイルがガンガン配信されてくるようになります。アクセス数にもよりますが、今回の検証環境では1日あたり1000ファイルほどが配信されました。 さて、このログファイルを集計してくだ
今回はAmazon Elastic MapReduce(EMR)について解説します。Amazon EMRは、Amazonクラウド内でHadoopフレームワークを利用可能にする機能です。Hadoopフレームワークとは、分散処理を実現するミドルウエアの一つで、例えば大量のログやトランザクションデータの集計などのバッチ処理を、複数のサーバーで並列処理するアプリケーションを開発できます。 Amazon EMRの用途は、ログ分析、ウェブインデックス作成、データウエアハウス、機械学習、財務分析、科学シミュレーション、バイオインフォマティクスなど多岐にわたります。2009年にサービスを開始して以来、550万以上の Amazon EMR クラスターが利用者によって起動されています。 例えば、何万人分ものゲノム情報の収集や解析、医療情報のグローバル共有など、医療や科学の発展を目的とした国際プロジェクトで、A
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く