[B! EMR] toritori0318のブックマーク

toritori0318 id:toritori0318

EMRに関するtoritori0318のブックマーク (4)

Apache Hive による開発 (Frozen) - Ayutaya.com
ディレクトリ。辞書順。partition はさらにサブディレクトリ。このへん、どこかにドキュメントはありませんか？ Hadoop Hive - Hadoop Hive- Data Manipulation Statements EMR は、最初の入力と最後の出力にだけは、外部のストレージ（普通は S3）を利用せざるを得ないため、HDFS のローカリティが生きません。なるべく Hive の中間データを使わないようにしたいので、以下のようにすれば良いのだと思われます。サンプルとして、下記の 3 つの入力ファイルを用意します。ここでは、カラムの区切りにはタブを使っています。 input/employees/foo.tsv10 NAKA Kiichiro 100 20 LUCAS Geroge 200 30 KANAME Madoka 100input/employees/bar.tsv40 J
toritori0318 2013/03/05
EMR

hive

aws
リンク
AWSのAmazon Elastic MapReduce(EMR)でHiveを使う手順 | takemikami's note
自前でHadoopをインストールせずとも、 AmazonWebService(AWS)で手軽にHadoopを利用する事ができるということで、 Elastic MapReduce(EMR)環境でHiveを利用してみました。ここでは、以下のような手順でHiveを利用する手順を示します。 S3にHive用のbucketを作成Amazon Elastic MapReduce Ruby ClientのセットアップS3にデータを配置HiveインタラクティブモードでElastic MapReduceを起動作成したHiveスクリプトをバッチ処理で実行S3にHive用のbucketを作成Hive用のデータを保存するため、S3にbucketを作ります。「AWS Management Console」でS3を選び、「Buckets」の「Create Bucket」を選択して、「Bucket Name」を
toritori0318 2013/03/05
EMR

aws

hive
リンク
EMRってなんじゃ？（ログ、ゆりかごから墓場まで）
AWS Advent Calendar 2012 に参加させてもらいました。21日担当です。 AWSでWEBサイトをホストするときのログのライフサイクルについて、まとめてみました。 WEBサーバーの一般的なログの扱いは以下のような感じだと思います。各インスタンスのアクセスログを1箇所に集める複数のログファイルを１ファイルにまとめてソートする集計をする古いログのバックアップをとり、削除するこれをAWSで行なってみると例えば以下のようになります。 fluentdを使って各インスタンスのログを１つのバケットAに送る EMRで１つにまとめてソート。別のバケットBに保存 EMRで集計もして、別のバケットBに保存バケットAの期限が過ぎたものをGlacierに送る図にすると以下のようなイメージです。１．各インスタンスのアクセスログを1箇所に集めるこれはfluentdでtail→s3で行
toritori0318 2012/12/21
aws

s3

fluentd

EMR
リンク
2012/03/03 JAWS Summit 2012 PROGRAM Day2 上級者向けブートキャンプ #jawsug #ブートキャンプ
PROGRAM DAY2 | JAWS Summit 2012 http://jaws-ug.jp/summit2012/day2.html AWSの中でも、特徴的な3つのサービスについて、実際の利用者がTIPSを含めご紹介する上級者向けセッション。AWSのエキスパートを目指す方には必見のセッションです。続きを読む
toritori0318 2012/03/04
aws

RDS

EMR

DynamoDB
リンク
1

お知らせ

もっと読む

公式Twitter

@HatenaBookmark
リリース、障害情報などのサービスのお知らせ
@hatebu
最新の人気エントリーの配信

キーボードショートカット一覧

j次のブックマーク

k前のブックマーク

lあとで読む

eコメント一覧を開く

oページを開く

設定を変更しましたx