タグ

EMRに関するtoritori0318のブックマーク (4)

  • Apache Hive による開発 (Frozen) - Ayutaya.com

    ディレクトリ。辞書順。partition はさらにサブディレクトリ。このへん、どこかにドキュメントはありませんか? Hadoop Hive - Hadoop Hive- Data Manipulation Statements EMR は、最初の入力と最後の出力にだけは、外部のストレージ(普通は S3)を利用せざるを得ないため、HDFS のローカリティが生きません。なるべく Hive の中間データを使わないようにしたいので、以下のようにすれば良いのだと思われます。 サンプルとして、下記の 3 つの入力ファイルを用意します。ここでは、カラムの区切りにはタブを使っています。 input/employees/foo.tsv10 NAKA Kiichiro 100 20 LUCAS Geroge 200 30 KANAME Madoka 100input/employees/bar.tsv40 J

  • AWSのAmazon Elastic MapReduce(EMR)でHiveを使う手順 | takemikami's note

    自前でHadoopをインストールせずとも、 AmazonWebService(AWS)で手軽にHadoopを利用する事ができるということで、 Elastic MapReduce(EMR)環境でHiveを利用してみました。 ここでは、以下のような手順でHiveを利用する手順を示します。 S3にHive用のbucketを作成Amazon Elastic MapReduce Ruby ClientのセットアップS3にデータを配置HiveインタラクティブモードでElastic MapReduceを起動作成したHiveスクリプトをバッチ処理で実行S3にHive用のbucketを作成Hive用のデータを保存するため、S3にbucketを作ります。 「AWS Management Console」でS3を選び、 「Buckets」の「Create Bucket」を選択して、 「Bucket Name」を

    AWSのAmazon Elastic MapReduce(EMR)でHiveを使う手順 | takemikami's note
  • EMRってなんじゃ?(ログ、ゆりかごから墓場まで)

    AWS Advent Calendar 2012 に参加させてもらいました。21日担当です。 AWSでWEBサイトをホストするときのログのライフサイクルについて、まとめてみました。 WEBサーバーの一般的なログの扱いは以下のような感じだと思います。 各インスタンスのアクセスログを1箇所に集める 複数のログファイルを1ファイルにまとめてソートする 集計をする 古いログのバックアップをとり、削除する これをAWSで行なってみると例えば以下のようになります。 fluentdを使って各インスタンスのログを1つのバケットAに送る EMRで1つにまとめてソート。別のバケットBに保存 EMRで集計もして、別のバケットBに保存 バケットAの期限が過ぎたものをGlacierに送る 図にすると以下のようなイメージです。 1.各インスタンスのアクセスログを1箇所に集める これはfluentdでtail→s3で行

    EMRってなんじゃ?(ログ、ゆりかごから墓場まで)
  • 2012/03/03 JAWS Summit 2012 PROGRAM Day2 上級者向けブートキャンプ #jawsug #ブートキャンプ

    PROGRAM DAY2 | JAWS Summit 2012 http://jaws-ug.jp/summit2012/day2.html AWSの中でも、特徴的な3つのサービスについて、実際の利用者がTIPSを含めご紹介する上級者向けセッション。AWSのエキスパートを目指す方には必見のセッションです。 続きを読む

    2012/03/03 JAWS Summit 2012 PROGRAM Day2 上級者向けブートキャンプ #jawsug #ブートキャンプ
  • 1