タグ

関連タグで絞り込む (3)

タグの絞り込みを解除

map-reduceに関するkwryのブックマーク (5)

  • Amazon Elastic MapReduceでperlを使った処理をしてみる(その3)

    Amazon Elastic MapReduceの例で出てくるのは今まで見た限りでは、みんなs3n://で始まるS3 Native FileSystem上にファイルを置いている。 http://wiki.apache.org/hadoop/AmazonS3 にあるように、もう一つ s3://で始まるS3 Block FileSystemというのがある。 これまでS3fsって言ってたけどこれはs3-fuseと紛らわしいし、名前として正しくないのでS3 Block FileSystemと呼ぶべきでした。 で、これを使いたい。 メリットは、以下のように理解してる。 ファイルがブロックに分割されるので、通常5GBまでというS3のファイルサイズの制限を超えられる ファイルがブロックに分割されるので、HDFSと同様Hadoopの各jobtaskに処理を効率よく分散できる デメリットは、たぶんこんな感じ

  • Amazon Elastic MapReduceでperlを使った処理をしてみる(その2)

    前回でperlで書いた処理をAmazon Elastic MapReduce(略称はなんだろ)にわせるのができたので、 次はCPANモジュールを使いたい。 というときにやっぱり便利なのがlocal::lib。 とりあえず素のdebianに一般ユーザーを作ってそこでlocal:libを使って~/perl5に必要なCPANモジュールを集めた。 これをjarにまとめる “jar cvf perl5.jar -C perl5 .” これをS3にアップロード。 具体的にはApp::Hacheroというログ集計アプリケーションを動かしたかったので、これが入ってる。 mapper.yml, reducer.ymlの各設定ファイルもS3にアップロード。 以下のように適宜pathを通してやって実行。 [danjou@sylvia] $ ./elastic-mapreduce --create \ - st

  • Amazon Elastic MapReduceでperlを使った処理をしてみる

    http://docs.amazonwebservices.com/ElasticMapReduce/latest/GettingStartedGuide/ を読むとAmazon Paymentに誘導されるけどアメリカ国内向けなので使えないっぽい。 http://kzk9.net/blog/2009/04/reviewing_amazon_elastic_map_reduce.html を読んだら https://console.aws.amazon.com/ から触れるとのことで、既存の決済に合算できた。 #!/usr/bin/perl # mapper.pl use strict; use warnings; while (<>) { my ($uri) = ($_ =~ /"(?:GET|POST|HEAD) ([\S]+?) HTTP/); print "$uri\n"; } #!

  • はてなグループの終了日を2020年1月31日(金)に決定しました - はてなの告知

    はてなグループの終了日を2020年1月31日(金)に決定しました 以下のエントリの通り、今年末を目処にはてなグループを終了予定である旨をお知らせしておりました。 2019年末を目処に、はてなグループの提供を終了する予定です - はてなグループ日記 このたび、正式に終了日を決定いたしましたので、以下の通りご確認ください。 終了日: 2020年1月31日(金) エクスポート希望申請期限:2020年1月31日(金) 終了日以降は、はてなグループの閲覧および投稿は行えません。日記のエクスポートが必要な方は以下の記事にしたがって手続きをしてください。 はてなグループに投稿された日記データのエクスポートについて - はてなグループ日記 ご利用のみなさまにはご迷惑をおかけいたしますが、どうぞよろしくお願いいたします。 2020-06-25 追記 はてなグループ日記のエクスポートデータは2020年2月28

    はてなグループの終了日を2020年1月31日(金)に決定しました - はてなの告知
  • blog.katsuma.tv

    前回、JavaScriptMap Reduceのコードが書けるHadoop Streamingについて紹介しました。 標準入出力さえサポートされてあれば、任意のコードでMap Reduuceの処理が書ける、というものでしたが、エンジニアはそもそも面倒くさがり。コードも書くのも面倒です。 と、いうわけで、今回はもうコードすら書かずにSQLライクでMap ReduceできるHiveというプロダクトについて、まとめたいと思います。 Hive Hiveとは、簡単に言うとHadoop上で動作するRDBのようなものです。 HDFSなどの分散ファイルシステム上に存在するデータに対して、HiveQLというSQLライクな言語で操作できます。 で、面白いのがHiveQLの操作は基的にMap Reduceのラッパーになっていること。 要するに、SELECT文実行すると裏でMap&Reduceのタスクが走り出

  • 1