[B! map-reduce] kwryのブックマーク

Amazon Elastic MapReduceでperlを使った処理をしてみる（その3）

Amazon Elastic MapReduceの例で出てくるのは今まで見た限りでは、みんなs3n://で始まるS3 Native FileSystem上にファイルを置いている。 http://wiki.apache.org/hadoop/AmazonS3 にあるように、もう一つ s3://で始まるS3 Block FileSystemというのがある。これまでS3fsって言ってたけどこれはs3-fuseと紛らわしいし、名前として正しくないのでS3 Block FileSystemと呼ぶべきでした。で、これを使いたい。メリットは、以下のように理解してる。ファイルがブロックに分割されるので、通常5GBまでというS3のファイルサイズの制限を超えられるファイルがブロックに分割されるので、HDFSと同様Hadoopの各jobtaskに処理を効率よく分散できるデメリットは、たぶんこんな感じ

kwry 2010/09/11

リンク

Amazon Elastic MapReduceでperlを使った処理をしてみる（その2）

前回でperlで書いた処理をAmazon Elastic MapReduce（略称はなんだろ）に食わせるのができたので、次はCPANモジュールを使いたい。というときにやっぱり便利なのがlocal::lib。とりあえず素のdebianに一般ユーザーを作ってそこでlocal:libを使って~/perl5に必要なCPANモジュールを集めた。これをjarにまとめる “jar cvf perl5.jar -C perl5 .” これをS3にアップロード。具体的にはApp::Hacheroというログ集計アプリケーションを動かしたかったので、これが入ってる。 mapper.yml, reducer.ymlの各設定ファイルもS3にアップロード。以下のように適宜pathを通してやって実行。 [danjou@sylvia] $ ./elastic-mapreduce --create \ - st

kwry 2010/09/11

リンク

Amazon Elastic MapReduceでperlを使った処理をしてみる

http://docs.amazonwebservices.com/ElasticMapReduce/latest/GettingStartedGuide/ を読むとAmazon Paymentに誘導されるけどアメリカ国内向けなので使えないっぽい。 http://kzk9.net/blog/2009/04/reviewing_amazon_elastic_map_reduce.html を読んだら https://console.aws.amazon.com/ から触れるとのことで、既存の決済に合算できた。 #!/usr/bin/perl # mapper.pl use strict; use warnings; while (<>) { my ($uri) = ($_ =~ /"(?:GET|POST|HEAD) ([\S]+?) HTTP/); print "$uri\n"; } #!

kwry 2010/09/11

リンク

はてなグループの終了日を2020年1月31日(金)に決定しました - はてなの告知

はてなグループの終了日を2020年1月31日(金)に決定しました以下のエントリの通り、今年末を目処にはてなグループを終了予定である旨をお知らせしておりました。 2019年末を目処に、はてなグループの提供を終了する予定です - はてなグループ日記このたび、正式に終了日を決定いたしましたので、以下の通りご確認ください。終了日: 2020年1月31日(金) エクスポート希望申請期限:2020年1月31日(金) 終了日以降は、はてなグループの閲覧および投稿は行えません。日記のエクスポートが必要な方は以下の記事にしたがって手続きをしてください。はてなグループに投稿された日記データのエクスポートについて - はてなグループ日記ご利用のみなさまにはご迷惑をおかけいたしますが、どうぞよろしくお願いいたします。 2020-06-25 追記はてなグループ日記のエクスポートデータは2020年2月28

kwry 2010/09/11

map-reduce

リンク

blog.katsuma.tv

前回、JavaScriptでMap Reduceのコードが書けるHadoop Streamingについて紹介しました。標準入出力さえサポートされてあれば、任意のコードでMap Reduuceの処理が書ける、というものでしたが、エンジニアはそもそも面倒くさがり。コードも書くのも面倒です。と、いうわけで、今回はもうコードすら書かずにSQLライクでMap ReduceできるHiveというプロダクトについて、まとめたいと思います。 Hive Hiveとは、簡単に言うとHadoop上で動作するRDBのようなものです。 HDFSなどの分散ファイルシステム上に存在するデータに対して、HiveQLというSQLライクな言語で操作できます。で、面白いのがHiveQLの操作は基本的にMap Reduceのラッパーになっていること。要するに、SELECT文実行すると裏でMap&Reduceのタスクが走り出

kwry 2009/09/07

map-reduce

リンク

はてなブックマーク

タグ

関連タグで絞り込む (3)

map-reduceに関するkwryのブックマーク (5)

お知らせ

月間はてなブックマーク数ランキング（2026年4月）

今週のはてなブックマーク数ランキング（2026年4月第4週）

今週のはてなブックマーク数ランキング（2026年4月第3週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス