タグ

mapreduceとperlに関するtarchanのブックマーク (2)

  • Amazon Elastic MapReduceでperlを使った処理をしてみる(その3)

    Amazon Elastic MapReduceの例で出てくるのは今まで見た限りでは、みんなs3n://で始まるS3 Native FileSystem上にファイルを置いている。 http://wiki.apache.org/hadoop/AmazonS3 にあるように、もう一つ s3://で始まるS3 Block FileSystemというのがある。 これまでS3fsって言ってたけどこれはs3-fuseと紛らわしいし、名前として正しくないのでS3 Block FileSystemと呼ぶべきでした。 で、これを使いたい。 メリットは、以下のように理解してる。 ファイルがブロックに分割されるので、通常5GBまでというS3のファイルサイズの制限を超えられる ファイルがブロックに分割されるので、HDFSと同様Hadoopの各jobtaskに処理を効率よく分散できる デメリットは、たぶんこんな感じ

  • Hadoop Streaming - naoyaのはてなダイアリー

    id:naoya:20080511:1210506301 のエントリのコメント欄で kzk さんに教えていただいた Hadoop Streaming を試しています。 Hadoop はオープンソースの MapReduce + 分散ファイルシステムです。Java で作られています。Yahoo! Inc のバックエンドや、Facebook、Amazon.com などでも利用されているとのことです。詳しくは http://codezine.jp/a/article/aid/2448.aspx (kzk さんによる連載記事)を参照してください。 Hadoop Streaming 記事にもあります通り、Hadoop 拡張の Hadoop Streaming を使うと標準入出力を介するプログラムを記述するだけで、Hadoop による MapReduce を利用することができます。つまり、Java 以外

    Hadoop Streaming - naoyaのはてなダイアリー
  • 1