タグ

mapreduceに関するzepbagのブックマーク (3)

  • CappedCollectionのススメ - Qiita

    Gunosyではログ解析周りや推薦エンジンでMongoDBを使っています。 ちょっと前に勉強会でMongoDBMapReduceでログ解析やってるよって話をしたところ、 MongoDBMapReduceって遅くない? データ量増えるとリソース相当使わない? とのツッコミを頂きました。 指摘自体は正しいと思っていて、データ増えるとすぐ計算時間やサーバのリソース使用量が大変なことになります。 それを避けつつ、節約して運用するためにGunosyのログ解析周りではCapped Collectionを使ってます。 Capped Collectionって? ご存知の方も多いと思いますが、念のため家から引用すると、 Capped collections are fixed-size collections that support high-throughput operations that i

    CappedCollectionのススメ - Qiita
  • Emerge Technology: mongodbのmap reduceを使ってみた

    生まれ変わった「Days of Liris」。プログラミングのこと、Pythonのこと、気になったソフトウェアのこと、身の回りのこと、いろんなこと。など MongoDBにはMap Reduceを簡単に使う機能があります。それ以外にコレクション(テーブル)にgroupというメソッドが定義されていて、RDBMSのgroup by相当のことができるとマニュアルには書かれています。ただ、次のような怖い注意書きがあります。 注意: 現在のところ、shardの環境では、group()の代わりにmap/reduceを必ず使ってください。結果はなるべく小さくしてください(10,000キー以内)。大きすぎる場合例外が発生します。Shard環境では問答無用にMap Reduceを使うしかなさそうです。結果はなるべく小さくしろと言うことですが、10000キーあればそこそこ大きいような気がします。最初の制限の「現

    Emerge Technology: mongodbのmap reduceを使ってみた
    zepbag
    zepbag 2013/01/17
    これはひどい
  • MapReduce デザインパターン (1) - めもめも

    はじめに この一連のメモは、Data-Intensive Text Processing with MapReduceに掲載されている Pseudo-code を実際に Hadoop で実行可能な Java クラスとして書いてみることを目的としています。 Java のソースコードを掲載するついでに、各デザインパターンのポイントをメモ書きしていきます。 筆者は、Perl 屋さんなので、(MapReduce と関係なく)Java のコードとしていけてない所は、やさしくご指摘下さい。m(_ _)m MapReduce デザインパターンの心 MapReduce で複雑な処理を行うには、Shuffle 処理をいかに活用するかが1つのポイント。 (1) Map の出力の Key に何をつかうか (2) Reduce に渡すデータの分割方法をどうするか の2点をよく考える事で、Reduce がより有用な

    MapReduce デザインパターン (1) - めもめも
  • 1