[B! mapreduce] zepbagのブックマーク

zepbag id:zepbag

mapreduceに関するzepbagのブックマーク (3)

CappedCollectionのススメ - Qiita
Gunosyではログ解析周りや推薦エンジンでMongo DBを使っています。ちょっと前に勉強会でMongo DBのMapReduceでログ解析やってるよって話をしたところ、 Mongo DBのMapReduceって遅くない？データ量増えるとリソース相当使わない？とのツッコミを頂きました。指摘自体は正しいと思っていて、データ増えるとすぐ計算時間やサーバのリソース使用量が大変なことになります。それを避けつつ、節約して運用するためにGunosyのログ解析周りではCapped Collectionを使ってます。 Capped Collectionって？ご存知の方も多いと思いますが、念のため本家から引用すると、 Capped collections are fixed-size collections that support high-throughput operations that i
zepbag 2014/05/28
collection

mongodb

mapreduce
リンク
Emerge Technology: mongodbのmap reduceを使ってみた
生まれ変わった「Days of Liris」。プログラミングのこと、Pythonのこと、気になったソフトウェアのこと、身の回りのこと、いろんなこと。など Mongo DBにはMap Reduceを簡単に使う機能があります。それ以外にコレクション(テーブル)にgroupというメソッドが定義されていて、RDBMSのgroup by相当のことができるとマニュアルには書かれています。ただ、次のような怖い注意書きがあります。注意: 現在のところ、shardの環境では、group()の代わりにmap/reduceを必ず使ってください。結果はなるべく小さくしてください(10,000キー以内)。大きすぎる場合例外が発生します。Shard環境では問答無用にMap Reduceを使うしかなさそうです。結果はなるべく小さくしろと言うことですが、10000キーあればそこそこ大きいような気がします。最初の制限の「現
zepbag 2013/01/17
これはひどい

mongodb

mapreduce

Python
リンク
MapReduce デザインパターン (1) - めもめも
はじめにこの一連のメモは、Data-Intensive Text Processing with MapReduceに掲載されている Pseudo-code を実際に Hadoop で実行可能な Java クラスとして書いてみることを目的としています。 Java のソースコードを掲載するついでに、各デザインパターンのポイントをメモ書きしていきます。筆者は、Perl 屋さんなので、(MapReduce と関係なく）Java のコードとしていけてない所は、やさしくご指摘下さい。m(_ _)m MapReduce デザインパターンの心 MapReduce で複雑な処理を行うには、Shuffle 処理をいかに活用するかが１つのポイント。 (1) Map の出力の Key に何をつかうか (2) Reduce に渡すデータの分割方法をどうするかの２点をよく考える事で、Reduce がより有用な
zepbag 2011/09/28
Java

mapreduce

*あとで
リンク
1

お知らせ

もっと読む

公式Twitter

@HatenaBookmark
リリース、障害情報などのサービスのお知らせ
@hatebu
最新の人気エントリーの配信

キーボードショートカット一覧

j次のブックマーク

k前のブックマーク

lあとで読む

eコメント一覧を開く

oページを開く

設定を変更しましたx