タグ

MapReduceに関するhide_o_55のブックマーク (3)

  • 開発メモ: さらに並列化したMapReduce

    Kyoto CabinetMapReduceフレームワークは1台のローカルマシンで動作するものだが、マルチスレッドによってマルチCPUコアを使い切ることには重要な意味がある。そういったスレッド関係の機構はフレームワーク内で暗黙的に管理されるので、アプリケーションプログラマはそれらについて考える必要はない。 以前の記事でも述べたが、MapReduceフレームワークは既に2つの並列化オプションをサポートしている。XPARAMAPmapperを並列化し、XPARAREDはreducerを並列化する。さらに、最新版では2つの工夫でmapperの並列性を向上させている。 並列flusher mapper関数によって出力されたkey-valueペアは内部のオンメモリバッファにキャッシュされ、内部の一時ストレージに一定の頻度でフラッシュされる。従来版では、並列mapperオプションが指定されていたと

  • MapReduceのもう一つの使い方 - 急がば回れ、選ぶなら近道

    MapReduceというと集計に使うモノという人が多いと思う。 なんとなれば、MapReduce=Hadoop=ワードカウントの図式になっているからだ。 実際、Hadoopを触ってみようという人のほとんどはexampleとしてワードカウントを使うはず。その辺に落ちてるシェークスピアのログでHadoopのexampleを動かした人もおおいはず。 ところが実際に業務バッチ的な処理を行うときに、MapReduceの効果的な使い方は別にもある。個人的は、「当のMapReduceの使いかた」はこっちだと思う。なんということはなくて「組み合わせ計算を高速に行う」だ。ある種の計算では、順序処理でギブアップしてしまうケースの一つに組み合わせの計算がある Node{ List<Node> nodeList value(){ hasNodeList() ? nodeList.traverse(value()

    MapReduceのもう一つの使い方 - 急がば回れ、選ぶなら近道
  • Pigs, Bees, and Elephants: A Comparison of Eight MapReduce Languages « Dataspora

    This week’s guest blogger is Dataspora’s own Antonio Piccolboni. The originally post can be found on his personal blog. On a quest for an elegant and effective map reduce language, I went through a number of options and put together some considerations. And the winner is … In a couple of blog entries from my personal blog I described some map-reduce algorithms for statistical and graph problems an

  • 1