zima0314のブックマーク / 2011年11月4日

2011年11月4日のブックマーク (1件)

MapReduce デザインパターン (2) - めもめも
"word co-occurrence probl em" （文書内の近くにペアで出現する単語の数をカウントする処理）の２つの基本パターンである "Pairs" と "Stripes" から、まずは、Pairs を見てみます。事前準備「カラマーゾフの兄弟」のテキストを HDFS に保存しておきます。 $ wget http://www.gutenberg.org/files/28054/28054.zip $ unzip 28054.zip $ hadoop fs -copyFromLocal 28054.txt Karamazov.txt ソースコード例えば、連続して出現する単語のペアをカウントする場合、次のようなコードが書けます。 pairs/TextPair.java package pairs; /* テキストのタプルを Key に使用するためのクラスです。像本のサンプル・コ
zima0314 2011/11/04
Hadoop
リンク
- 2011年11月7日
- 2011年11月4日
- 2011年11月3日