"word co-occurrence problem" (文書内の近くにペアで出現する単語の数をカウントする処理)の2つの基本パターンである "Pairs" と "Stripes" から、まずは、Pairs を見てみます。 事前準備 「カラマーゾフの兄弟」のテキストを HDFS に保存しておきます。 $ wget http://www.gutenberg.org/files/28054/28054.zip $ unzip 28054.zip $ hadoop fs -copyFromLocal 28054.txt Karamazov.txt ソースコード 例えば、連続して出現する単語のペアをカウントする場合、次のようなコードが書けます。 pairs/TextPair.java package pairs; /* テキストのタプルを Key に使用するためのクラスです。 像本のサンプル・コ