"Inverted Indexing" を行います。これは、文書番号がついた複数の文書がある時に、単語から文書を検索するための辞書を作成するものですが、最も簡単な辞書としては、 (Key, Value) = (単語, その単語を含む文書の文書番号のリスト) というデータの集まりが考えられます。この時、Value 部分のリストは、文書番号の順にソートされているものとします。 ※ もう少し実用的な例としては、(文書番号, 該当文書のページランク)というタプルのリストを Value に保存して、ページランクでソートしておくなどが考えられますが、ここでは、簡単のために文書番号だけで考えています。 例えば、Map 関数で文書中の単語をスキャンして、(Key, Value) = (単語, 文書番号) というデータを出力すると、Shuffle 処理によって、Reduce 関数には、自動的に (Key,