Hadoopで転置インデックスを作る。 Hadoopのインストールについては以下を参照。 Hadoopのインストールとサンプルプログラムの実行 Running Hadoop On Ubuntu Linux (Single-Node Cluster) 転置インデックスとは、本の巻末にある索引のことだ。 例えば、るるぶは巻末に転置インデックスがついていて、目的地のページを素早く探せる。 "金閣寺 ・・・ P.15" "銀閣寺 ・・・ P.15,P.16,P.57" "高台寺 ・・・ P.11" 前編の単語リストは、文書ID => 単語、単語、単語 だったが、 後編の転置インデックスは、単語 => 文書ID、文書ID、文書ID と、 単語リストをひっくり返す(転置)。 MapReduceの手順 1.文書のURIを並べたテキストファイル http://localhost/rfc/rfc1.txt