Hadoopで転置インデックスを作る。 Hadoopのインストールについては以下を参照。 Hadoopのインストールとサンプルプログラムの実行 Running Hadoop On Ubuntu Linux (Single-Node Cluster) 転置インデックスとは、本の巻末にある索引のことだ。 例えば、るるぶは巻末に転置インデックスがついていて、目的地のページを素早く探せる。 "金閣寺 ・・・ P.15" "銀閣寺 ・・・ P.15,P.16,P.57" "高台寺 ・・・ P.11" 前編の単語リストは、文書ID => 単語、単語、単語 だったが、 後編の転置インデックスは、単語 => 文書ID、文書ID、文書ID と、 単語リストをひっくり返す(転置)。 MapReduceの手順 1.文書のURIを並べたテキストファイル http://localhost/rfc/rfc1.txt
![検索インデックスを作ろう 後編 (Hadoopで転置インデックス) - Gemmaの日記](https://cdn-ak-scissors.b.st-hatena.com/image/square/179dcc15ac959f94b96128e59b50e1ed39037072/height=288;version=1;width=512/https%3A%2F%2Fcdn-ak.f.st-hatena.com%2Fimages%2Ffotolife%2FG%2FGemma%2F20081019%2F20081019005122.png)