タグ

関連タグで絞り込む (1)

タグの絞り込みを解除

indexとsearch engineに関するkataringのブックマーク (1)

  • 第19回 転置インデックスの実装 | gihyo.jp

    先ほどの表2のデータが文書ID順だったのに対して、表3は見出し語順になっています。文書IDと見出し語のデータの並び順がひっくり返っているために、転置インデックスに「転置」という語が付けられます。転置インデックスの形式であれば見出し語ごとに求めるべきデータが固まっているので、求めるべき文書IDと出現位置の集合が高速に得られます。Googleでは複数台のマシンを使った分散処理で表2の形式から表3の形式にデータを変換しており、この操作をMapReduceと呼ぶしくみを通じて実現しているということです。 FINDSPOTの転置インデックス構造 FINDSPOTの転置インデックスを設計する際には、いくつかの前提条件について吟味する必要がありました。 まずは扱うデータの分量です。FINDSPOTで扱うデータ量は平均500字程度の文書で100万件というのが当初の目標値でした。トータルの文字数は、500字

    第19回 転置インデックスの実装 | gihyo.jp
  • 1