エントリーの編集
エントリーの編集は全ユーザーに共通の機能です。
必ずガイドラインを一読の上ご利用ください。
記事へのコメント1件
- 注目コメント
- 新着コメント
注目コメント算出アルゴリズムの一部にLINEヤフー株式会社の「建設的コメント順位付けモデルAPI」を使用しています
- バナー広告なし
- ミュート機能あり
- ダークモード搭載
関連記事
第19回 転置インデックスの実装 | gihyo.jp
先ほどの表2のデータが文書ID順だったのに対して、表3は見出し語順になっています。文書IDと見出し語の... 先ほどの表2のデータが文書ID順だったのに対して、表3は見出し語順になっています。文書IDと見出し語のデータの並び順がひっくり返っているために、転置インデックスに「転置」という語が付けられます。転置インデックスの形式であれば見出し語ごとに求めるべきデータが固まっているので、求めるべき文書IDと出現位置の集合が高速に得られます。Googleでは複数台のマシンを使った分散処理で表2の形式から表3の形式にデータを変換しており、この操作をMapReduceと呼ぶしくみを通じて実現しているということです。 FINDSPOTの転置インデックス構造 FINDSPOTの転置インデックスを設計する際には、いくつかの前提条件について吟味する必要がありました。 まずは扱うデータの分量です。FINDSPOTで扱うデータ量は平均500字程度の文書で100万件というのが当初の目標値でした。トータルの文字数は、500字
2008/10/24 リンク