[B! index] kataringのブックマーク

kataring id:kataring

indexに関するkataringのブックマーク (3)

検索インデックスを作ろう後編 (Hadoopで転置インデックス) - Gemmaの日記
Hadoopで転置インデックスを作る。 Hadoopのインストールについては以下を参照。 Hadoopのインストールとサンプルプログラムの実行 Running Hadoop On Ubuntu Linux (Single-Node Cluster) 転置インデックスとは、本の巻末にある索引のことだ。例えば、るるぶは巻末に転置インデックスがついていて、目的地のページを素早く探せる。 "金閣寺・・・ P.15" "銀閣寺・・・ P.15,P.16,P.57" "高台寺・・・ P.11" 前編の単語リストは、文書ID => 単語、単語、単語だったが、後編の転置インデックスは、単語 => 文書ID、文書ID、文書ID と、単語リストをひっくり返す(転置)。 MapReduceの手順 1.文書のURIを並べたテキストファイル http://localhost/rfc/rfc1.txt
kataring 2008/10/24
hadoop

index
リンク
第19回　転置インデックスの実装 | gihyo.jp
先ほどの表2のデータが文書ID順だったのに対して、表3は見出し語順になっています。文書IDと見出し語のデータの並び順がひっくり返っているために、転置インデックスに「転置」という語が付けられます。転置インデックスの形式であれば見出し語ごとに求めるべきデータが固まっているので、求めるべき文書IDと出現位置の集合が高速に得られます。Googleでは複数台のマシンを使った分散処理で表2の形式から表3の形式にデータを変換しており、この操作をMapReduceと呼ぶしくみを通じて実現しているということです。 FINDSPOTの転置インデックス構造 FINDSPOTの転置インデックスを設計する際には、いくつかの前提条件について吟味する必要がありました。まずは扱うデータの分量です。FINDSPOTで扱うデータ量は平均500字程度の文書で100万件というのが当初の目標値でした。トータルの文字数は、500字
kataring 2008/10/22
search engine

search

index
リンク
[を] 検索におけるテキスト走査とインデックス
検索におけるテキスト走査とインデックス 2008-01-19-5 [IIR] 「Introduction to Information Retrieval」[1]の第一章[2008-01-12-1] の1.1にの冒頭に出てきた、「テキスト走査による方法とインデックスによる方法の違い」をまとめました。この手の導入的解説は、私も過去の論文等の冒頭で何度も書いていたりするのですが、今回、IIRをベースに改めて整理してみました。 § 文書集合から検索質問に合致する文書を検索するために実装は、「テキスト走査」による方法と「インデックス」による方法の大きく二つに分けられる（図）。テキスト走査（文字列照合 (string pattern maching)[2]）による方法は、単純に文書集合の先頭から最後まで検索キーを順番に照合していく。最低でも1回は最後まで走査しなければならないので
kataring 2008/05/03
たつを

search

nlp

index
リンク
1

お知らせ

もっと読む

公式Twitter

@HatenaBookmark
リリース、障害情報などのサービスのお知らせ
@hatebu
最新の人気エントリーの配信

キーボードショートカット一覧

j次のブックマーク

k前のブックマーク

lあとで読む

eコメント一覧を開く

oページを開く

設定を変更しましたx