[B! 検索仕組み] geerpmのブックマーク

geerpm id:geerpm

検索仕組みに関するgeerpmのブックマーク (4)

ストップワードとは？
ストップワードとは？ 2008-01-20-2 [IIR][NLP] 「Introduction to Information Retrieval」[1]の第二章（次回の輪講の範囲）の2.2.2に出てくるストップワード (stop word) の話題をまとめました。 § ストップワード (stop word) とは、検索にほとんど役に立たないためインデックス作成時に除外する単語のことである。検索対象文書に出現するすべての単語をインデックスとするのは無駄な面が多い。例えば、「て」「に」「を」「は」などの助詞や英語の冠詞・前置詞 (a, the, in, of) はほぼすべての文書に出現する。そのため、 postings list が巨大になり格納スペースや処理時間に悪影響を与え、その上、検索結果も大量となり検索要求を満たす結果を得るのが困難となる。そこで効率化のために
geerpm 2008/01/21
検索仕組み

あと読む
リンク
[を] 検索におけるテキスト走査とインデックス
検索におけるテキスト走査とインデックス 2008-01-19-5 [IIR] 「Introduction to Information Retrieval」[1]の第一章[2008-01-12-1] の1.1にの冒頭に出てきた、「テキスト走査による方法とインデックスによる方法の違い」をまとめました。この手の導入的解説は、私も過去の論文等の冒頭で何度も書いていたりするのですが、今回、IIRをベースに改めて整理してみました。 § 文書集合から検索質問に合致する文書を検索するために実装は、「テキスト走査」による方法と「インデックス」による方法の大きく二つに分けられる（図）。テキスト走査（文字列照合 (string pattern maching)[2]）による方法は、単純に文書集合の先頭から最後まで検索キーを順番に照合していく。最低でも1回は最後まで走査しなければならないので
geerpm 2008/01/21
あと読む

検索仕組み
リンク
ステミングとは？
ステミングとは？ 2008-01-20-1 [IIR][NLP][Algorithm][Programming] 「Introduction to Information Retrieval」[1]の第二章（次回の輪講の範囲）の2.2.4に出てくるステミング (Stemming) の話題をまとめました。 § 英語などの欧米系の言語では、意味的には同じ単語が語形変化により表層文字列が異なることがある。例えば、"retrieves", "retrieved", "retrieving", "retrieval" などで[2]、実用上これらを同じ意味のものと見なしインデックス作成時に同じ単語として扱いたいという要求がある。ステミング (stemming) はこのような語形変化を取り除き同一の単語表現に変換する処理である。ステミングの手法として、ポーターのアルゴリズム (Port
geerpm 2008/01/21
あと読む

検索仕組み
リンク
転置インデックスの構成とブーリアン検索
転置インデックスの構成とブーリアン検索 2008-01-18-1 [IIR][Algorithm] 「Introduction to Information Retrieval」[1]の第一章[2008-01-12-1] の転置インデックスまわりの用語と検索手順などの解説です。ちょっと前に書いた『ウェブ検索を「本の索引」で説明する試み』[2007-06-17-6] という記事の続きでもあります。「転置インデックスによる検索システムを作ってみよう！」 [2007-11-26-5]もご参考に。 § 転置インデックス (inverted index または inverted file) は、 dictionary と postings の二つの部分から構成されます。 dictionary は索引語 (term) の集合です。 term が登場する文書の ID を posting と呼びます
geerpm 2008/01/21
あと読む

検索仕組み
リンク
1