ストップワードとは? 2008-01-20-2 [IIR][NLP] 「Introduction to Information Retrieval」[1]の第二章 (次回の輪講の範囲)の2.2.2に出てくるストップワード (stop word) の 話題をまとめました。 § ストップワード (stop word) とは、 検索にほとんど役に立たないためインデックス作成時に除外する 単語のことである。 検索対象文書に出現するすべての単語をインデックスとするのは 無駄な面が多い。 例えば、「て」「に」「を」「は」などの助詞や 英語の冠詞・前置詞 (a, the, in, of) はほぼすべての文書に出現する。 そのため、 postings list が巨大になり格納スペースや処理時間に悪影響を与え、 その上、 検索結果も大量となり検索要求を満たす結果を得るのが困難となる。 そこで効率化のために