タグ

nlpとたつをに関するkataringのブックマーク (4)

  • ストップワードとは?

    ストップワードとは? 2008-01-20-2 [IIR][NLP] 「Introduction to Information Retrieval」[1]の第二章 (次回の輪講の範囲)の2.2.2に出てくるストップワード (stop word) の 話題をまとめました。 § ストップワード (stop word) とは、 検索にほとんど役に立たないためインデックス作成時に除外する 単語のことである。 検索対象文書に出現するすべての単語をインデックスとするのは 無駄な面が多い。 例えば、「て」「に」「を」「は」などの助詞や 英語の冠詞・前置詞 (a, the, in, of) はほぼすべての文書に出現する。 そのため、 postings list が巨大になり格納スペースや処理時間に悪影響を与え、 その上、 検索結果も大量となり検索要求を満たす結果を得るのが困難となる。 そこで効率化のために

    ストップワードとは?
  • ステミングとは?

    ステミングとは? 2008-01-20-1 [IIR][NLP][Algorithm][Programming] 「Introduction to Information Retrieval」[1]の第二章 (次回の輪講の範囲)の2.2.4に出てくるステミング (Stemming) の 話題をまとめました。 § 英語などの欧米系の言語では、 意味的には同じ単語が語形変化により表層文字列が異なることがある。 例えば、"retrieves", "retrieved", "retrieving", "retrieval" などで[2]、実用上これらを同じ意味のものと見なし インデックス作成時に同じ単語として扱いたいという要求がある。 ステミング (stemming) はこのような語形変化を取り除き 同一の単語表現に変換する処理である。 ステミングの手法として、 ポーターのアルゴリズム (Port

    ステミングとは?
  • [を] 検索におけるテキスト走査とインデックス

    検索におけるテキスト走査とインデックス 2008-01-19-5 [IIR] 「Introduction to Information Retrieval」[1]の第一章[2008-01-12-1] の1.1にの冒頭に出てきた、 「テキスト走査による方法とインデックスによる方法の違い」 をまとめました。 この手の導入的解説は、 私も過去の論文等の冒頭で何度も書いていたりするのですが、 今回、IIRをベースに改めて整理してみました。 § 文書集合から検索質問に合致する文書を検索するために実装は、 「テキスト走査」による方法と 「インデックス」による方法の大きく二つに分けられる(図)。 テキスト走査(文字列照合 (string pattern maching)[2])による方法は、 単純に文書集合の先頭から最後まで検索キーを順番に照合していく。 最低でも1回は最後まで走査しなければならないので

    [を] 検索におけるテキスト走査とインデックス
  • 転置インデックスの構成とブーリアン検索

    転置インデックスの構成とブーリアン検索 2008-01-18-1 [IIR][Algorithm] 「Introduction to Information Retrieval」[1]の第一章[2008-01-12-1] の転置インデックスまわりの用語と検索手順などの解説です。 ちょっと前に書いた 『ウェブ検索を「の索引」で説明する試み』[2007-06-17-6] という記事の続きでもあります。 「転置インデックスによる検索システムを作ってみよう!」 [2007-11-26-5]もご参考に。 § 転置インデックス (inverted index または inverted file) は、 dictionary と postings の二つの部分から構成されます。 dictionary は索引語 (term) の集合です。 term が登場する文書の ID を posting と呼びます

    転置インデックスの構成とブーリアン検索
  • 1