[B! nlp][たつを] kataringのブックマーク

kataring id:kataring

nlpとたつをに関するkataringのブックマーク (4)

ストップワードとは？
ストップワードとは？ 2008-01-20-2 [IIR][NLP] 「Introduction to Information Retrieval」[1]の第二章（次回の輪講の範囲）の2.2.2に出てくるストップワード (stop word) の話題をまとめました。 § ストップワード (stop word) とは、検索にほとんど役に立たないためインデックス作成時に除外する単語のことである。検索対象文書に出現するすべての単語をインデックスとするのは無駄な面が多い。例えば、「て」「に」「を」「は」などの助詞や英語の冠詞・前置詞 (a, the, in, of) はほぼすべての文書に出現する。そのため、 postings list が巨大になり格納スペースや処理時間に悪影響を与え、その上、検索結果も大量となり検索要求を満たす結果を得るのが困難となる。そこで効率化のために
kataring 2008/05/03
search

nlp

たつを
リンク
ステミングとは？
ステミングとは？ 2008-01-20-1 [IIR][NLP][Algorithm][Programming] 「Introduction to Information Retrieval」[1]の第二章（次回の輪講の範囲）の2.2.4に出てくるステミング (Stemming) の話題をまとめました。 § 英語などの欧米系の言語では、意味的には同じ単語が語形変化により表層文字列が異なることがある。例えば、"retrieves", "retrieved", "retrieving", "retrieval" などで[2]、実用上これらを同じ意味のものと見なしインデックス作成時に同じ単語として扱いたいという要求がある。ステミング (stemming) はこのような語形変化を取り除き同一の単語表現に変換する処理である。ステミングの手法として、ポーターのアルゴリズム (Port
kataring 2008/05/03
search

nlp

たつを
リンク
[を] 検索におけるテキスト走査とインデックス
検索におけるテキスト走査とインデックス 2008-01-19-5 [IIR] 「Introduction to Information Retrieval」[1]の第一章[2008-01-12-1] の1.1にの冒頭に出てきた、「テキスト走査による方法とインデックスによる方法の違い」をまとめました。この手の導入的解説は、私も過去の論文等の冒頭で何度も書いていたりするのですが、今回、IIRをベースに改めて整理してみました。 § 文書集合から検索質問に合致する文書を検索するために実装は、「テキスト走査」による方法と「インデックス」による方法の大きく二つに分けられる（図）。テキスト走査（文字列照合 (string pattern maching)[2]）による方法は、単純に文書集合の先頭から最後まで検索キーを順番に照合していく。最低でも1回は最後まで走査しなければならないので
kataring 2008/05/03
たつを

search

nlp

index
リンク
転置インデックスの構成とブーリアン検索
転置インデックスの構成とブーリアン検索 2008-01-18-1 [IIR][Algorithm] 「Introduction to Information Retrieval」[1]の第一章[2008-01-12-1] の転置インデックスまわりの用語と検索手順などの解説です。ちょっと前に書いた『ウェブ検索を「本の索引」で説明する試み』[2007-06-17-6] という記事の続きでもあります。「転置インデックスによる検索システムを作ってみよう！」 [2007-11-26-5]もご参考に。 § 転置インデックス (inverted index または inverted file) は、 dictionary と postings の二つの部分から構成されます。 dictionary は索引語 (term) の集合です。 term が登場する文書の ID を posting と呼びます
kataring 2008/05/03
algorithm

search

nlp

たつを
リンク
1

お知らせ

もっと読む

公式Twitter

@HatenaBookmark
リリース、障害情報などのサービスのお知らせ
@hatebu
最新の人気エントリーの配信

キーボードショートカット一覧

j次のブックマーク

k前のブックマーク

lあとで読む

eコメント一覧を開く

oページを開く

設定を変更しましたx