タグ

2008年1月21日のブックマーク (6件)

  • Text::Chalow::Parser

    Text::Chalow::Parser 2008-01-20-5 [Chalow][Programming][Release] chalow 用の ChangeLog パーザを perl module 化して、 Text::Chalow::Parser とし、CodeRepos[2007-12-29-3]にアップしました。 - /lang/perl/Text-Chalow-Parser/ - CodeRepos::Share - Trac http://coderepos.org/share/browser/lang/perl/Text-Chalow-Parser/ ベースは chalow のパッケージ付属の ChangeLogReader.pm です。 今後、chalow では Text::Chalow::Parser を使っていきます。 とりあえずな SYNOPSIS を張っておきま

    Text::Chalow::Parser
  • ストップワードとは?

    ストップワードとは? 2008-01-20-2 [IIR][NLP] 「Introduction to Information Retrieval」[1]の第二章 (次回の輪講の範囲)の2.2.2に出てくるストップワード (stop word) の 話題をまとめました。 § ストップワード (stop word) とは、 検索にほとんど役に立たないためインデックス作成時に除外する 単語のことである。 検索対象文書に出現するすべての単語をインデックスとするのは 無駄な面が多い。 例えば、「て」「に」「を」「は」などの助詞や 英語の冠詞・前置詞 (a, the, in, of) はほぼすべての文書に出現する。 そのため、 postings list が巨大になり格納スペースや処理時間に悪影響を与え、 その上、 検索結果も大量となり検索要求を満たす結果を得るのが困難となる。 そこで効率化のために

    ストップワードとは?
  • ステミングとは?

    ステミングとは? 2008-01-20-1 [IIR][NLP][Algorithm][Programming] 「Introduction to Information Retrieval」[1]の第二章 (次回の輪講の範囲)の2.2.4に出てくるステミング (Stemming) の 話題をまとめました。 § 英語などの欧米系の言語では、 意味的には同じ単語が語形変化により表層文字列が異なることがある。 例えば、"retrieves", "retrieved", "retrieving", "retrieval" などで[2]、実用上これらを同じ意味のものと見なし インデックス作成時に同じ単語として扱いたいという要求がある。 ステミング (stemming) はこのような語形変化を取り除き 同一の単語表現に変換する処理である。 ステミングの手法として、 ポーターのアルゴリズム (Port

    ステミングとは?
  • [を] 検索におけるテキスト走査とインデックス

    検索におけるテキスト走査とインデックス 2008-01-19-5 [IIR] 「Introduction to Information Retrieval」[1]の第一章[2008-01-12-1] の1.1にの冒頭に出てきた、 「テキスト走査による方法とインデックスによる方法の違い」 をまとめました。 この手の導入的解説は、 私も過去の論文等の冒頭で何度も書いていたりするのですが、 今回、IIRをベースに改めて整理してみました。 § 文書集合から検索質問に合致する文書を検索するために実装は、 「テキスト走査」による方法と 「インデックス」による方法の大きく二つに分けられる(図)。 テキスト走査(文字列照合 (string pattern maching)[2])による方法は、 単純に文書集合の先頭から最後まで検索キーを順番に照合していく。 最低でも1回は最後まで走査しなければならないので

    [を] 検索におけるテキスト走査とインデックス
  • 検索における適合率 (Precision) と再現率 (Recall)

    検索における適合率 (Precision) と再現率 (Recall) 2008-01-17-1 [IIR] 「Introduction to Information Retrieval」[1] の輪講の第一回[2008-01-12-1]でちらっと話しましたが、第一章の 1.1 に Precision と Recall の説明があります(第八章でも出てきます)。 若干混乱しやすくややこしい話なので、ここで改めて解説します。 § Precision (適合率) とは、 全検索結果に対しての、 検索要求 (information need) を満たす検索結果の割合です。 例えば、 「MacBook Air の重量を知りたい」という検索要求を満たすために検索キー「MacBook Air 重さ」でウェブ検索した結果100件のうち、検索要求を満たす(重さが分かる)のが85件だとすると、 Precis

    検索における適合率 (Precision) と再現率 (Recall)
  • アドホック検索とは?

    アドホック検索とは? 2008-01-16-1 [IIR] 先日[2008-01-12-1]の 「Introduction to Information Retrieval」[1]の輪講で、 第一章に出てきた "ad-hoc retrieval"(アドホック検索)を説明する際に、 ぐだぐだな感じになってしまったことを深く反省し、 改めてまとめてみました。 § 「情報検索アルゴリズム」(共立出版)[2]によれば、 アドホック検索 (ad-hoc retrieval) とは、 「検索質問を短期的 (short-term) あるいは動的 (dynamic)、 文書集合を長期的 (long-term) あるいは静的 (static) なもの としてとらえる情報検索」とのこと。また、これとは逆に、 短期的に更新(追加)されていく文書集合に対して、 長期的な検索質問で検索要求を満たすものだけを取り出す

    アドホック検索とは?