タグ

関連タグで絞り込む (0)

  • 関連タグはありません

タグの絞り込みを解除

algorithmとsearchに関するj0hnのブックマーク (3)

  • [を] 転置インデックスによる検索システムを作ってみよう!

    転置インデックスによる検索システムを作ってみよう! 2007-11-26-5 [Algorithm][Programming] 転置インデックス[2007-06-17-6]による検索システムの実装は パフォーマンスを無視すれば意外と簡単です。 それを示すために Perl で簡単な検索システムを作ってみました。 検索方式は転置インデックス(Inverted Index)、 ランキングには TF-IDF[2005-10-12-1] を用いました。 検索対象ファイルは一行一記事で以下のフォーマットとします。 [記事ID][SPC][記事内容]\n 記事IDは数字、記事内容は UTF-8 の文字で構成されるものとします。 以下のようなサンプル test.txt を用意しました。 1 これはペンです 2 最近はどうですか? 3 ペンギン大好き 4 こんにちは。いかがおすごしですか? 5 ここ最近疲れ

    [を] 転置インデックスによる検索システムを作ってみよう!
  • Introduction to Information Retrieval

    This is the companion website for the following book. Christopher D. Manning, Prabhakar Raghavan and Hinrich Schütze, Introduction to Information Retrieval, Cambridge University Press. 2008. You can order this book at CUP, at your local bookstore or on the internet. The best search term to use is the ISBN: 0521865719. The book aims to provide a modern approach to information retrieval from a co

  • ライブドア、ブログ検索をN-gram方式へ--対象は2000万ブログ超 - CNET Japan

    ライブドアは2月2日、「livedoor 検索」のブログ検索において新たにN-gram方式による検索エンジンへ移行し、検索ワードの一部しか知らなくても目的のサイトを見つけられる「部分一致検索」が可能になったと発表した。N-gram方式の検索対象ブログは2000万件を突破したという。 また、これと同時にワンクリックで文字サイズを「大」「中」「小」に変更できる機能も付けた。 検索エンジンは、検索ワード(文章)を単語単位に分割して認識しており、その単語に関連性が高いと判断したサイトを順番に検索結果として表示する。ここで、文章を単語に分割する方法は大きく2つに分かれる。1つは、あらかじめ検索エンジンに用意した単語の辞書ファイルに沿って分割する「形態素解析」だ。もう1つは、文章をN文字単位で分割して単語として扱う「N-gram」だ。 たとえば、「ライブドアの検索」という文章ならば、形態素解析では「ラ

    ライブドア、ブログ検索をN-gram方式へ--対象は2000万ブログ超 - CNET Japan
  • 1