タグ

algorithmとfulltextsearchに関するttakezawaのブックマーク (2)

  • Minise: MIni Search Engine

    ウェブサイトは現在工事中です.ソースコード公開は10/24頃を予定しています. 概要 Miniseは最小限必要な機能をサポートした非常にコンパクトな検索エンジンです.検索対象の文章に対し索引を構築し,検索クエリに対する全文検索を行うことができます. 索引の種類として逐次検索,転置ファイル,N-gram,接尾辞配列をサポートしています.また検索結果の取得については定義済みのスコア以外にユーザー定義のスコアを用いたランキングを行うことができます. 主な利用用途として、小〜中規模の検索向けまた,教育用,研究用目的に使われることを想定されております. ダウンロード Miniseはフリーソフトウェアです.修正BSDライセンスに従ってソフトウェアを使用,再配布することができます. 2009-10-24: Minise 0.01 リリース予定 2009-10-21: ホームページ公開 使い方

  • 1日で作る全文検索エンジン - Building a full-text search engine in "ONE" day - - とあるはてな社員の日記

    最近、「Introduction to Information Retrieval」というStanfordの大学院向け教科書のドラフトを読んでいます。id:naoyaあたりが勉強会で読んでいる教科書です。この教科書には、効率のいい全文検索システムを作るにはどうすればいいか、という(まさに)教科書的手法が網羅的に書いてあり、そのあたりに興味がある人には、非常に興味深く読めるお勧めのです。 ただ、面白い面白いと言っているだけでは、エンジニアとしては価値半減ですので、GW中にrubyで一日かけて実装してみました。 さすがに実装は、一日で作ったものですから、非常に素朴です。マルチバイト文字はbi-gramで、シングルバイトはスペースなどの区切り記号で認識しています。インデックスは、rubyの処理系のHashやArrayで保持しており、外部にMarshallで書き出す、というものです。検索エンジン

  • 1