タグ

algorithmとsearchに関するnitoyonのブックマーク (7)

  • Introduction to Information Retrieval

    This is the companion website for the following book. Christopher D. Manning, Prabhakar Raghavan and Hinrich Schütze, Introduction to Information Retrieval, Cambridge University Press. 2008. You can order this book at CUP, at your local bookstore or on the internet. The best search term to use is the ISBN: 0521865719. The book aims to provide a modern approach to information retrieval from a co

    nitoyon
    nitoyon 2009/01/14
    情報検索に関する洋書。PDF・HTML版が公開されている。 via http://d.hatena.ne.jp/kaiseh/20090113/1231864089
  • TinySegmenter: Javascriptだけで実装されたコンパクトな分かち書きソフトウェア

    TinySegmenterはJavascriptだけ書かれた極めてコンパクトな日語分かち書きソフトウェアです。 わずか25kバイトのソースコードで、日語の新聞記事であれば文字単位で95%程度の精度で分かち書きが行えます。 Yahoo!形態素解析のように サーバーサイドで解析するのではなく、全てクライアントサイドで解析を行うため、セキュリティの 観点から見ても安全です。分かち書きの単位はMeCab + ipadicと互換性があります。 デモ 日語の文章を入力し、解析ボタンをクリックしてください。 ダウンロード TinySegmenterはフリーソフトウェアです. 修正BSDライセンスに従ってソフトウェアを使用,再配布することができます. Download TinySegmenter version 0.2 使い方 <script type="text/javascript" src

    nitoyon
    nitoyon 2008/05/25
    25KBで形態素解析(品詞は判別せず)
  • グーグル先生を超える良回答連発、Powersetを使ってみた − @IT

    2008/05/15 インターネットの検索でエポックメーキングな出来事は2度しか起こっていない。1994年にジェリー・ヤン氏らが立ち上げたヤフーがインターネットに検索をもたらしたときと、1998年にラリー・ペイジ氏らがグーグルを立ち上げ、Webページの重要度を示す「PageRank」という概念を導入したときだ。検索連動広告の発明もビジネス的には大きなステップだったが、使い勝手の向上というユーザー視点での転回点は2つだけだ。いま、ベンチャー企業の米Powersetが注目を集め、3つ目のイノベーションを起こすかどうかが注目されている。 ネット検索の歴史:数から順位への転換 Powersetが解決しようとしている問題を明確にするために、インターネットの検索エンジンの歴史を少しだけ振り返ってみよう。 グーグルが登場する以前、各検索サイトは、自分たちがいかに多くのWebページをクロールし、検索に対し

    nitoyon
    nitoyon 2008/05/16
    入力元を絞ってクオリティを確保する試み。自然言語的な検索。←ページランクは無機的な印象があるが、こっちだと人の手が介在しているように感じる。
  • [を] 転置インデックスによる検索システムを作ってみよう!

    転置インデックスによる検索システムを作ってみよう! 2007-11-26-5 [Algorithm][Programming] 転置インデックス[2007-06-17-6]による検索システムの実装は パフォーマンスを無視すれば意外と簡単です。 それを示すために Perl で簡単な検索システムを作ってみました。 検索方式は転置インデックス(Inverted Index)、 ランキングには TF-IDF[2005-10-12-1] を用いました。 検索対象ファイルは一行一記事で以下のフォーマットとします。 [記事ID][SPC][記事内容]\n 記事IDは数字、記事内容は UTF-8 の文字で構成されるものとします。 以下のようなサンプル test.txt を用意しました。 1 これはペンです 2 最近はどうですか? 3 ペンギン大好き 4 こんにちは。いかがおすごしですか? 5 ここ最近疲れ

    [を] 転置インデックスによる検索システムを作ってみよう!
    nitoyon
    nitoyon 2008/05/03
    bigram+TF-IDF で検索。Perl のソースでデモ。
  • JavascriptでSuffixArray - やればできる子の日記

    全文検索エンジンを試作してみたよ - やればできる子の日記とJavascriptを組み合わせてもうちょっとなにかできないかなあと思って、JavascriptでSuffixArrayを作ってみました。 上手い具合に組み合わせるアイデアが思いつけなかった(どうせ全文検索用のインデックスを保持しちゃうので、別途SuffixArrayを保持する意味がなさそう)ので、素のまま公開しちゃいます。 ちなみに、Javascriptも自信ないです。僕はJSでのべ2000行程度しか書いたことないはず。 /* Suffix Array構築のアルゴリズムは色々研究されています。 以下のコードはかなり最悪なアルゴリズムなので、実用の際は調査してください。*/ function genSA(text){ var sa = new Array(text.length) for(var i = 0; i < text.l

    JavascriptでSuffixArray - やればできる子の日記
    nitoyon
    nitoyon 2008/04/22
    Suffix Array を JS で。
  • JavaScriptによる全文検索エンジン - llameradaの日記

    JavaScriptでインデックス型の全文検索エンジンを作ってみた。全文検索エンジンを作る際に問題となるのは、インデックスデータを部分的に読み込む方法である。通常はmmapやpreadなどを使ってファイルの一部を部分的に読み込むのだが、もちろん、ブラウザには使えない。ブラウザでファイルの一部分を読み込むには2通りの方法がある。1つは、ファイルを多数のファイルに分割する方法であり、もう1つはHTTPリクエストのRangeヘッダを利用して、ファイルの一部を取得する方法である。前者の利点は、ブラウザのキャッシュが効くことや、対応ブラウザが多いことである。後者の利点は、ファイル数が少なくなるので、インデックスの管理が容易になることである。今回はRangeヘッダの実用性にも興味があったので、後者の方法を用いた。 参考ページ:最速インターフェース研究会 :: Ajaxを使ったシンプルなチャット 転置イ

    JavaScriptによる全文検索エンジン - llameradaの日記
    nitoyon
    nitoyon 2007/01/24
    Content-Range で GET して大きいファイルの一部を非同期で読み取る。
  • 横着プログラミング 第9回: sary: Suffix Array のライブラリとツール

    最終更新日: 2002-12-18 (公開日: 2002-12-18) Unix Magazine 誌に 2002年1月号から 2003年2月号にかけて連載し ていた記事の元の原稿です。 私にフローチャートだけを見せて、テーブルは見せないとしたら、 私はずっと煙に巻かれたままになるだろう。逆にテーブルが見せて もらえるなら、フローチャートはたいてい必要なくなる。 -- Frederick P. Brooks Jr. *1 プログラミングにおいてはデータ構造が重要であり、正しいデータ 構造を選択すればアルゴリズムは自明なものとなる、という主張が ある。Rob Pike*2 の "Notes on Programming in C" *3 によると、現実的なプログラムに必要なデータ構造は次の 4つであ るという。 配列 (array) 連結リスト (linked list) ハッシュテーブル

    nitoyon
    nitoyon 2005/11/24
    検索をすばやく行う Suffix Array に関する解説。
  • 1