タグ

algorithmとsearchに関するtakadoのブックマーク (9)

  • Wavelet Tree - naoyaのはてなダイアリー

    圧縮全文索引の実装などでしばしば利用される Rank/Select 辞書と呼ばれるデータ構造があります。詳しくは参考文献を参照していただくとして、今回は一般の文字列に対して効率的に Rank/Select を可能とするデータ構造である Wavelet Tree (ウェーブレット木) のライブラリを作りました。 http://github.com/naoya/perl-algorithm-wavelettree/tree/master my $wt = Algorithm::WaveletTree->new("abccbbabca"); is $wt->rank(6, 'a'), 2; is $wt->rank(6, 'b'), 3; is $wt->rank(9, 'b'), 4; is $wt->select(0, 'a'), 0; is $wt->select(1, 'a'), 6;

    Wavelet Tree - naoyaのはてなダイアリー
  • Introduction to Information Retrieval

    This is the companion website for the following book. Christopher D. Manning, Prabhakar Raghavan and Hinrich Schütze, Introduction to Information Retrieval, Cambridge University Press. 2008. You can order this book at CUP, at your local bookstore or on the internet. The best search term to use is the ISBN: 0521865719. The book aims to provide a modern approach to information retrieval from a co

    takado
    takado 2008/01/18
    本一冊まるまるpdf公開。スライドもおいてある。
  • 日本のニュースが・・・

    [売れる Leopard:BCN] 日のマック事情が英語ニュースに登場することは滅多にないが、珍しくマックメディア(Macworld、MacNN、Ars Technica、HardMac)で取り上げられた記事がある。 Leopard の販売数がウインドウズ OS を超えたというものだ。 Macworld: “Leopard mauls competition, takes half Japan retail market” by Martyn Williams: 14 November 2007 *     *     * [Leopard のシェアが過半数を超える:BCN] アップルの新しい Leopard は、この10月、日の OS マーケットに大幅にい込んだ。発売期間が10月最後の6日間だけだったにも拘らず、OS パッケージ総売上げの過半数を占めるに至った。 Apple’s

    日本のニュースが・・・
    takado
    takado 2007/11/26
    「言語の構造分析に基づくアルゴリズムではなく、異なる言語の中にパターンをみつけて、それを対比させる形で翻訳しようとする試み」
  • Kubeflow Central Dashboard

    Kubeflow Central Dashboard

    takado
    takado 2007/03/16
    Aho-Corasick法について
  • typo でもまともなページが検索されるわけ - えむもじら

    先日、「Google 革命の衝撃」の記事で、 Google で mojilla firefox を検索すると、MJ ほか Mozilla 系正統サイトが、mojira firefox でも mozilla.org がトップに出たりするのはなんででしょう? ソースを見てもそんな変な単語は含まれていません。Google が typo を推測してうまく処理しているのでしょうか。 というようなことを書いたのですが、ヒントになるニュースがありました。 「"Googlebomb"をやっつけろ!」- アルゴリズム改善で対抗するGoogle (MYCOMジャーナル) 「胡散臭い」検索で亀井静香、KIRIN 極生・生黒が :: SEM R 要するに、だれかがアンカーテキストに(おそらく単純な typo として)mojilla とか mojira とかを指定してリンクを作成したために、そのキーワードに対するラ

    takado
    takado 2007/01/30
    「だれかがアンカーテキストにmojilla とか mojira とかを指定してリンクを作成したために、そのキーワードに対するランクが上昇してしまった」-なるほど
  • [を] Count Sketch アルゴリズムというのがおもしろそう

    Count Sketch アルゴリズムというのがおもしろそう 2006-10-28-3 [Algorithm] これおもしろそう。 大量のデータから出現頻度の高いものを効率よく取り出す方法らしい。 - "Count Sketch" - Radium Software Development http://www.radiumsoftware.com/0610.html#061020 元の論文はここから読める。あとで読んでみる。 - Finding Frequent Items in Data Streams - Charikar, Chen, Farach-Colton (ResearchIndex) http://citeseer.ist.psu.edu/charikar02finding.html

    takado
    takado 2006/11/05
    「大量のデータから出現頻度の高いものを効率よく取り出す方法らしい」
  • グーグルページランク早見表

    グーグルページランク早見表 ここでは基的なグーグルページランクの説明を飛ばし、実際にあなたのウェブページがどのようにして、ページランクを獲得するかについてページランク早見表を用いて解説する。 グーグルページランクと言うと真っ先に、PR(A) = (1-d) + d(PR(t1)/C(t1) + ... + PR(tn)/C(tn))の式を思い起こすが、細かい説明を飛ばす理由と初心者のために一応 PR=0.15 + 0.85 x(ページのPR/リンクの総数)とだけにしておく。 下の早見表はページランクの計算式を元に、どれだけのポイントを獲得しその結果ページランクのランキングがどうなるのかを表したものである。これはあくまでも目安であって、絶対的な数字ではない。しかし、計算上では早見表の数字に限りなく近い結果が出るはずである。 忘れないでほしいのは、グーグルページランクにおいてOn-Pag

  • きまぐれ日記: キーワード抽出: tf-idf の意味づけ

    単語の重み付けの古典的な方法に tf-idf があります。文書中の各単語の tf-idf 値計算し、値でソートすると、その文書に特徴的な単語リストを得ることができます。 http://nais.to/~yto/clog/2005-10-12-1.html tf-idf は、単なるヒューリスティックスだと考えられていましたが、最近言語モデルに基づく情報検索手法がさかんに研究されるようになり、tf*idf の解釈が明らかになってきました。言語モデルに基づく手法は、ヒューリスティックスばりばりの手法と同性能にもかかわらず、文書のランキングに理論的で合理的な説明を与えることができます。 情報検索は、クエリ q に対し、もっとも適合する文書 d_opt を求めるタスクです。つまり、q が与えられたとき、文書 d が出現する確率 p(d|q) の最大化問題と解釈できます。 d_opt = argmax

    takado
    takado 2006/03/23
    単語の重み付けに用いられているtf-idfの本質的な意味
  • OBB vs AABB - Radium Software Development

    This domain may be for sale!

    takado
    takado 2006/02/20
    「ドッグフーディング」について。回転のこぎりの安全装置のテストのために自分の指をつっこんだ人の話。エンジニア魂?
  • 1