[B! algorithm][search] takadoのブックマーク

Wavelet Tree - naoyaのはてなダイアリー

圧縮全文索引の実装などでしばしば利用される Rank/Select 辞書と呼ばれるデータ構造があります。詳しくは参考文献を参照していただくとして、今回は一般の文字列に対して効率的に Rank/Select を可能とするデータ構造である Wavelet Tree (ウェーブレット木) のライブラリを作りました。 http://github.com/naoya/perl-algorithm-wavelettree/tree/master my $wt = Algorithm::WaveletTree->new("abccbbabca"); is $wt->rank(6, 'a'), 2; is $wt->rank(6, 'b'), 3; is $wt->rank(9, 'b'), 4; is $wt->select(0, 'a'), 0; is $wt->select(1, 'a'), 6;

takado 2008/11/17

リンク

Introduction to Information Retrieval

This is the companion website for the following book. Christopher D. Manning, Prabhakar Raghavan and Hinrich Schütze, Introduction to Information Retrieval, Cambridge University Press. 2008. You can order this book at CUP, at your local bookstore or on the internet. The best search term to use is the ISBN: 0521865719. The book aims to provide a modern approach to information retrieval from a co

takado 2008/01/18

本一冊まるまるpdf公開。スライドもおいてある。

リンク

日本のニュースが・・・

［売れる Leopard：BCN］日本のマック事情が英語ニュースに登場することは滅多にないが、珍しくマックメディア（Macworld、MacNN、Ars Technica、HardMac）で取り上げられた記事がある。 Leopard の販売本数がウインドウズ OS を超えたというものだ。 Macworld: “Leopard mauls competition, takes half Japan retail market” by Martyn Williams: 14 November 2007 ＊　　　　　＊　　　　　＊［Leopard のシェアが過半数を超える：BCN］アップルの新しい Leopard は、この１０月、日本の OS マーケットに大幅に食い込んだ。発売期間が１０月最後の６日間だけだったにも拘らず、OS パッケージ総売上げの過半数を占めるに至った。 Apple’s

takado 2007/11/26

「言語の構造分析に基づくアルゴリズムではなく、異なる言語の中にパターンをみつけて、それを対比させる形で翻訳しようとする試み」

リンク

Kubeflow Central Dashboard

takado 2007/03/16

Aho-Corasick法について

リンク

typo でもまともなページが検索されるわけ - えむもじら

先日、「Google 革命の衝撃」の記事で、 Google で mojilla firefox を検索すると、MJ ほか Mozilla 系正統サイトが、mojira firefox でも mozilla.org がトップに出たりするのはなんででしょう？ソースを見てもそんな変な単語は含まれていません。Google が typo を推測してうまく処理しているのでしょうか。というようなことを書いたのですが、ヒントになるニュースがありました。「"Googlebomb"をやっつけろ!」- アルゴリズム改善で対抗するGoogle (MYCOMジャーナル) 「胡散臭い」検索で亀井静香、KIRIN 極生・生黒が :: SEM R 要するに、だれかがアンカーテキストに（おそらく単純な typo として）mojilla とか mojira とかを指定してリンクを作成したために、そのキーワードに対するラ

takado 2007/01/30

「だれかがアンカーテキストにmojilla とか mojira とかを指定してリンクを作成したために、そのキーワードに対するランクが上昇してしまった」-なるほど

リンク

[を] Count Sketch アルゴリズムというのがおもしろそう

Count Sketch アルゴリズムというのがおもしろそう 2006-10-28-3 [Algorithm] これおもしろそう。大量のデータから出現頻度の高いものを効率よく取り出す方法らしい。 - "Count Sketch" - Radium Software Development http://www.radiumsoftware.com/0610.html#061020 元の論文はここから読める。あとで読んでみる。 - Finding Frequent It ems in Data Streams - Charikar, Chen, Farach-Colton (ResearchIndex) http://citeseer.ist.psu.edu/charikar02finding.html

takado 2006/11/05

「大量のデータから出現頻度の高いものを効率よく取り出す方法らしい」

リンク

グーグルページランク早見表

グーグルページランク早見表ここでは基本的なグーグルページランクの説明を飛ばし、実際にあなたのウェブページがどのようにして、ページランクを獲得するかについてページランク早見表を用いて解説する。グーグルページランクと言うと真っ先に、PR(A) = (1-d) + d(PR(t1)/C(t1) + ... + PR(tn)/C(tn))の式を思い起こすが、細かい説明を飛ばす理由と初心者のために一応　PR=0.15 + 0.85 ｘ（ページのPR/リンクの総数）とだけにしておく。下の早見表はページランクの計算式を元に、どれだけのポイントを獲得しその結果ページランクのランキングがどうなるのかを表したものである。これはあくまでも目安であって、絶対的な数字ではない。しかし、計算上では早見表の数字に限りなく近い結果が出るはずである。忘れないでほしいのは、グーグルページランクにおいてOn-Pag

takado 2006/07/13

リンク

きまぐれ日記: キーワード抽出: tf-idf の意味づけ

単語の重み付けの古典的な方法に tf-idf があります。文書中の各単語の tf-idf 値計算し、値でソートすると、その文書に特徴的な単語リストを得ることができます。 http://nais.to/~yto/clog/2005-10-12-1.html tf-idf は、単なるヒューリスティックスだと考えられていましたが、最近言語モデルに基づく情報検索手法がさかんに研究されるようになり、tf*idf の解釈が明らかになってきました。言語モデルに基づく手法は、ヒューリスティックスばりばりの手法と同性能にもかかわらず、文書のランキングに理論的で合理的な説明を与えることができます。情報検索は、クエリ q に対し、もっとも適合する文書 d_opt を求めるタスクです。つまり、q が与えられたとき、文書 d が出現する確率 p(d|q) の最大化問題と解釈できます。 d_opt = argmax