sadahのブックマーク / 2009年3月27日

sadah id:sadah

2009年3月27日のブックマーク (4件)

2つの文字列間の距離計算の抽象化（スペルチェック）（2.4） | 関口宏司のLuceneブログ
一定期間更新がないため広告を表示しています
sadah 2009/03/27
Jaro-Winklerの実装はLuceneにあった

algorithm

Java7
リンク
スペル修正プログラムはどう書くか
Peter Norvig / 青木靖訳先週、2人の友人(ディーンとビル)がそれぞれ別個にGoogleが極めて早く正確にスペル修正できるのには驚くばかりだと私に言った。たとえば speling のような語でGoogleを検索すると、0.1秒くらいで答えが返ってきて、もしかして: spelling じゃないかと言ってくる(YahooやMicrosoftのものにも同様の機能がある)。ディーンとビルが高い実績を持ったエンジニアであり数学者であることを思えば、スペル修正のような統計的言語処理についてもっと知っていて良さそうなものなのにと私は驚いた。しかし彼らは知らなかった。よく考えてみれば、別に彼らが知っているべき理由はないのだった。間違っていたのは彼らの知識ではなく、私の仮定の方だ。このことについてちゃんとした説明を書いておけば、彼らばかりでなく多くの人に有益かもしれない。Googleの
sadah 2009/03/27
algorithm

Programming
リンク
NGramTokenizerとEdgeNGramTokenFilter | 関口宏司のLuceneブログ
一定期間更新がないため広告を表示しています
sadah 2009/03/27
N-Gramに分割できるTokenizer

Java7

algorithm
リンク
検索エンジンを実装 (1)転置インデックス作成
今回はN-gramでテキストを分解します。N-gram法とは対象の文字列を一定のN文字単位で分解し、それの出現頻度を求める方法です。これによって、検索エンジンに使われる転置インデックスを作成したいと思います。転置インデックスの作成方法にはN-gramの他に形態素解析があります。両者の性能の長短は全文検索 – Wikipediaに詳しく載っています。 Javaソースコード(Make2gram.java) さて、まずは文字列を2単語に切り分けるプログラムを作成しました。データ構造は単純にArrayListで、出現頻度も求めていません。 import java.io.*; import java.util.*; /** * N-gram法 */ public class Make2gram { public static void main(String[] args) { final shor
sadah 2009/03/27
N-gramインデックスの作り方について

Java7

algorithm
リンク
- 2009年3月28日
- 2009年3月27日
- 2009年3月26日