タグ

Pythonに関するvaldaのブックマーク (4)

  • SimString - A fast and simple algorithm for approximate string matching/retrieval

    A fast and simple algorithm for approximate string matching/retrieval SimString is a simple library for fast approximate string retrieval. Approximate string retrieval finds strings in a database whose similarity with a query string is no smaller than a threshold. Finding not only identical but similar strings, approximate string retrieval has various applications including spelling correction, fl

  • http://www.mindswap.org/~katz/pychinko/

    valda
    valda 2008/04/18
    パイちんこ
  • スペル修正プログラムはどう書くか

    Peter Norvig / 青木靖 訳 先週、2人の友人(ディーンとビル)がそれぞれ別個にGoogleが極めて早く正確にスペル修正できるのには驚くばかりだと私に言った。たとえば speling のような語でGoogleを検索すると、0.1秒くらいで答えが返ってきて、もしかして: spelling じゃないかと言ってくる(YahooMicrosoftのものにも同様の機能がある)。ディーンとビルが高い実績を持ったエンジニアであり数学者であることを思えば、スペル修正のような統計的言語処理についてもっと知っていて良さそうなものなのにと私は驚いた。しかし彼らは知らなかった。よく考えてみれば、 別に彼らが知っているべき理由はないのだった。 間違っていたのは彼らの知識ではなく、私の仮定の方だ。 このことについてちゃんとした説明を書いておけば、彼らばかりでなく多くの人に有益かもしれない。Google

    valda
    valda 2007/04/29
    先週、2人の友人(ディーンとビル)がそれぞれ別個にGoogleが極めて早く正確にスペル修正できるのには驚くばかりだと私に言った。たとえば speling のような語でGoogleを検索すると、0.1秒くら...
  • ppkfなんてのを作ってみました | SiteBites Blog

    思いっきり車輪の再発明しまくりですが、必要があったのでPythonだけで日語の文字コード判別をさせてみるようなのを試作しました。 追記: 恐れ多くも Matzさんから名前について突っ込まれてしまいました。 Kanji Filter部分も作ろうかとおもってるうちに、べつに判別だけできればPython2.4以上はCJKCodecs標準だからいいか、とヘタレたということです;-P 追伸: ppkfのアーカイブはここにあります (070409) 以下説明です。同梱されているREADMEと同じ内容です。 概要 日語の文字コードを判別するためのユーティリティです。Pythonで記述されたプログラムの中から使います。 Python2,4以降、CJKCodecsの標準提供により日語の取り扱いも標準化されつつあると思いますが、多数のエンコード方式が混在し、コードと区点の対応が一対一とならない日語環境

    valda
    valda 2007/04/17
    思いっきり車輪の再発明しまくりですが、必要があったのでPythonだけで日本語の文字コード判別をさせてみるようなのを試作しました。
  • 1