タグ

perlとsearchに関するfbisのブックマーク (5)

  • trouchelle.com / Perl / PPM Repository

    This repository contains*: 16342 precompiled PPM packages for ActiveState Perl 5.8/Win32. 16283 precompiled PPM packages for ActiveState Perl 5.10/Win32. 12153 precompiled PPM packages for ActiveState Perl 5.12/Win32. 9657 precompiled PPM packages for ActiveState Perl 5.14/Win32. This repository has been temporary put on hold. I've recently relocated to California from Ukraine, leaving all my PPM

  • livedoor Developers Blog:String::Trigram でテキストの類似度を測る - livedoor Blog(ブログ)

    こんにちは。検索グループ解析チームの nabokov7 です。 今回は、livedoor キーワードでの事例より、テキストの類似度を測るのに便利な手法を紹介します。 livedoor キーワードは、livedoor ブログでその日その日で話題になった語をランキング表示するサービスです。 当初、はてなキーワードやWikipediaを足して2で割ったようなサービスを作れといった開き直った指示のもとで開発が開始されたともいう、分社化前の芸風の名残で、キーワードの検索結果にはユーザが自由に解説を書き込める Wikipedia 的スペースもついています。 で、この解説部分に、さまざまなサイトから文章をまる写ししちゃう人がとても多いのですね。 特に多いウィキペディア日語版からの剽窃を防止するために、livedoor キーワードでは以下のような対策を講じることにしました。 ウィキペディア日語版の解説

  • Perl で作る画像類似検索システムの考察

    今日はとてもショッキングな出来事がありました。あまりにショックがでかいので何かに没頭しなければ気が紛れそうにありません。と言うわけで全く専門分野でもないし当面使う予定もないのですが、1年ほど前にちょっと気になっていた画像の類似検索についていろいろ調べてみました。 どうやら ImgSeek ってソフトが結構有名らしいです。最新バージョンは 0.86 で Linux Only です。1つ前のバージョン 0.85 は Windows binary があります。 過去にいくつか画像類似検索ソフトを試したような記憶がありますが忘れてしまいました(vector でも結構類似検索ソフトありますね)。まずは windows binary 版をダウンロードしてきて実行してみました。 それなりに使えそうな予感がします。Linux 向けの imgSeek-0.8.6.tar.bz2 をダウンロードしてインストー

  • 正規表現でCommon Prefix Search

    正規表現でCommon Prefix Search 2007-05-15-1 [Programming][Algorithm] 正規表現でCommon Prefix Searchを行う力技な方法のPerlによるサンプル。 ちょっと試すとき用のコピペ用コード片、といった感じのものです。 TRIEとかオートマトンとかでちゃんとやるのが王道ですよ。 コード: use strict; use warnings; use utf8; binmode STDOUT, ":utf8"; my $str = "あうえういあおういいういああ"; my $key = "ういあ"; my @chars = split("", $key); my $pat = join("(", @chars).(")?" x $#chars); while ($str =~ /($pat)/g) { print "$1\n";

    正規表現でCommon Prefix Search
  • Perl、PHPでGooglebotを一定の確率ではじく

    PerlPHPGooglebotを一定の確率ではじく 2007-05-01-2 [Programming] 「動的生成ページへのGooglebot(Googleのクローラ)のアクセス数 が多すぎてサーバに負荷がかかりすぎる問題」に悩まされています。 robots.txt の Crawl-delay は効かないし[2007-03-21-1]、 Googleウェブマスターツールでクロール率を低く設定しても ある回数よりも下がらないしで困っていました。 アクセス禁止にすれば完全解決なのですが、 それにより検索されなくなるのはファインダビリティが下がって嫌なので、 とりあえずランダムで 503 を返すことで対処しました。 ときどき503が出ることにより、しばらくするとGooglebotが 「サーバが混んでいるんだな」と思ってくれるみたいで、 結果としてクローラのアクセス数が激減、かつ、検索結果

    Perl、PHPでGooglebotを一定の確率ではじく
  • 1