タグ

programmingとsearchに関するdochanのブックマーク (2)

  • どうなっているの?あのソフトの仕組み - 今からでも遅くない!アルゴリズム入門:selfup

    Webの全体像を効率よく取り込み,分類する 「YSTのシステムは大まかに三つの機能に分かれます(図2)。最初は世界中のWebページをYSTのシステムに取り込む『クローリング(crawling)』という機能です」(Yahoo! JAPAN,リスティング事業部 検索企画室の宮崎光世氏,以下同)。 取り込むと簡単に言っても,Webページの数は膨大なうえ,更新の頻度や情報の質などがまちまちです。すべてのページに同じようにアクセスしていると非効率なことこの上ありません。そこで,限られた時間で質の良い検索ができるようにするための工夫をしています。例えば,クローリングを繰り返すうちに頻繁に更新されることがわかったページは短いサイクルでチェックし,ほとんど更新のないページはチェックの頻度を落とす,といったことをしているそうです。 ただ,更新の頻度が単に高いだけではダメです。重要性が高いと考えられるWebサ

    どうなっているの?あのソフトの仕組み - 今からでも遅くない!アルゴリズム入門:selfup
  • ソースコード検索の ack がよさげな件: blog.bulknews.net

    ソースコード検索の ack がよさげな件 #catalyst でちょっと話題になっていた ack をいれてみた。CPAN シェルから install App::Ack とするだけ。 基的には grep -r | grep -v .svn | grep -v \~ に飽きてしまった人むけのソースコード検索ツールです。gonzui などとは違いインデックスはつくらないでそのままディレクトリをトラバースして検索するので、あまり大規模だと時間がかかるかもしれませんが、中規模なプロジェクトなら問題なくいけるのでは。 デフォルトで CVS, RCS, .svn, blib といったバージョン管理ディレクトリを無視、-i, -v といった grep 由来のコマンドラインや、 --perlperl ソースコードだけ検索、となかなか気が利いています。デフォルトのカラーリングもイケテル。 grep -

  • 1