タグ

ブックマーク / llamerada.hatenadiary.org (2)

  • HTML要素を抜き出す正規表現の自動生成プログラム - llameradaの日記

    HTML要素を抜き出す正規表現を自動生成するプログラム html2regexp を作ったので公開します。 札幌市で賢い借金返済方法を教えます! 使い方は簡単で、HTMLファイル中の抜き出したいHTML要素の先頭タグの末尾にh2rと書き加えるだけです。例えば次のように指定します。 <ul> <li><a href="hoge" class="h" h2r>hoge</a></li> <li><a href="huga" class="h" h2r>huga</a></li> </ul> <div> <a href="f">f</a> </div>すると、html2regexpは、2つのa要素を抜き出す次の正規表現を生成します。 (<(\w*?)\s*([^>]*?" class="h"[^>]*?)>(.*?)<\/\2>)HTMLを抜き出して利用したり、Webアプリケーションのテストなどの

    HTML要素を抜き出す正規表現の自動生成プログラム - llameradaの日記
  • ページランクなんて飾りです - llameradaの日記

    ページランクは検索エンジンの精度向上に直接は役立たない。なぜならば、ページランクはページの人気を表す指標だからだ。キーワードが出現したページを人気の高い順に並べても、適切な検索結果は得られない。例えば、日で最も人気の高いページの1つ、Yahooのトップページには「東京」の文字があるが、「東京」で検索してYahooのトップページを検索したい人はそういないだろう。 検索エンジンの精度向上で、最も重要とされるのがアンカーテキストである。具体的には、検索キーワードでよくリンクされているページを、検索結果の上位に表示する。例えば、「東京」という文字で頻繁にリンクされるページを、「東京」での検索結果の上位に表示する。すると、検索精度が大幅に向上することが知られている。 参考:検索エンジン2005 -Webの道しるべ-(情報処理学会誌) - Cafe Babe ページランクとアンカーテキストの大きな違

    ページランクなんて飾りです - llameradaの日記
  • 1