タグ

ブックマーク / sasezaki.hatenadiary.org (1)

  • ついでに絶対URLの取得ベンチマーク - 例えば、PHPを使う

    スクレイピングにほとんど必須な作業に、相対パスからhttp://〜のURLを導きだす作業があるわけですが、Diggin_ScraperのデフォのアダプターにしているHTMLScraping classなんかは、正規表現+pearのNet/URLを組み合わせた関数(getAbsoluteUrl)が用意されてまして、それでももちろんOKというか、ピュアPHPなのでそれでいいじゃんていう訳ですが、pecl_httpを使うと正規表現やる必要がないんですよね。やったー。ほら、PHPって正規表現組み込みじゃないから使いにくいし〜。 前々から気になっていたので、ベンチマーク。ただし、私が作ったhttp_build_url仕様のやつは、全部のパターン網羅できてないかも。 絶対URLを取得する方法は、下記のコード以外に、Rinza_IEパッケージのものとか、あるわけですが今回は除外。 <?php requi

    ついでに絶対URLの取得ベンチマーク - 例えば、PHPを使う
    suginoy
    suginoy 2010/09/26
    「スクレイピングにほとんど必須な作業に、相対パスからhttp://~のURLを導きだす作業がある」
  • 1