mineに関するhetappiのブックマーク (2)

  • いろんなサイトから ISBN を抽出するグリモンのテスト - へたっぴ日記

    2008/05/22 追記 via id:hetappiさんのISBNのグリモンを少し弄った。 - tyoro.exe tyoro さんに指摘してもらって wedata から json 形式で取得したときの Content-Type を text/javascript から application/json に修正しました。ありがとです。 このまえ少し止まってた時に変わったのかな…。 wedata にとりあえず作って1か月ほど放置していた Item - データベース: ISBN Scraper - wedata 。CrossBookSearch のソース中にだーっと書いてあった ISBN を抽出する XPath を Wiki で管理することで、編集を容易にし他のスクリプトなどでも使えるようになります。きっと。 とりあえずテストグリモンでは Document もしくは http な URL

    いろんなサイトから ISBN を抽出するグリモンのテスト - へたっぴ日記
    hetappi
    hetappi 2008/05/21
    マニア歓迎 / Content-Type 直した、thanks tyoro1210
  • Web::Scraper Watch - へたっぴ日記

    env_proxy に喜びすぎて、ほかの更新を見逃してたのは内緒。 さっきちょこっと書いたけど、 - Call env_proxy in scraper CLI D:\>set HTTP_PROXY=http://userid:passwd@proxy.example.com:8080 D:\>scraper "http://quote.yahoo.co.jp/q?s=9684.t&d=t" scraper>とかして、プロキシを設定できるようになった。会社、大学な人で喜んでる人は多いんじゃないでしょうか。 - Added $Web::Scraper::UserAgent and $scraper->user_agent accessor to deal with UserAgent object LWP::UserAgent を設定/参照できるようになった。 今まで my $scraper

    Web::Scraper Watch - へたっぴ日記
    hetappi
    hetappi 2007/09/19
    シェル使っていろいろ試してる時に文字コードを意識しなてよくなるのはうれしいです>id:miyagawa
  • 1