ruby | 09:22 | サンプルで使ったライブラリ gem install nokogiri gem install mechanize Nokogiri HTMLを操作するためのライブラリtenderlove/nokogiri ? GitHub Mechanize Webサイトへ自動でアクセスするためのライブラリ tenderlove/mechanize ? GitHub HTM... 続きを読む
Web ページからデータを抽出してデータベースに突っ込むことに性的興奮を覚えるみなさん、 ScraperWiki 使うとキモチイイですよ。以上です。そうではないみなさんには少々の説明が必要かと思いますので少々書きます。ScraperWiki はスクレーパ(Web ページをス... 続きを読む
どうやらエラーを追っていくと、[pixiv] お知らせ - pixivが英語環境に対応http://www.pixiv.net/info.php?id=511の煽りで「ログアウト」の文字列が現れずログイン状態を確認できていなかったのが原因だった。どうやらこれは、HTTP_ACCEPT_LANGUAGEというHTTPの... 続きを読む
jQuery でスクレイピングできたらセレクタ使えるし便利かなーと思ったりしたんですが、Rhino と env-js を使うと超簡単にできたのでレポートしてみます。 Rhino と env-js って何ぞい? Rhino ってのは Java で書かれた JavaScript エンジンです。Rhino を使う... 続きを読む
CPANのHTML::ExtractContentについて発表。発表資料:http://up.orezdnu.org/papers/Kansai.pm/2009-03-22/slide.pdf 続きを読む