タグ

mechanizeに関するsin5のブックマーク (4)

  • スクレイピングするなら ScraperWiki 使うといいよ - ヤルキデナイズドだった

    Web ページからデータを抽出してデータベースに突っ込むことに性的興奮を覚えるみなさん、 ScraperWiki 使うとキモチイイですよ。以上です。 そうではないみなさんには少々の説明が必要かと思いますので少々書きます。 ScraperWiki はスクレーパ(Web ページをスクレイピングするスクリプト)とスクレイピングで得られたデータを共有しようぜっという Web サービスです。Wiki と名が付いていますが Wiki っぽいページ構成になってるわけではなく、スクレーパやデータを誰でも編集できるようにして成果を共有するという理念が Wiki と共通しているのが由来みたいです。 ScraperWiki を使うとスクレーパを作るのがラクになります: Web ベースのエディタでスクレーパを書き、その場で実行できる PHPPython または Ruby が使える(HTML パーサなどのモジュ

    スクレイピングするなら ScraperWiki 使うといいよ - ヤルキデナイズドだった
    sin5
    sin5 2011/06/06
    これもしかして俺の手元にある大量のスクレイピングコードが火を吹くぜ。的な感じ?
  • Ruby の WWW::Mechanize のコツが少し分かってきた

    ただし WWW::Mechanize 0.8.x + Hpricot 時代のノウハウ。 オプション一つで取得した HTML とその解析結果のオブジェクトを全ページ保存できるようにしておくLogger に吐かれる HTTP のログもひとまとめに扱えるようにしておく保存された情報を穴が開くほどよく見る ブラウザではうまくいくけど Mechanize ではダメな場合、HTTP のログはかなり重要なヒントを与えてくれる以上。 特に mechanize の取得した HTML とその解析結果のオブジェクトを自動で保存しておくようにすると、どこの何の解釈に失敗しているのかを究明するのがだいぶ楽になる。単に Hpricot を使ったときなんかもそうなんだけど、とにかく取得した HTML は即座に保存しておいた方がいいと思う。サーバにも優しいしね。 で、実際これを思ってから2週間後にできあがった、楽できるフ

    sin5
    sin5 2009/10/05
    mechanizeのデバッグとログとり
  • はてなブログ | 無料ブログを作成しよう

    来年も作りたい!ふきのとう料理を満喫した 2024年春の記録 春は自炊が楽しい季節 1年の中で最も自炊が楽しい季節は春だと思う。スーパーの棚にやわらかな色合いの野菜が並ぶと自然とこころが弾む。 中でもときめくのは山菜だ。早いと2月下旬ごろから並び始めるそれは、タラの芽、ふきのとうと続き、桜の頃にはうるい、ウド、こ…

    はてなブログ | 無料ブログを作成しよう
  • Greenbear Laboratory - Ruby's WWW::Mechanize 日本語リファレンス

    GitHubindexHello source: index.md View on github | Report issue Generated by middleman 3.1.6. Powered by Ruby 2.2.2.

  • 1